[人工智能] 【深度强化学习笔记】--第一节：强化学习模型

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 【深度强化学习笔记】--第一节：强化学习模型 -> 正文阅读

[人工智能]【深度强化学习笔记】--第一节：强化学习模型

1.强化学习

强化学习（Reinforcement Learning, RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
强化学习的常见模型是标准的马尔可夫决策过程（Markov Decision Process, MDP）。按给定条件，强化学习可分为基于模式的强化学习（model-based RL）和无模式强化学习（model-free RL），以及主动强化学习（active RL）和被动强化学习（passive RL）。强化学习的变体包括逆向强化学习、阶层强化学习和部分可观测系统的强化学习。求解强化学习问题所使用的算法可分为策略搜索算法和值函数（value function）算法两类。深度学习模型可以在强化学习中得到使用，形成深度强化学习。

2.基本模型

在这里插入图片描述
●智能体(Agent):强化学习的本体,作为学习者或决策者存在;
●环境(Environment):智能体以外的一切,主要指状态;
状态(States):表示环境的数据,状态集是环境中所有可能的状态;
●动作(Actions):智能体可以作出的动作,动作集是智能体可以作出的所有
动作;
●奖励(Rewards):智能体在执行一个动作后,获得的正负奖励信号
●策略(Policy):从状态到动作的映射,智能体基于某种状态选择某种动作
的过程。