1.强化学习
强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题 。 强化学习的常见模型是标准的马尔可夫决策过程(Markov Decision Process, MDP)。按给定条件,强化学习可分为基于模式的强化学习(model-based RL)和无模式强化学习(model-free RL) ,以及主动强化学习(active RL)和被动强化学习(passive RL) 。强化学习的变体包括逆向强化学习、阶层强化学习和部分可观测系统的强化学习。求解强化学习问题所使用的算法可分为策略搜索算法和值函数(value function)算法两类。深度学习模型可以在强化学习中得到使用,形成深度强化学习 。
2.基本模型
●智能体(Agent):强化学习的本体,作为学习者或决策者存在; ●环境(Environment):智能体以外的一切,主要指状态; 状态(States):表示环境的数据,状态集是环境中所有可能的状态; ●动作(Actions):智能体可以作出的动作,动作集是智能体可以作出的所有 动作; ●奖励(Rewards):智能体在执行一个动作后,获得的正负奖励信号 ●策略(Policy):从状态到动作的映射,智能体基于某种状态选择某种动作 的过程。
3.学习过程
Step1:智能体感知环境状态; Step2:智能体根据某种策略做出动作; Step3:动作作用于环境导致环境状态改变; Step4:同时,环境向智能体发出一个反馈信号。
4.强化学习目标
智能体寻找在连续时间序列里的最优策略最优策略是指使得长期累 积奖励最大化的策略。
|