学了三节强化学习视频课,对其中的一些概念和公式以及方法掌握还是不太熟悉,想着停下来看一看书籍以及各路大神对前面的理解,所以本篇就是记录自己再看书籍以及资料时觉得重要的东西。以便自己在忘记的时候进行反思学习。本篇所看书籍是强化学习导论以及易强化学习两本书籍。
强化学习
- 两个特征 - 试错法和延迟奖励 - 是强化学习的两个最重要的可区别特征。
- 与监督学习和无监督学习的不同:监督学习从有标记的训练集中学习,而强化学习从自己的经验中学习;无监督学习主要是学习未标记数据集中的数据分布,虽然个体的经验数据中揭示数据分布确实对强化学习有用,但是强化学习试图最大化奖励信号而不是试图找到隐藏的分布。所以我们认为强化学习是除监督学习和无监督学习之外的第三种机器学习范式,也许还有其他范式。
- 在强化学习中出现而在其他类型学习中未出现的挑战之一,是如何权衡探索(Exploration)与利用(Exploitation)之间的关系。为了获得大量奖励,强化学习个体必须倾向于过去已经尝试过并且能够有效获益的行动。 但是要发现这样的行为,它必须尝试以前没有选择过的行为。 个体必须充分利用它既有经验以获得收益,但它也必须探索,以便在未来做出更好的动作选择。
强化学习的要素
在个体和环境之外,强化学习系统一般有四个要素:策略,奖励信号,价值函数,和可选的环境模型。
- 策略定义了学习个体在给定时间内的行为方式。一般来说,策略对指定每个动作的概率而言可以是随机的。
- 奖励信号定义了强化学习问题的目标。在每个时间步骤,环境向强化学习个体发送的单个数字称为 奖励。 个体的唯一目标是最大化其长期收到的总奖励。
- 虽然奖励信号表明了直接意义上的好处,但价值函数指定了长期收益。 粗略地说,一个状态的价值是个体从该状态开始在未来可以预期累积的收益总额。 虽然奖励决定了环境状态的直接,内在的价值,但价值表明了在考虑了可能遵循的状态和这些状态下可获得的奖励之后各状态的长期价值。奖励在某种意义上是主要的,而作为奖励预测的价值是次要的。 没有奖励就没有价值,估算价值的唯一目的就是获得更多回报。 然而,在制定和评估决策时,我们最关心的是价值。 行动选择基于价值判断。 我们寻求带来最高价值状态的行动,而不是最高奖励状态的行动,因为从长远来看,这些行动会为我们带来最大的回报。
- 环境模型,这是对环境的模拟,或者更一般地说,它对环境的行为做出推断。
- 价值和价值函数的概念是我们在本书中考虑的大多数强化学习方法的关键。 我们认为价值函数对于在策略空间中高效搜索非常重要。 价值函数的使用将强化学习方法与在整个策略评估指导下直接搜索策略空间的进化方法区分开来。
给大家推荐一个视频,有关于强化学习基础的公式推导,讲得十分透彻
【机器学习】白板推导系列(三十四) ~ 强化学习之马尔科夫决策过程
看完这个视频,简直就是清爽得不得鸟。
|