IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 2021-11-29 强化学习第三天 -> 正文阅读

[人工智能]2021-11-29 强化学习第三天

学了三节强化学习视频课,对其中的一些概念和公式以及方法掌握还是不太熟悉,想着停下来看一看书籍以及各路大神对前面的理解,所以本篇就是记录自己再看书籍以及资料时觉得重要的东西。以便自己在忘记的时候进行反思学习。本篇所看书籍是强化学习导论以及易强化学习两本书籍。

强化学习

  1. 两个特征 - 试错法和延迟奖励 - 是强化学习的两个最重要的可区别特征。
  2. 与监督学习和无监督学习的不同:监督学习从有标记的训练集中学习,而强化学习从自己的经验中学习;无监督学习主要是学习未标记数据集中的数据分布,虽然个体的经验数据中揭示数据分布确实对强化学习有用,但是强化学习试图最大化奖励信号而不是试图找到隐藏的分布。所以我们认为强化学习是除监督学习和无监督学习之外的第三种机器学习范式,也许还有其他范式。
  3. 在强化学习中出现而在其他类型学习中未出现的挑战之一,是如何权衡探索(Exploration)与利用(Exploitation)之间的关系。为了获得大量奖励,强化学习个体必须倾向于过去已经尝试过并且能够有效获益的行动。 但是要发现这样的行为,它必须尝试以前没有选择过的行为。 个体必须充分利用它既有经验以获得收益,但它也必须探索,以便在未来做出更好的动作选择。

强化学习的要素

在个体和环境之外,强化学习系统一般有四个要素:策略,奖励信号,价值函数,和可选的环境模型。

  1. 策略定义了学习个体在给定时间内的行为方式。一般来说,策略对指定每个动作的概率而言可以是随机的。
  2. 奖励信号定义了强化学习问题的目标。在每个时间步骤,环境向强化学习个体发送的单个数字称为 奖励。 个体的唯一目标是最大化其长期收到的总奖励。
  3. 虽然奖励信号表明了直接意义上的好处,但价值函数指定了长期收益。 粗略地说,一个状态的价值是个体从该状态开始在未来可以预期累积的收益总额。 虽然奖励决定了环境状态的直接,内在的价值,但价值表明了在考虑了可能遵循的状态和这些状态下可获得的奖励之后各状态的长期价值。奖励在某种意义上是主要的,而作为奖励预测的价值是次要的。 没有奖励就没有价值,估算价值的唯一目的就是获得更多回报。 然而,在制定和评估决策时,我们最关心的是价值。 行动选择基于价值判断。 我们寻求带来最高价值状态的行动,而不是最高奖励状态的行动,因为从长远来看,这些行动会为我们带来最大的回报。
  4. 环境模型,这是对环境的模拟,或者更一般地说,它对环境的行为做出推断。
  5. 价值和价值函数的概念是我们在本书中考虑的大多数强化学习方法的关键。 我们认为价值函数对于在策略空间中高效搜索非常重要。 价值函数的使用将强化学习方法与在整个策略评估指导下直接搜索策略空间的进化方法区分开来。

给大家推荐一个视频,有关于强化学习基础的公式推导,讲得十分透彻

【机器学习】白板推导系列(三十四) ~ 强化学习之马尔科夫决策过程

看完这个视频,简直就是清爽得不得鸟。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-11-30 15:37:27  更:2021-11-30 15:40:01 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 2:16:57-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码