IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 强化学习:(二)价值学习 -> 正文阅读

[人工智能]强化学习:(二)价值学习

valued-based learnning with Deep Q-Network (DQN)

目标:使reward最大化

a的选择:

1)如果已经知道了 Q ? ( s , a ) Q^*(s,a) Q?(s,a) ,那么最好的 a ? = a r g m a x Q ? ( s , a ) a^*=\rm{argmax}Q^*(s,a) a?=argmaxQ?(s,a), 也就是使得平均回报值最大的a

2)其实我们不知道 Q ? ( s , a ) Q^*(s,a) Q?(s,a) ,我们需要把他学习出来,比如用Deep Q-Network (DQN)。基本思路:用一个神经网络 Q ( s , a ; w ) Q(s,a;w) Q(s,a;w) 来近似出 Q ? ( s , a ) Q^*(s,a) Q?(s,a) ,其中w是参数,s为输入,输出为一系列打分值,不断提高打分值的合理性,以此优化网络。

在这里插入图片描述

一、TD算法

如何训练DQN?TD算法(temporal difference learning,瞬时差分法)最常用

先来看一个例子。一般的参数更新方法:比如我想知道从NYC到atlanta要多久,我先估计是1000min,然后实际开车去一次,测得860min,最后更新估计值。具体的表达式如下:

估计: q = Q ( w ) q=Q(w) q=Q(w)

真实值: y y y

loss: L = 1 2 ( q ? y ) 2 L=\frac{1}{2}(q-y)^2 L=21?(q?y)2

gradient:
在这里插入图片描述

gradient descent(梯度下降):
在这里插入图片描述
其中 α 称为学习率

缺点:需要完成整个旅途才能对模型做一次更新

利用半路上的数据进行w的优化:先估计是1000min,然后从NYC开到DC,发现用了300min,此时重新估计剩余路程的时间为600min,则从NYC到atlanta的估计为300+600=900,这个900称为TD target,它比原来的1000更准,用y表示(这里y不再是真实值了,因为包含了一段估计,应该理解为“充分利用已知信息得到的最好的值”)。(越接近亚特兰大,TD target越准)

TD error: Q ( w ) ? y Q(w)-y Q(w)?y,注意这不是估计值与真实值的差,而是第一次估计和第二次估计的差

loss: L = 1 2 ( Q ( w ) ? y ) 2 L=\frac{1}{2}(Q(w)-y)^2 L=21?(Q(w)?y)2

gradient:
在这里插入图片描述

gradient descent(梯度下降):
在这里插入图片描述
在这里插入图片描述

TD算法的目标就是让TD error趋于0(也就是前一次估计和后一次估计一样,说明估计值不能再好了)

TD算法的使用条件:
在这里插入图片描述

二、在DRL中使用TD算法

上面的式子是怎么来的呢?先看 U t U_t Ut? 的动态:

在这里插入图片描述

而Q是对U的期望,因此:

在这里插入图片描述

它的形式和TD算法的迭代是相同的

用TD算法训练DQN(更新其参数的过程):

在这里插入图片描述

三、参考资料

深度强化学习(全)

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-07-26 12:05:46  更:2021-07-26 12:06:03 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年4日历 -2024/4/23 16:49:37-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码