开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 强化学习：（二）价值学习 -> 正文阅读

[人工智能]强化学习：（二）价值学习

2）其实我们不知道 $Q^*(s,a)$ ，我们需要把他学习出来，比如用Deep Q-Network (DQN)。基本思路：用一个神经网络 $Q (s, a; w)$ 来近似出 $Q^*(s,a)$ ，其中w是参数，s为输入，输出为一系列打分值，不断提高打分值的合理性，以此优化网络。

在这里插入图片描述

一、TD算法

如何训练DQN？TD算法（temporal difference learning，瞬时差分法）最常用

先来看一个例子。一般的参数更新方法：比如我想知道从NYC到atlanta要多久，我先估计是1000min，然后实际开车去一次，测得860min，最后更新估计值。具体的表达式如下：

估计： $q = Q (w)$

真实值： $y$

loss： $L=\frac{1}{2}(q-y)^2$

gradient：
在这里插入图片描述

gradient descent（梯度下降）：
在这里插入图片描述
其中 α 称为学习率

缺点：需要完成整个旅途才能对模型做一次更新

利用半路上的数据进行w的优化：先估计是1000min，然后从NYC开到DC，发现用了300min，此时重新估计剩余路程的时间为600min，则从NYC到atlanta的估计为300+600=900，这个900称为TD target，它比原来的1000更准，用y表示（这里y不再是真实值了，因为包含了一段估计，应该理解为“充分利用已知信息得到的最好的值”）。（越接近亚特兰大，TD target越准）

TD error： $Q (w) ? y$ ，注意这不是估计值与真实值的差，而是第一次估计和第二次估计的差

loss： $L=\frac{1}{2}(Q(w)-y)^2$