1. 引言?

我们上次?最后提到了动作价值函数? $Q_{\pi}$ ,它是与状态(state)、动作(action)和策略函数? $\pi$ ?有关的概率分布函数，其中我们提到的它取最优策略后得到的最优动作价值函数? $Q^*(s_t,a_t)$ ，其中? $\pi$ ?的影响已经被消除，所以在给定状态下我们想要最优化? $Q^*$ ?就是寻找最好的? $a_t=argmaxQ^*(s_t,a)$ ,?所谓价值学习就是使用神经网络DQN来拟合函数? $Q(s,a,w)$ ，其中? $s$ ?是观测到的状态是网络的输入，? $a$ ?是agent需要做出的动作，是网络的输出值， $w$ ?表示网络的参数，下面我们来介绍强化学习(DQN)。

2. DQN

我们刚刚提到我们需要状态作为输入值，在许多情况下当前状态是以图片的形式出现，我们之前讲过：CNN是一种很好的处理图片信息的网络，所以我们将state输入卷积层(Conv)提取特征信息(feature)，再通过全连接层(Dense)计算不同动作下的得分得到reward，输出一个奖励向量 $(r_1,r_2,...,r_n)$ ?, agent只需要选取这个向量中的最大的分量对应的action就可以做出决策了。如下图：

3. TD算法

3.1 算法原理

那么DQN是怎么训练的呢，我们使用的算法是时序差分(Temporal Difference)算法，我们考虑一辆从A点向B点行驶的汽车，如果我们想要利用TD算法预测所需的总时间，TD会先随机猜测一个时间 $t=100$ ,经过一段时间 $t_1=20$ ?行驶后到达了C点此时TD预测还需要? $t_2=70$ ?就可以到达B点，我们发现这相当于现在TD预测所需的总时间是? $t{}'=90$ ?这与一开始的预测有差距，我们知道后面预测的时间更加可靠，因为其中含有真实的信息，而一开始的预测完全是随机的，我们令一开始的预测为 $q=Q(w)$ ，后面的预测值为? $y$ ?，我们称之为TD target，因为它是我们的优化的目标，我们想通过改变? $w$ ?，来使这两者之间的误差? $loss=L$ ?, $L=\frac{1}{2}(q-y)^2$ ，减小，这样预测值就会更加接近真实值，于是我们需要用到之前讲过的优化算法来减小误差，比如说SGD，我们就得到了参数更新的迭代式： $w_{t+1}=w_t-\alpha\frac{\partial L}{\partial w}|w=w_t$ ,看到这里你肯定知道了前面 $L$ 中的1/2出现是因为我们需要计算导数，刚好可以把前面的系数消成1（没错只是为了好看）。

3.2 在DQN中的TD

我们知道return的表达式是 $U_t=\sum_{i=0}^{\infty}\gamma^i R_{t+i}$ ,简单变形就得到 $U_t=R_t+\sum_{i=1}^{\infty}\gamma^i R_{t+i}=R_t+\gamma U_{t+1}$ ,于是我们得到了关于价值函数的递推关系式，由于 $Q[s_t,a_t;w]$ ?是对? $U_t$ ?的期望，所以我们可以使用其对? $U_t$ ?近似，于是有? $Q[s_t,a_t;w]\approx R_t+\gamma Q[s_{t+1},a_{t+1};w]$ ，左侧是预测右侧是TD target。于是就可以使用上述算法了。