1. 引言

我们现在来介绍在TD算法中出现的一类问题：高估(overestimation)。这个问题会极大地影响TD算法的准确性，下面来具体介绍高估问题和其解决方案。

2. Overestimation

我们所说的高估指的是对TD target $y_t=r_t+\gamma \underset{a}{max}Q(s_{t+1},a;w)$ 的高估，下面是两种高估的产生原因。

2.1 Maximization

第一个原因就是最大化(maximization)导致的高估，问题就出在? $\underset{a}{max}Q(s_{t+1},a;w)$ ?的 $max$ 上，下面我们来证明：

我们设真实的动作价值组成的集合为为? $P=\left \{ x(a_1),x(a_2),...,x(a_n) \right \}$ ?神经网络预测的动作价值组成的集合为为? $Q=\left \{ Q(s,a_1;w),Q(s,a_2;w),...,Q(s,a_n;w) \right \}$ ，由于这是预测值，其中不可避免的会比真实值多出一些噪声，我们那么易得 $P\subseteq Q$ ，那么自然就有 $E[max_iQ_i]\geq max_i(x_i)$

?于是? $\underset{a}{max}Q(s_{t+1},a;w)$ ?总是要比真实值要大些，就是被高估了。

2.2 Bootstrapping

第另一种高估的产生原因是自提(bootstrapping)字面意思是我们用手提自己的鞋子以达到将自己提起来的目的，这在真实世界中是违背物理规律的，但是在强化学习中有另一种含义：

我们知道TD target是用来我们更新神经网络? $Q(s_t,a_t;w)$ 的目标值，由于Maximization我们知道 $\underset{a}{max}Q(s_{t+1},a;w)$ 会不可避免地被高估，那么由于TD target中含有这一项，那么 $Q(s_t,a_t;w)$ 就也会被高估，这样DQN中的高估变得更加严重。

?有点像正反馈调节。

3. Solution

下面介绍两种有效的解决方法

3.1 Target Network

第一种方法是再加入一个假的动作价值网络Target network? $Q(s_t,a;w^-)$ ?他的参数与真实的动作价值网络不相同，但是结构一样，这个网络不用于指导agent进行决策，它的作用有两个：一个是选择最优动作 $a^*=argmaxQ(s_{t+1},a;w^-)$ ?另一个是计算TD target? $y_t=r_t+\gamma \underset{a}{max}Q(s_{t+1},a^*,w^-)$ ?，这个网络的参数也需要更新，但是不是一步一更新，而是隔几步更新一次，可以拷贝真实网络的参数也可以将真实网络的参数和原来的参数求平均后赋值即可，其本质上相当于滞后更新以抵消bootstrapping效应，但是maximization的问题没有解决。

3.2 Double DQN

另一种方法是也是加入一个Target network? $Q(s_t,a;w^-)$ ?但是我们不让它两步都做，我们依然使用真实网络进行选择最优动作? $a^*=argmaxQ(s_{t+1},a,w)$ ?，再使用Target network进行计算TD target

$y_t=r_t+\gamma Q(s_{t+1},a^*,w^-)$ ，就是这个区别减小了maximization效应，下面证明：

显然有? $Q(s_{t+1},a^*,w^-)\leq \underset{a}{max}Q(s_{t+1},a;w^-)$ ?，我们便得到最大化的程度减小，因此抵消部分最大化的影响，但是要注意的是，我们并没有完全消除maximization效应，因为Target network的参数随着真实网络变化，所以仍然存在最大化影响，只是消减了许多。