[人工智能] 论文分享 --＞强化学习--＞Playing Atari with Deep Reinforcement Learning

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 论文分享 --＞强化学习--＞Playing Atari with Deep Reinforcement Learning -> 正文阅读

[人工智能]论文分享 --＞强化学习--＞Playing Atari with Deep Reinforcement Learning

本次要总结分享的是DeepMind出品的强化学习经典DQN原始论文，论文链接DQN Paper，DeepMind使用该DQN方法，在某些电玩游戏上，机器表现超越人类。

动机和创新点

本篇论文所提方法是第一个将深度网络和强化学习结合起来进行训练的方法，具体而言，将深度网络（卷积网络）提取高维特征，使用Q-learning的学习方式来训练整个网络。
对于一些高维复杂场景，状态特征很难通过人工特征工程的方式提取，这对传统的一些强化学习算法带来挑战，而近些年流行的深度学习，能很好的从高维特征提取到高级特征，并且在自然语言处理、图像、语音等领域得到广泛的应用。
但是对于深度学习与强化学习的结合会面临以下几个挑战
- 大部分深度学习的应用，都需要大量标注好的训练样本，而对于强化学习算法，必须能从稀疏、充满噪声、延迟的奖励信息中去学习，与监督学习中直接学习input和target关联相比，强化学习并没有那么有效率，对样本的利用率较低。
- 大多数深度学习算法都是假设样本间是独立的，而在强化学习中，样本间通常是高度相关的，例如一个episode的样本是 马尔科夫序列。
- 大多数深度学习算法都是假设样本是符合固定的分布，而在强化学习中，随着算法学习新的行为和奖励，数据分布通常会发生变化。

背景

符号定义

$\varepsilon$ ：游戏环境
$a_t$ ： $t$ 时刻采取的动作，其中 $a_t \in A; \ A=\{1,...,K\}$
$x_t$ ： $t$ 时刻的游戏环境表征， $x_t \in R^d$ ，可能是游戏原始图像，或是人工提取的特征向量。
$r_t$ ： $t$ 时刻根据游戏状态得到的奖励，在游戏里就是得分，这个奖励得分可能是有延迟性的（例如某些游戏到最后一步或者特定步后才能获得得分），因此可能依赖于之前一系列动作和游戏状态。
$s_t$ ： $t$ 时刻游戏状态， $s_t = x_1, a_1, x_2,...,a_{t-1},x_t$ ，因为如果仅仅根据 $x_t$ 很难理解当前游戏状态。假设每个序列都是有限长度的，这就会产生大量但是长度有限的MDP（马尔科夫决策过程），对于每个序列都是一个状态。

数学推导

我们之前总结过The Bellman Equation，从这里我们知道，强化学习的目标是最大化未来奖励：
$R_t=\sum_{t'=t}^{T}\gamma^{t'-t}r_{t'}$

上式中 $T$ 为MDP序列长度。

根据The Bellman Equation得到optimal action-value function，也就是：
$Q^{*}(s,a)=\underset{\pi}{max}E[R_t|s_t=s, a_t=a, \pi]$
等价于这种迭代形式：
$Q^{*}(s,a) = E_{s'\sim\varepsilon}[r+\gamma \underset{a'}{max}Q^{*}(s',a')|s,a]$

这里的 $\pi$ 是指策略函数。

上述这种 $Q$ 函数，我们可以用深度网络去拟合，那么我们称这种深度网络为 $Q ? n e t w o r k$ ，其损失函数为：
$L_i(\theta_i) = E_{s,a\sim p(.)}[(y_i-Q(s,a;\theta_i)^2]$

上述 $y_i=E_{s'\sim\varepsilon}[r+\gamma \underset{a'}{max}Q^{*}(s',a')|s,a]$ ， $i$ 表示第 $i$ 次迭代， $p (s, a)$ 表示产生的动作行为概率分布。在训练时，我们将第 $i ? 1$ 次更新得到的参数 $\theta_{i-1}$ 固定好，然后按照 $L_i(\theta_i)$ 进行参数更新。

在这里插入图片描述

注意上述算法是 model-free模式的，他是使用游戏环境产生的样本来进行学习的，而无需显示的去对游戏环境进行估计。
同时他也是 off-policy的学习方式，是采用贪心策略采取动作的，即 $a=\underset{a}{max}Q(s,a;\theta)$ ，这就需要确保积累和探索了足够多的状态空间，在实际操作中，通常采用 ε-greedy strategy，也即随机产生的概率大于 $1-\varepsilon$ 时，则在合法动作空间内随机产生一个动作。

算法流程

在这里插入图片描述
首先我们存储Agent与游戏环境交互产生的样本，如 $e_t=\{s_t, a_t, r_t, s_{t+1}\}$ ，存入到data-set $D=e_1, e_2,...,e_N$ ，这个我们称之为 $replay\ memory$ ，在算法的内层循环里，采用Q-learning 的更新方式，每次从 $D$ 中随机采样minibatch样本，进行学习，来更新network的参数 $\theta$ ，在选择执行的动作时，采用ε-greedy strategy，也即随机产生的概率大于 $1-\varepsilon$ 时，则在合法动作空间内随机产生一个动作，反之直接从 $Q$ 网络中取概率最大的动作，与游戏环境进行交互，产生新的样本。

上述做法有以下三个优点：

因为是off-policy学习方式，所以每个样本可以重复利用多次，提高数据利用效率
因为产生的样本之间是连续的，具有强相关性，不是相互独立不利于网络学习，算法里的随机采样操作打破了样本间相关性。
如果采用on-policy学习方式，也即是执行一步学习一步(没有 $replay\ memory$ )，然后陷入震荡或者局部最优的情况，本算法中采用的 $experience\ replay$ ，行为分布在其先前的许多状态上被平均化，从而平滑学习并避免参数中的振荡或发散。

显然上述算法流程中，有两个地方需要进行估计：

$Q(\phi_j, a_j; \theta)$ ：当前状态下执行动作 $a_j$ 的累积期望价值估计
$\underset{a'}{max}Q(\phi_{j+1}, a'; \theta)$ ：下一个状态最大累积期望价值估计

在DQN实现代码里，分别用两个神经网络来估计上述两个 $Q$ 。

代码实现

代码实现这里参考的是莫烦AI教程代码，写的清晰易懂，推荐大家一读。莫烦教程里已经对代码细节进行了详细的讲解，这里只总结下几个我认为比较重要的点。

一个样本 $_ ) (s,a, r,s\_)$ ：表示在 $s$ 下执行动作 $a$ 后所获得的奖励 $r$ ，后的状态，
代码里用eval_net 和 target_net 分别估计 $Q(\phi_j, a_j; \theta)$ 、 $\underset{a'}{max}Q(\phi_{j+1}, a'; \theta)$ ，并且会每隔一定时间，就会将eval_net replace覆盖 target_net，对于target_net 只要max操作就行，而 eval_net输出中需要将动作a对应的输出gather出来。
存储Agent与环境交互产生的样本 $_ ) (s,a, r,s\_)$ ，进行off-policy的学习，不断的训练eval_net 和 target_net 。
采用ε-greedy strategy，当产生的概率小于等于ε时，则选择 $Q$ 输出概率最大的动作，否则在合法动作空间里随机产生动作。并且随着学习的进行ε 越来越大。

一些改进

Double DQN

在原始DQN中，用eval_net 和 target_net 分别估计 $Q(\phi_j, a_j; \theta)$ 、 $\underset{a'}{max}Q(\phi_{j+1}, a'; \theta)$ ，实际上eval_net 和 target_net 这两个网络在网络更新上存在时延(定期覆盖)， $Q_{max}$ 存在误差；并且实际实验发现， $\underset{a'}{max}Q(\phi_{j+1}, a'; \theta)$ 存在 $o v e r e s t i m a t e$ 。在Double DQN，我们用 $eval\_net$ 预测 $_ s\_$ 得到概率最大的动作 $a^{'}$ ，然后在 $target\_net$ 中得出 $a^{'}$ 的概率。其他的和原始DQN一致。
也即原始DQN的 $y_j$ 为：
$Y_j = R_{j} + \gamma \underset{a'}{max}\ Q(\phi_{j+1}, a'; \theta)$
在Double DQN中 $y_i$ 为：
$Y_j = R_{j} + \gamma\ Q(\phi_{j+1}, \underset{a}{argmax} Q(\phi_{j+1}, a; \theta_j), \theta_{j-1})$
也可以这样理解：
$target\_Q= target\_Q(s\_, \underset{a}{argmax}(eval\_Q(s\_, a_{all})))$

简而言之：区别就在于这里的 target_net 里的最高奖励动作是由 eval_net 产生的，而不是直接reduce_max( target_net)。

Prioritized Experience Replay

因为原始的DQN，每次将Agent与环境交互产生的样本存储起来，然后进行mini_batch的学习，但是这种随机采样的方式，可能比较低效，因为可以思考带权重的采样方式，比如某个样本，模型学习的不好，在采样时应该给予比较大概率，在这里直接将 $abs(self.q\_target - self.q\_eval), axis=1)$ 作为样本采样权重，这样学习起来必然效率更高。但是如何快速的计算每个样本的权重，以及根据权重快速采样呢？论文中提出使用一种 $s u m T r e e$ 的结构。这里就不详细讲了。