[人工智能] 强化学习之TRPO

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 强化学习之TRPO -> 正文阅读

[人工智能]强化学习之TRPO

视频链接：https://www.youtube.com/watch?v=fcSYiyvPjm4&list=PLp0tvPwd1T7AD822A9tJ-jfQnMtSKh_Rz&index=3&ab_channel=ShusenWang

TRPO算法重复着两个步骤：

近似：我们构建一个 $L(\theta|\theta_{old})$ 函数，在信赖域内近似于价值函数 $J(\theta)$ 。
最大化：在信赖域内，找到一组新的参数，使得 $L(\theta|\theta_{old})$ 最大化。

近似：

$V_{\pi}(s) = \sum_a \pi(a|s;\theta) * Q_{\pi}(s,a) \\ = \sum_a \pi(a|s;\theta_{old})\frac{\pi(a|s;\theta)}{\pi(a|s;\theta_{old})} * Q_{\pi}(s,a) \\ = E_{A～\pi(a|s;\theta_{old})}[\frac{\pi(a|s;\theta)}{\pi(a|s;\theta_{old})} * Q_{\pi}(s,a)]$

$J(\theta) = E_S[V_{\pi}(S)] \\ = E_{S,A}[\frac{\pi(A|S;\theta)}{\pi(A|S;\theta_{old})} * Q_{\pi}(S,A)]$

这是TRPO的最重要的公式。

在实际运用中，我们做蒙特卡洛近似，如果对于旧策略，我们收集到的数据如下：
$s_1,a_1,r_1,s_2,a_2,r_2,...,s_n,a_n,r_n$
公式改变如下：
$L(\theta|\theta_{old}) = \frac{1}{n}\sum_{i=1}^{n}\frac{\pi(a_i|s_i;\theta)}{\pi(a_i|s_i;\theta_{old})} * Q_{\pi}(s_i,a_i)$
这里L就是对J的近似，但这里还无法对L做最大化，原因在于动作价值函数Q我们并不知道是什么，所以我们也要对它做近似。

对于Q是动作价值的期望，我们对它做蒙特卡洛近似，根据折扣函数，可得：
$u_i = r_i + \gamma r_{i+1} + \gamma^2r_{i+2}... + \gamma^{n-i} r_n$
我们可以用这种计算方式来代替Q。

最大化

有了上面的近似以后，我们对其在信赖域内作最大化：通过调整策略网络参数，使得新的策略网络的奖励期望越大越好。数学公式表达为：
$\theta_{new} \leftarrow argmax_{\theta}L(\theta|\theta_{old}) \\ s.t. \theta \in N{(\theta_{old})}$
有很多方式表达两组参数的距离，这里介绍两种：

二范数距离，即两者的欧式距离，平方和后开方：
$||\theta - \theta_{old}|| < \Delta$
KL散度：这不是用来衡量两组参数的，而是用来衡量网络输出的概率分布的，概率分布的区别越大，KL散度越大，区别越小越趋近于0，也叫相对熵。

离散形式
$\sum P(x)log \frac{P(x)}{Q(x)}$
连续形式：
$\int P(x)log \frac{P(x)}{Q(x)}dx$

那么这里的约束条件就是：
$\frac{1}{n} \sum_{i=1}^{n} KL[\pi(.|s_i;\theta_{old})||\pi(.|s_i;\theta)] < \Delta$
至此，游戏完成了一轮episode，我们进行了一次参数更新，往往更新进行很多次才能得到一个比较好的策略网络。