| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 离线强化学习(Offline RL)系列3: (算法篇) AWR(Advantage-Weighted Regression)算法详解与实现 -> 正文阅读 |
|
[人工智能]离线强化学习(Offline RL)系列3: (算法篇) AWR(Advantage-Weighted Regression)算法详解与实现 |
[更新记录] 论文信息:Xue Bin Peng, Aviral Kumar, Grace Zhang, Sergey Levine: “Advantage-Weighted Regression: Simple and Scalable Off-Policy Reinforcement Learning”, 2020; 本篇论文由伯克利Sergey Levine团队的Xue Bin Peng以第一作者提出,投稿到ICLR 2020和ICLR 2021,尽管都被Reject了,但是论文的观点和方法实验还是很值得学习的。
1、预备知识1.1 累计奖励
J
(
π
)
=
E
τ
~
p
π
(
τ
)
[
∑
t
=
0
∞
γ
t
r
t
]
=
E
s
~
d
π
(
s
)
,
a
~
π
(
a
∣
s
)
[
r
(
s
,
a
)
]
J(\pi)=\mathbb{E}_{\tau \sim p_{\pi}(\tau)}\left[\sum_{t=0}^{\infty} \gamma^{t} r_{t}\right]=\mathbb{E}_{\mathbf{s} \sim d_{\pi}(\mathbf{s}), a \sim \pi(\mathbf{a} \mid \mathbf{s})}[r(\mathbf{s}, \mathbf{a})]
J(π)=Eτ~pπ?(τ)?[t=0∑∞?γtrt?]=Es~dπ?(s),a~π(a∣s)?[r(s,a)] 1.2 RWR
π
k
+
1
=
arg
?
max
?
π
E
s
~
d
π
k
(
s
)
E
a
~
π
k
(
a
∣
s
)
[
log
?
π
(
a
∣
s
)
exp
?
(
1
β
R
s
,
a
)
]
\pi_{k+1}=\underset{\pi}{\arg \max } \mathbb{E}_{\mathbf{s} \sim d_{\pi_{k}}(\mathbf{s})} \mathbb{E}_{\mathbf{a} \sim \pi_{k}(\mathbf{a} \mid \mathbf{s})}\left[\log \pi(\mathbf{a} \mid \mathbf{s}) \exp \left(\frac{1}{\beta} \mathcal{R}_{\mathbf{s}, \mathbf{a}}\right)\right]
πk+1?=πargmax?Es~dπk??(s)?Ea~πk?(a∣s)?[logπ(a∣s)exp(β1?Rs,a?)] 2、AWR2.1 策略评估策略
(
π
)
(\pi)
(π)相对于策略
(
μ
)
(\mu)
(μ)的提升用下式来表示: 为求得约束条件下的最优策略,可以采用拉格朗日乘数法进行求解,约束条件是策略
π
\pi
π和策略
μ
μ
μ尽可能相似,利用KL散度的概念进行表示: 构建拉格朗日方程,带入化简得: 对
p
i
pi
pi求偏导得到的最优解是: 若要将其用神经网络的形式进行表示,也就是最优策略投影到策略网络上, π ? \pi^{*} π?和 π ? \pi^{*} π?的KL散度尽可能小,转换成优势函数回归的样式: arg ? min ? π E s ~ d μ ( s ) [ D K L ( π ? ( ? ∣ s ) ∥ π ( ? ∣ s ) ) ] = arg ? min ? π E s ~ d μ ( s ) [ D K L ( 1 Z ( s ) μ ( a ∣ s ) exp ? ( 1 β ( R s , a μ ? V μ ( s ) ) ) ∣ ∣ π ( ? ∣ s ) ) ] = arg ? max ? π E s ~ d μ ( s ) E a ~ μ ( a ∣ s ) [ log ? π ( a ∣ s ) exp ? ( 1 β ( R s , a μ ? V μ ( s ) ) ) ] \begin{aligned}&\underset{\pi}{\arg \min } \mathbb{E}_{\mathbf{s} \sim d_{\mu}(\mathbf{s})}\left[\mathrm{D}_{\mathrm{KL}}\left(\pi^{*}(\cdot \mid \mathbf{s}) \| \pi(\cdot \mid \mathbf{s})\right)\right]\\ &=\underset{\pi}{\arg \min } \quad \mathbb{E}_{\mathrm{s} \sim d_{\mu}(\mathbf{s})}\left[\mathrm{D}_{\mathrm{KL}}\left(\frac{1}{Z(\mathbf{s})} \mu(\mathbf{a} \mid \mathbf{s}) \exp \left(\frac{1}{\beta}\left(\mathcal{R}_{\mathrm{s}, \mathbf{a}}^{\mu}-V^{\mu}(\mathbf{s})\right)\right)|| \pi(\cdot \mid \mathbf{s})\right)\right]\\ &=\underset{\pi}{\arg \max } \quad \mathbb{E}_{\mathbf{s} \sim d_{\mu}(\mathbf{s})} \mathbb{E}_{\mathbf{a} \sim \mu(\mathbf{a} \mid \mathbf{s})}\left[\log \pi(\mathbf{a} \mid \mathbf{s}) \exp \left(\frac{1}{\beta}\left(\mathcal{R}_{\mathbf{s}, \mathbf{a}}^{\mu}-V^{\mu}(\mathbf{s})\right)\right)\right]\end{aligned} ?πargmin?Es~dμ?(s)?[DKL?(π?(?∣s)∥π(?∣s))]=πargmin?Es~dμ?(s)?[DKL?(Z(s)1?μ(a∣s)exp(β1?(Rs,aμ??Vμ(s)))∣∣π(?∣s))]=πargmax?Es~dμ?(s)?Ea~μ(a∣s)?[logπ(a∣s)exp(β1?(Rs,aμ??Vμ(s)))]? 2.2 伪代码
2.3 off policyon policy的采样效率很低,每次迭代中收集到的数据在一次更新迭代之后会被丢弃,为了充分提升样本的利用效率,算法利用了Off-policy思想,最新策略 π k \pi_{k} πk?收集到的数据存储到缓冲区 D D D中。对V函数进行拟合和策略改进时,采样策略为之前的策略或者其他不同策略共同组成的一个复合策略。 2.3.1 样本分布经验池 D D D是之前的策略采集的数据,轨迹分布、状态动作分布和状态分布如下: μ ( τ ) = ∑ i = 1 k w i d π i ( τ ) , μ ( s , a ) = ∑ i = 1 k w i d π i ( s ) π i ( a ∣ s ) , d μ ( s ) = ∑ i = 1 k w i d π i ( s ) \mu(\tau)=\sum_{i=1}^{k} w_{i} d_{\pi_{i}}(\tau), \quad \mu(\mathbf{s}, \mathbf{a})=\sum_{i=1}^{k} w_{i} d_{\pi_{i}}(\mathbf{s}) \pi_{i}(\mathbf{a} \mid \mathbf{s}), \quad d_{\mu}(\mathbf{s})=\sum_{i=1}^{k} w_{i} d_{\pi_{i}}(\mathbf{s}) μ(τ)=i=1∑k?wi?dπi??(τ),μ(s,a)=i=1∑k?wi?dπi??(s)πi?(a∣s),dμ?(s)=i=1∑k?wi?dπi??(s) 2.3.2 策略提升添加策略权重 求解得到的结果: 2.3.3 价值函数设置baseline,在
D
D
D中采样数据进行拟合得到价值函数: 3、实验在mujoco、Humanoid和Dog上实验 和其他算法进行比较 AWR在某些环境上表现很好 AWR相对于RWR有了明显提升 时间更短,可以更快的收敛 在静态数据集上效果也不错 Github 参考文献[1]. Xue Bin Peng,Aviral Kumar,Grace Zhang,Sergey Levine: “Advantage-Weighted Regression: Simple and Scalable Off-Policy Reinforcement Learning”, 2019; xbpeng.github.io/projects/AWR/2019_AWR.pdf7. OfflineRL推荐阅读离线强化学习(Offline RL)系列3: (算法篇) Onestep 算法详解与实现 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/8 3:08:30- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |