[人工智能] 强化学习论文阅读-Model-Based RL

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 强化学习论文阅读-Model-Based RL -> 正文阅读

[人工智能]强化学习论文阅读-Model-Based RL

来自我的组会报告ppt

文章目录

引子

在这里插入图片描述
在model-free的方法中，无非两种方式，value-based方法先学习值函数（MC或TD）再更新策略，policy-based方法直接将真实轨迹数据（real experience）更新策略。而model-based方法呢，顾名思义，会先将着重点放在环境模型(environment dynamics)，通过采样先学习一个对环境的建模，再根据学习到的环境模型做值函数/策略优化。在model-based方法中，planning步骤至关重要，正是通过在learned model基础上做planning才提高了整个强化学习算法迭代的效率。
在完成了对环境的建模后，在model-based大类方法中同样有两种路径，一种是通过学到的model生成一些仿真轨迹，通过仿真轨迹估计值函数进而优化策略；另一种是通过学到的model直接优化策略，这也是目前model-based方法常走的路线。

a. Model is learned

Imagination-Augmented Agents for Deep Reinforcement Learning, Weber et al, 2017. Algorithm: I2A.（deepmind）

在这里插入图片描述
Ot即为t时刻的环境状态（St）
使rollout policy来模仿最终的想象力增强的策略, 以此来进行rollout policy 的训练。

也就是说，通过和环境交互采样后，让系统学习到一个可编码的环境。在决策时，就先考虑通过模型“想象”后续情况，然后得到一个策略。得到策略后，再将这个策略用无模型的方式进行表征。

Neural Network Dynamics for Model-Based Deep Reinforcement Learning with Model-Free Fine-Tuning, Nagabandi et al, 2017. Algorithm: MBMF.

在这里插入图片描述
基于模型和无模型的方法各有千秋，这篇文章希望把基于模型的收敛快和无模型的水平高相结合。因此使用模仿学习，学习专家策略，让无模型的网络较快地达到一个相对可以接受的水平，然后采用无模型强化学习。
核心其实就是用模仿学习加快了无模型强化前期的收敛速度。

Model-Based Value Expansion for Efficient Model-Free Reinforcement Learning, Feinberg et al, 2018. Algorithm: MVE.

在这里插入图片描述
因为模型是学习得到的，在规划时如果步数太多，模型很容易会有偏差，于是采用H步截断的方式。这样也可以减少计算的复杂度。
另外，使用AC方式训练模型，用专家网络估计后续步骤的reward，用Q估计H步后局面的价值。

Sample-Efficient Reinforcement Learning with Stochastic Ensemble Value Expansion, Buckman et al, 2018. Algorithm: STEVE.

在这里插入图片描述
感觉就是刷分的方式。
用多个网络估计reward。
用多个网络学习model，进行状态转移估计。
用多个网络对H步的状态价值进行估计。
当然效果肯定也好。对于越难学到的model，ensemble的效果越好。

Model-Ensemble Trust-Region Policy Optimization, Kurutach et al, 2018. Algorithm: ME-TRPO.

在这里插入图片描述
用监督学习方法学习环境动力模型，然后用TRPO进行agent的策略学习。最后用ensemble的方式让模型work得更好。

Model-Based Reinforcement Learning via Meta-Policy Optimization, Clavera et al, 2018. Algorithm: MB-MPO.

在这里插入图片描述
之前的基于model的都是先随机采样学得model，之后都用这个学到的model了。本文使用环境采样和策略学习交替进行的方式。
可以想象，在前期模型不太好的情况下进行策略学习可能会带来算力上的浪费。每次学习的时候采样的又不多。
实际上，每一次学习策略都是用元学习的方式。
最终呢，这个模型不容易受到模型偏差的影响，因为它不断地在刷新自己对模型的认知。