[人工智能] 【ICLR2022】Oral Presentations 强化学习论文5篇

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 【ICLR2022】Oral Presentations 强化学习论文5篇 -> 正文阅读

[人工智能]【ICLR2022】Oral Presentations 强化学习论文5篇

来自我的组会报告ppt。

文章目录

引子

在这里插入图片描述
从ICLR2020的论文中，选择了强化学习方向的五篇最新论文，简要描述一下论文的中心思想，具体细节请阅读原文。

Provably Filtering Exogenous Distractors using Multistep Inverse Dynamics

在这里插入图片描述
在Model-Based RL构建真实世界模型时，很难有对外源噪声的鲁棒性。比如在进行环境建模时，智能体视角转变时，很有可能路人、阳光等都会发生改变，而机器将会认为这些改变是因为智能体视角转变导致的。这将导致最终训练结果不鲁棒。

本文提出了EX-BMDP模型，将环境改变分为两大类：外源噪声和内生状态。外源噪声是指与智能体行动无关的噪声（阳光、路人等），内生状态是由智能体行为导致的环境改变（比如视角转换、位置转换等），并且假设两者可以解耦。并以此进行训练。

将环境建模为MDP，并在认为环境的状态转移矩阵近乎确定时，证明了PPE算法能够使得模型收敛。

The Information Geometry of Unsupervised Reinforcement Learning

在这里插入图片描述
本文提出了用几何视角看待无监督强化学习的新视角。在奖励函数十分稀疏、甚至可以认为没有奖励函数的环境中，强化学习就变成了无监督强化学习。无监督的预训练是为了学习技能、收集更加广泛的数据，当给予奖励函数时，可以快速组合技能以最大化奖励。

本文提出了一种几何的视角，能够用非常直观的方式帮助理解无监督强化学习及其不同策略组合的机制，同时推导出了一些有趣的结论。另外本文说明基于相互信息最大化的无监督技能发现算法并不能学习对每个可能的奖励函数最优的技能。技能的数量受状态数量的限制，这表明扩展这些方法来学习更多的技能将达到理论上限。

虽然本文没有很强有力的实验结果支撑，但是由于观点的新颖性，还是得到了很高的评价。

Vision-Based Manipulators Need to Also See from Their Hands

在这里插入图片描述
论文比较了机械臂抓取物体训练时手里眼（摄像头在机械臂手心）和第三方视角的不同，通过实验说明，当具有充足的信息时，手里眼具有更好的泛化性能和训练性能。

另外，本文尝试将手里眼和第三方视角的优势结合，提出了在信息不足时，使用手里眼数据，并辅以VIB正则化第三方视角表示的方法对模型进行训练，取得了不错的实验成果。

Transform2Act: Learning a Transform-and-Control Policy for Efficient Agent Design

在这里插入图片描述

论文认为，智能体学会运动的问题中，可以将智能体自身物理结构的选择也作为一个可用的动作。因此在每一个episode中，都先由智能体Transform出自身的物理结构，然后再由智能体根据自身结构进行一些可迁移的control方式。相比以往智能体只有control这一步，本文的智能体取得了更好的运动成绩。

在设计体态方面，使用了组合优化的方法（联合GNN策略），并用通用行为策略来评估只能提的结构设计，用PPO算法进行模型运动训练。由于体态结构相似性（关节、骨架等），智能体习得的控制策略可能具有一定的可迁移能力？

本文还发现，智能体能够自发地学到一些类似长颈鹿、章鱼等形态的结构，这是非常有意思的地方，说不定模型具有一定的进化能力？

论文还制作了实验结果的展示界面：展示页面

Bootstrapped Meta-Learning

在这里插入图片描述
本文指出，传统的元梯度为了减少计算，常常采用优化K步更新后的性能，这导致了两个问题：曲率和短视。为此，本文提出了一种新的元梯度优化策略，即提出一个“伪指标”替代原先的指标，并让模型逐渐逼近“伪指标”，因为“伪指标”是可以自己选取的，因此可以采用自举的方式进行学习。另一方面，不断让“伪指标”逼近目标，从而在一个更加高维（个人理解）的空间中实现目标的逼近。