| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 【ICLR2022】Oral Presentations 强化学习论文5篇 -> 正文阅读 |
|
[人工智能]【ICLR2022】Oral Presentations 强化学习论文5篇 |
来自我的组会报告ppt。 文章目录
引子
Provably Filtering Exogenous Distractors using Multistep Inverse Dynamics
本文提出了EX-BMDP模型,将环境改变分为两大类:外源噪声和内生状态。外源噪声是指与智能体行动无关的噪声(阳光、路人等),内生状态是由智能体行为导致的环境改变(比如视角转换、位置转换等),并且假设两者可以解耦。并以此进行训练。 将环境建模为MDP,并在认为环境的状态转移矩阵近乎确定时,证明了PPE算法能够使得模型收敛。 The Information Geometry of Unsupervised Reinforcement Learning
本文提出了一种几何的视角,能够用非常直观的方式帮助理解无监督强化学习及其不同策略组合的机制,同时推导出了一些有趣的结论。另外本文说明基于相互信息最大化的无监督技能发现算法并不能学习对每个可能的奖励函数最优的技能。技能的数量受状态数量的限制,这表明扩展这些方法来学习更多的技能将达到理论上限。 虽然本文没有很强有力的实验结果支撑,但是由于观点的新颖性,还是得到了很高的评价。 Vision-Based Manipulators Need to Also See from Their Hands
另外,本文尝试将手里眼和第三方视角的优势结合,提出了在信息不足时,使用手里眼数据,并辅以VIB正则化第三方视角表示的方法对模型进行训练,取得了不错的实验成果。 Transform2Act: Learning a Transform-and-Control Policy for Efficient Agent Design论文认为,智能体学会运动的问题中,可以将智能体自身物理结构的选择也作为一个可用的动作。因此在每一个episode中,都先由智能体Transform出自身的物理结构,然后再由智能体根据自身结构进行一些可迁移的control方式。相比以往智能体只有control这一步,本文的智能体取得了更好的运动成绩。 在设计体态方面,使用了组合优化的方法(联合GNN策略),并用通用行为策略来评估只能提的结构设计,用PPO算法进行模型运动训练。由于体态结构相似性(关节、骨架等),智能体习得的控制策略可能具有一定的可迁移能力? 本文还发现,智能体能够自发地学到一些类似长颈鹿、章鱼等形态的结构,这是非常有意思的地方,说不定模型具有一定的进化能力? 论文还制作了实验结果的展示界面:展示页面 Bootstrapped Meta-Learning
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 16:24:52- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |