| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 离线强化学习系列3(算法篇): AWAC算法详解与实现 -> 正文阅读 |
|
[人工智能]离线强化学习系列3(算法篇): AWAC算法详解与实现 |
论文信息:AWAC: Accelerating Online Reinforcement Learning with Offline Datasets 本文由UC Berkeley的Sergey Levine团队(一作是Ashvin Nair和Abhishek Gupta)于2020年提出,投稿到ICLR2021上,但最终被拒稿。文章的思路和BERT论文的思路很类似,都是利用数据集进行预训练,然后通过在线交互快速进行微调来学习复杂的行为。Sergey Levine团队在离线强化学习领域成果颇丰,对这个方向感兴趣的可以持续关注。
1、问题及背景要将RL应用于机器人领域,通常需要设置环境,定义奖励函数,然后与环境交互和探索来解决任务。尽管这最终可能行得通,但是这些在线RL方法非常耗费时间,成本太高,因此很难将在线RL应用于现实世界中的机器人技术问题。 我们可以想象一个专门帮助老人料理家务的机器人:在“上岗”之前,机器人必须先具备大量知识与能力,同时还需要在工作中学习新的知识、不断积累工作经验。后者的学习必须是样本高效的(需要相对较少的训练示例)、可泛化的(适用于特定学习以外的其他情况)、组合性的(能与以往的知识相结合)和增量式的(能够随着时间的推移增加新知识和新能力)。因此很难将其应用到现实世界。 离线RL考虑了从任意非策略数据中学习最佳策略的问题,而无需任何进一步的探索。这样可以消除RL中的数据收集问题,并合并来自其他来源(包括其他机器人或遥控)的数据。但是,先前的数据和要训练的策略通常会出现分布偏移的情况,如果可以借鉴自然语言处理领域中“微调”的概念,先从离线数据集中学习策略,再通过和环境交互来改进策略,使其比单纯从离线数据集中学习到的策略要更好。 2、困难与挑战2.1 效率on-policy的方法要比off-policy的方法慢,并且进行微调的时候,不会重用先前的数据, 2.1 Q值过估计问题在训练阶段,Q估计值不会完全准确,尤其是在推断数据中不存在的动作时。策略更新利用了高估的 Q 值,使估计的 Q 值变得更糟 3、AWAC3.1 公式限制两个策略之间的KL散度,计算优势函数的最大期望值 通过拉格朗日乘数法求得多元函数的最值 最小化当前策略和最佳策略之间的KL散度 策略更新 3.2 伪代码4、实验结果[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Qs9FD8fQ-1650808799846)(https://bair.berkeley.edu/static/blog/awac/14_fig5.gif)] [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1OsLTBaD-1650808799847)(https://bair.berkeley.edu/static/blog/awac/15_fig5.gif)] [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-q0jrGuFe-1650808799847)(https://bair.berkeley.edu/static/blog/awac/16_fig5.gif)] AWAC的训练速度很快,而且精度也很高, 参考文献[1]. Ashvin Nair, Abhishek Gupta, Murtaza Dalal, Sergey Levine: “AWAC: ACCELERATING ONLINE REINFORCEMENT LEARNING WITH OFFLINE DATASETS”, 2020; arXiv:2006.09359. |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/6 18:13:55- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |