IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 《DD-PPO: LEARNING NEAR-PERFECT POINTGOAL NAVIGATORS FROM 2.5 BILLION FRAMES》-----强化学习论文笔记 -> 正文阅读

[人工智能]《DD-PPO: LEARNING NEAR-PERFECT POINTGOAL NAVIGATORS FROM 2.5 BILLION FRAMES》-----强化学习论文笔记


abstract

去中心化分布式PPO(DD-PPO) 是一种在资源密集型模拟环境中进行分布式强化学习的方法,在Hatitat-Sim上表现出近线性的扩展——通过串行在128个GPU上实现了107倍加速。
code
video


introduction

不同于gym和Atari, 3D simulator需要GPU加速,因此worker的数量通常有限制( 2 5 2^5 25- 2 8 2^8 28vs 2 12 2^{12} 212- 2 15 2^{15} 215), 高维的输入和深度神经网络使parameter server紧张, 本文提出了一种新的分布式架构:

  1. 去中心化(无参数服务器)
  2. 分布式
  3. workers将它们的更新同步到model时(通信阶段)为避免落后者造成的延误,提出一个抢占阈值,一旦有一定百分比的workers完成收集数据,其他workers也提前结束rollout, 开始训练。

在这里插入图片描述


algorithm

在监督学习中,数据并行的分布式实验实现方法:在step k k k, worker n有一份parameter的copy θ n k \theta^k_n θnk?, 计算梯度, 通过下式更新 θ \theta θ.
在这里插入图片描述
我们将其应用于on-policy的RL中,在step k k k, worker n拥有参数parameter的副本 θ n k \theta^k_n θnk?, 它使用 π θ n k \pi_{\theta^k_n} πθnk??收集经验,通过某种策略梯度的算法如PPO计算梯度,并将梯度与其他workers共享,并且依据下式更新模型:
在这里插入图片描述
鉴于每个worker都必须等待最慢的完成收集经验,因此会存在大量的同步开销。为了解决这个问题,引入一个阈值,一旦其他工人p%完成收集(比如设置60%工作良好),则落后者被迫提前结束数据收集。我们平等的权衡每个worker对loss的贡献,并且将结束前的最小步骤数限制为最大值的1/4, 确保所有环境都有助于学习。


experiments


related work

RL simulators可以分成四部分:

  1. Simulation: 执行agent选择的动作,返回新的状态和奖励值;
  2. Inference: 将新状态作为网络输入,输出action
  3. Learner: 输入数据,计算梯度并更新策略网络的参数
  4. Parameter server/master: 维护参数,协调workers

相关工作

  • Synchronous RL: 同步RL,利用单个进程执行以上四个角色
  • Synchronous Distributed RL: 与DDPPO最密切相关的工作,Atari实验,并不work;lock step同步过程中,由于时间开销增大,并行收益被抵消?
  • Asynchronous Distributed RL:使用单个进程(CPU)执行simulation和inference, 另一个单独进行异步执行learner和parameter server. 扩展到资源密集型环境时遇到的问题:(1)simulation和inference仅限于cpu不可行,深度网络需要GPU加速,虽然这些过程可以转移到GPU,但是GPU以大批量运行最有效(推理模拟过程的batch大小为1),GPU利用率低,相比之下,DDPPO每个GPU使用一个进程,并从多个环境中批量观察以进行推理。(2)单进程learner/parameter仅限于单个节点的GPU,虽然这不是小网络和低维输入的限制,但是高维输入和复杂网络不适用。
  • 落后效应缓解,旨在减少workers经验收集的时间差异。
  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-08-31 15:27:21  更:2021-08-31 15:27:29 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/1 10:30:10-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码