| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 【一】最新多智能体强化学习方法【总结】 -> 正文阅读 |
|
[人工智能]【一】最新多智能体强化学习方法【总结】 |
相关文章: 【二】最新多智能体强化学习文章如何查阅{顶会:AAAI、 ICML } 【三】多智能体强化学习(MARL)近年研究概览 {Analysis of emergent behaviors(行为分析)_、Learning communication(通信学习)} 【四】多智能体强化学习(MARL)近年研究概览 {Learning cooperation(协作学习)、Agents modeling agents(智能体建模)} 1.连续动作状态空间算法1.1?MADDPGMulti-Agent Actor-Critic for Mixed Cooperative-Competitive Environments 这是OpenAI团队和McGill大学、UC Berkeley于2017合作发表在NIPS(现在称NeurIPS)上,关于多智能体强化学习(Multi-agent reinforcement learning, MARL)特别经典的一篇文章。本文不仅给出了MADDPG (Multi-agent deep deterministic policy gradient) 这种针对连续动作确定性策略学习的普适性算法,还开源了其仿真环境,包括了合作、竞争以及通信等不同场景,十分方便研究人员在该环境上验证算法性能[1]
具体分析可以参考以下文章:
1.1.1?总结本文以比较直接的形式将DDPG[2]算法扩展到多智能体强化学习中,通过“集中式训练分布式执行”的思路,计算出每个智能体的最优策略。个人觉得在论文贡献上,其仿真实验的重要性远大于算法设计的本身。 此外,当智能体数量比较大的时候,该算法的计算规模将会非常大。因为每个智能体都对应两个actor网络(另一个是target actor网络)和两个critic网络(另一个是target critic网络)。如果再加上对其它智能体策略的估计,或者策略集合的训练,更是如此 1.2?COMA算法解析:Counterfactual Multi-Agent Policy Gradients 基于策略梯度的MARL算法——COMA[1],全称为counterfactual multi-agent (COMA) policy gradients。论文发表在2018年的AAAI上,由牛津大学Shimon Whiteson教授领导的Whiteson Research Lab团队成员合作发表。这个团队我们在后面会经常提起,因为他们在MARL领域做出了很多相当有影响力的工作。相关链接如下:
这篇paper基于三个主要的想法: 1. 使用一个集中式critic网络,在训练的过程中可以获取所有智能体的信息; 具体分析可以参考以下文章:
1.2.1?总结COMA同MADDPG算法[4]一样,都是基于策略梯度的算法。它们都是基于“集中式训练分布式执行”的学习算法,不同的地方在于: a. COMA针对离散动作,学习的是 随机策略。而MADDPG针对连续动作,学习的是确定性策略。这在它们策略梯度函数的表达式上能够体现出区别。 2.连续离散并存动作状态空间算法2.1 MAPPO来自清华大学与 UC 伯克利的研究者在一篇论文中针对这一传统认知提出了不同的观点:MARL 算法需要综合考虑数据样本效率(sample efficiency)和算法运行效率(wall-clock runtime efficiency)。在有限计算资源的条件下,与 off-policy 算法相比,on-policy 算法 --MAPPO(Multi-Agent PPO)具有显著高的算法运行效率和与之相当(甚至更高)的数据样本效率。有趣的是,研究者发现只需要对 MAPPO 进行极小的超参搜索,在不进行任何算法或者网络架构变动的情况下就可以取得与 SOTA 算法相当的性能。更进一步地,还贴心地给出了 5 条可以提升 MAPPO 性能的重要建议,并且开源了一套优化后的 MARL 算法源码 具体分析可以参考以下文章: 3.?离散动作状态空间算法3.1 VDN算法解析?Value-Decomposition Networks For Cooperative Multi-Agent Learning VDN (Value Decomposition Networks) 算法[1]。本来打算将此算法和QMIX[2]放到一起介绍的,但是考虑到VDN在MARL领域的知名度和影响力,还是决定先单独介绍此篇。此外,作为QMIX前身,对VDN算法的剖析应该有助于我们更加充分地理解QMIX算法。这样,我们也能够对这两种算法的优势和弊端有着更加全面的认识。 先说说这篇论文吧,完整版于17年6月份挂在arXiv上。后来在AAMAS 2018上正式发表了一个mini版,只有三页,由DeepMind团队完成。论文PDF链接如下: 具体分析可以参考以下文章:
3.1.1 总结VDN算法结构简洁,通过它分解得到的??可以让智能体根据自己的局部观测选择贪婪动作,从而执行分布式策略。其集中式训练方式能够在一定程度上保证整体Q函数的最优性。此外,VDN的“端到端训练”和“参数共享”使得算法收敛速度非常快,针对一些简单的任务,该算法可以说既快速又有效。 但是对于一些比较大规模的多智能体优化问题,它的学习能力将会大打折扣。其根本限制在于缺少值函数分解有效性的理论支持。VDN以简单的求和方式将整体Q函数完全分解开,使得多智能体Q网络的拟合能力很受限制。 QMIX[2]算法中,这种端到端训练的思路被继续沿用。作者改善了值函数分解的网络结构,考虑了系统全局状态??以及分布式策略的单调性约束,有效地增强了网络对整体Q函数的拟合能力。 3.2?QMIX?Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning 提到了QMIX。虽然它是VDN算法的进阶版本,但它们不是由同一个团队发表的。QMIX算法由牛津大学的Whiteson Research Lab团队和俄罗斯-亚美尼亚大学(共同一作)合作完成,发表于ICML 2018,是多智能体强化学习领域广为人知的算法。论文链接如下[1]:
具体分析可以参考以下文章:
3.2.1 总结QMIX算法的设计在理论上和实验验证上,都比VDN有更多的优势。作为基于值函数的MARL算法,广受研究人员的欢迎。 但是正如作者指出的那样,QMIX在执行策略的时候并不考虑其它智能体的动作。在实际场景中,这是不太合理的。针对合作任务的多智能体场景,只有充分考虑其它智能体可能对自己决策产生的影响,才能更好地进行合作。因此,考虑智能体之间更复杂的关系,例如任务/角色分配、智能体通信等,也是QMIX算法扩展的重要方向。 3.3?
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 | -2024/12/22 11:05:29- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |