[人工智能] 社会影响作为多智能体深度强化学习的内在动机(ICML-2019)

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 社会影响作为多智能体深度强化学习的内在动机(ICML-2019) -> 正文阅读

[人工智能]社会影响作为多智能体深度强化学习的内在动机(ICML-2019)

摘要

我们提出了在多智能体强化学习(MARL)中实现协调和沟通的统一机制，通过奖励对其他智能体的行为产生因果影响的智能体。因果影响的评估使用反事实推理。在每个时间步骤中，一个代理模拟它可能采取的替代动作，并计算它们对其他代理行为的影响。导致其他行动者行为发生更大变化的行为被认为是有影响力的，并会得到奖励。我们如何证明，这等价于对具有高互信息的行为者进行奖励。实证结果表明，在具有挑战性的社会困境环境中，影响导致协调和沟通的增强，显著增加了深度强化学习智能体的学习曲线，并导致更有意义的学习通信协议。通过使用深度神经网络使各智能体学习其他智能体的模型，可以以分散的方式计算所有智能体的影响力奖励。相比之下，MARL环境中紧急沟通的关键先前工作无法以分散的方式学习不同的政策，不得不求助于集中培训。因此，这一影响为这一领域的研究提供了新的机会。

引语

强化学习的内在动机

是指允许个体在不同的任务和环境中学习有用行为的奖励功能，有时没有环境奖励，之前的内在动机研究方法通常关注好奇心或赋权。在此，我们考虑了多智能体强化学习中从其他智能体派生内在社会动机的问题。
之前有一些研究研究了RL的内在社会动机工作依赖于特定于环境的手工奖励，或允许代理查看其他代理获得的奖励。这样的假设使得不可能实现跨多个环境的MARL代理的独立训练。

实现MARL中各agent之间的协调仍然是一个难题

在此领域之前的工作，经常采用集中培训来确保代理学会协调。虽然agent之间的通信有助于协调，但训练应急通信协议仍然是一个具有挑战性的问题;最近的实证结果强调了学习有意义的应急沟通协议的难度，即使依赖集中培训

本文

提出一种统一的方法来实现MARL中的协调和沟通，通过给对其他代理行为产生因果影响的代理一个内在奖励。因果影响的评估使用反事实推理;在每个时间步骤中，一个代理模拟它可能采取的替代的、反事实的行动，并评估它们对另一个代理行为的影响。导致其他代理行为发生相对较大变化的行为被认为具有高度影响力并获得奖励。我们展示了这种奖励是如何与最大化行为主体之间的相互信息相关联的，并假设这种归纳偏差将驱动行为主体学习协调行为。最大化交互信息作为内在动机的一种形式已经在赋权的文献中进行了研究(例如klyubin et al.(2005);Mohamed & Rezende(2015))。社会影响可以被看作是一种新的、社会的赋权形式

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

加:2021-09-09 11:45:02 更:2021-09-09 11:47:29

360图书馆购物三丰科技阅读网日历万年历 2025年8日历

-2025/8/24 2:47:58-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码