摘要
我们提出了在多智能体强化学习(MARL)中实现协调和沟通的统一机制,通过奖励对其他智能体的行为产生因果影响的智能体。因果影响的评估使用反事实推理。在每个时间步骤中,一个代理模拟它可能采取的替代动作,并计算它们对其他代理行为的影响。导致其他行动者行为发生更大变化的行为被认为是有影响力的,并会得到奖励。我们如何证明,这等价于对具有高互信息的行为者进行奖励。实证结果表明,在具有挑战性的社会困境环境中,影响导致协调和沟通的增强,显著增加了深度强化学习智能体的学习曲线,并导致更有意义的学习通信协议。通过使用深度神经网络使各智能体学习其他智能体的模型,可以以分散的方式计算所有智能体的影响力奖励。相比之下,MARL环境中紧急沟通的关键先前工作无法以分散的方式学习不同的政策,不得不求助于集中培训。因此,这一影响为这一领域的研究提供了新的机会。
引语
强化学习的内在动机
- 是指允许个体在不同的任务和环境中学习有用行为的奖励功能,有时没有环境奖励,之前的内在动机研究方法通常关注好奇心或赋权。在此,我们考虑了多智能体强化学习中从其他智能体派生内在社会动机的问题。
- 之前有一些研究研究了RL的内在社会动机工作依赖于特定于环境的手工奖励,或允许代理查看其他代理获得的奖励。这样的假设使得不可能实现跨多个环境的MARL代理的独立训练。
实现MARL中各agent之间的协调仍然是一个难题
- 在此领域之前的工作,经常采用集中培训来确保代理学会协调。虽然agent之间的通信有助于协调,但训练应急通信协议仍然是一个具有挑战性的问题;最近的实证结果强调了学习有意义的应急沟通协议的难度,即使依赖集中培训
本文
- 提出一种统一的方法来实现MARL中的协调和沟通,通过给对其他代理行为产生因果影响的代理一个内在奖励。因果影响的评估使用反事实推理;在每个时间步骤中,一个代理模拟它可能采取的替代的、反事实的行动,并评估它们对另一个代理行为的影响。导致其他代理行为发生相对较大变化的行为被认为具有高度影响力并获得奖励。我们展示了这种奖励是如何与最大化行为主体之间的相互信息相关联的,并假设这种归纳偏差将驱动行为主体学习协调行为。最大化交互信息作为内在动机的一种形式已经在赋权的文献中进行了研究(例如klyubin et al.(2005);Mohamed & Rezende(2015))。社会影响可以被看作是一种新的、社会的赋权形式
|