自己在程序里弄了两个DDPG相互博弈,发现怎么都不收敛,说明还是得入门MARL 链接: github仓库,列举了好多MARL的算法,代码还没有试过,因为没有MADDPG
MADDPG
链接: maddpg算法详解网站 MADDPG最主要的特点就是:多个智能体,actor只知道自己的信息,而critic知道的是全局信息,相当于训练的时候我们给智能体的是全局的信息,运行的时候是给局部信息。 QMIX的特点是有一个新的信度分配,所以我觉得自己的问题还不需要QMIX(没有合作的agents),所以目前学习的是MADDPG 如果评论区有老爷指明一下多个独立个体博弈的MARL就更好了
使用代码踩过的坑:
- openai/maddpg:tensorflow1写的,希望能更新一下
- xuehy/pytorch-maddpg:代码里的环境,安装不来
- shariqiqbal2810/maddpg-pytorch:baselines始终装不上,WARNING: No metadata found in d:\anaconda3\envs\bl3\lib\site-packages\mujoco_py-2.1.2.14-py3.10.egg
- starry-sky6688/MADDPG:终于可以用了,需要自己安装好openai/multiagent-particle-envs,然后注意gym的版本需要降低,pip install gym==0.10.5,不然会报错from gym.spaces import prng报错 找不到prng
链接: multiagent-particle-envs环境说明
|