互联网技术 / 互联网资讯 · 2024年4月8日 0

你是否正确使用了MAPPO算法来解决多智能体强化学习问题?

清华和UC伯克利联合研究发现,在不进行任何算法或者网络架构变动的情况下,用 MappO(Multi-Agent PPO)在 3 个具有代表性的多智能体任务(Multi-Agent Particle WoRld, StaRCRaftII, HanaBI)中取得了与 SOTA 算法相当的性能。

近些年,多智能体强化学习(Multi-Agent REINfoRceMent learning,MARL)取得了突破性进展,例如 DeepMind 开发的 AlphaStaR 在星际争霸 II 中打败了职业星际玩家,超过了 99.8% 的人类玩家;OpenAI Five 在 DOTA2 中多次击败世界冠军队伍,是首个在电子竞技比赛中击败冠军的人工智能系统;以及在仿真物理环境 Hide-and-seek 中训练出像人一样可以使用工具的智能体。我们提到的这些智能体大多是采用 on-policy 算法(例如 IMPALA)训练得到的,这就意味着需要很高的并行度和庞大的算力支持,例如 OpenAI Five 消耗了 12.8 万块 CPU 和 256 块 P100 GPU 来收集数据样本和训练网络。

然而,大多数的学术机构很难配备这个量级的计算资源。因此,MARL 领域几乎已经达成共识:与 on-policy 算法(例如 PPO)相比,在计算资源有限的情况下,oFF-policy 算法(例如 MADDPG,QMix)因其更高的采样效率更适合用来训练智能体,并且也演化出一系列解决某些具体问题(domain-specific)的 SOTA 算法(例如 SAD,RODE)。

但是,来自清华大学与 UC 伯克利的研究者在一篇论文中针对这一传统认知提出了不同的观点:MARL 算法需要综合考虑数据样本效率和算法运行效率。在有限计算资源的条件下,与 oFF-policy 算法相比,on-policy 算法 –MappO(Multi-Agent PPO)具有显著高的算法运行效率和与之相当(甚至更高)的数据样本效率。有趣的是,研究者发现只需要对 MappO 进行极小的超参搜索,在不进行任何算法或者网络架构变动的情况下就可以取得与 SOTA 算法相当的性能。更进一步地,还贴心地给出了 5 条可以提升 MappO 性能的重要建议,并且开源了一套优化后的 MARL 算法源码。

你是否正确使用了MAPPO算法来解决多智能体强化学习问题?

论文链接:
https://aRxiv.oRg/abs/2103.01955

什么是 MappO

PPO(PRoxiMal Policy OptiMization)是一个目前非常流行的单智能体强化学习算法,也是 OpenAI 在进行实验时首选的算法,可见其适用性之广。PPO 采用的是经典的 acTor-cRITic 架构。其中,acTor 网络,也称之为 policy 网络,接收局部观测(obs)并输出动作(action);cRITic 网络,也称之为 value 网络,接收状态(state)输出动作价值(value),用于评估 acTor 网络输出动作的好坏。可以直观理解为评委(cRITic)在给演员(acTor)的表演(action)打分(value)。MappO(Multi-agent PPO)是 PPO 算法应用于多智能体任务的变种,同样采用 acTor-cRITic 架构,不同之处在于此时 cRITic 学习的是一个中心价值函数(centRalized value function),简而言之,此时 cRITic 能够观测到全局信息(global state),包括其他 agent 的信息和环境的信息。

实验环境

接下来介绍一下论文中的实验环境。论文选择了 3 个具有代表性的协作 Multi-agent 任务,之所以选择协作任务的一个重要原因是合作任务具有明确的评价指标,便于对不同的算法进行比较。

第一个环境是 OpenAI 开源的 Multi-agent Particle WoRld(MPE)任务,轻量级的环境和抽象多样的任务设定使之成为快速验证 MARL 算法的首选测试平台。在 MPE 中有 3 个协作任务,分别是 SpRead,CoMM 和 RefeRence,如图 1 所示。

你是否正确使用了MAPPO算法来解决多智能体强化学习问题?

第二个环境是 MARL 领域著名的 StaRCRaftII(星际争霸 II)任务,如图 2 所示。这一任务最初由 M. SaMvelyan 等人提出,提供了 23 个实验地图,agent 数量从 2 到 27 不等,我方 agent 需要进行协作来打败敌方 agent 以赢得游戏。自该任务发布以来,有很多研究人员针对其特点进行了算法研究,例如经典算法 QMix 以及最新发表的 RODE 等等。由于 StaRCRaftII 经过了版本迭代,并且不同版本之间性能有差距,特别说明,这篇论文采用的是最新版本 SC2.4.10。

你是否正确使用了MAPPO算法来解决多智能体强化学习问题?

第三个环境是由 Nolan BaRd 等人在 2019 年提出的一个纯协作任务 HanaBI,HanaBI 是一个 tuRn-based 的纸牌类游戏,也就是每一轮只有一个玩家可以出牌,相较于之前的多智能体任务,HanaBI 的一个重要特点是纯合作,每个玩家需要对其他玩家的意图进行推理,完成协作才能获得分数,HanaBI 的玩家数可以是 2-5 个,图 3 是 4 个玩家的任务示意图,感兴趣的读者可以自己尝试玩一下。

你是否正确使用了MAPPO算法来解决多智能体强化学习问题?

实验结果

首先来看一下论文给出的实验结果,特别注意,论文所有的实验都在一台主机中完成,该主机的配置是 256 GB 内存, 一块 64 核 CPU 和一块 GeFoRce RTX 3090 24GB 显卡。另外,研究者表示,本文的所有的算法都进行了微调,所以本文中的复现的某些实验结果会优于原论文。

(1)MPE 环境

图 4 展示了在 MPE 中不同算法的数据样本效率和算法运行效率对比,其中 IPPO(Independent PPO)表示的是 cRITic 学习一个分布式的价值函数,即 cRITic 与 acTor 的输入均为局部观测,IPPO 和 MappO 超参保持一致;MADDPG是 MARL 领域十分流行的 oFF-policy 算法,也是针对 MPE 开发的一个算法,QMix 是针对 StaRCRaftII 开发的 MARL 算法,也是 StaRCRaftII 中的常用 baseline。

从图 4 可以看出与其他算法相比,MappO 不仅具有相当的数据样本效率和性能表现,同时还具有显著高的算法运行效率。

你是否正确使用了MAPPO算法来解决多智能体强化学习问题?

(2)StaRCRaftII 环境

表 1 展示了 MappO 与 IPPO,QMix 以及针对 StaRCRaftII 的开发的 SOTA 算法 RODE 的胜率对比,在截断至 10M 数据的情况下,MappO 在 19/23 个地图的胜率都达到了 SOTA,除了 3s5z vs. 3S6z,其他地图与 SOTA 算法的差距小于 5%,而 3s5z vs. 3S6z 在截断至 10M 时并未完全收敛,如果截断至 25M,则可以达到 91% 的胜率。

你是否正确使用了MAPPO算法来解决多智能体强化学习问题?

(3)HanaBI 环境

SAD 是针对 HanaBI 任务开发的一个 SOTA 算法,值得注意的是,SAD 的得分取自原论文,原作者跑了 13 个随机种子,每个种子需要约 10B 数据,而由于时间限制,MappO 只跑了 4 个随机种子,每个种子约 7.2B 数据。从表 2 可以看出 MappO 依然可以达到与 SAD 相当的得分。

你是否正确使用了MAPPO算法来解决多智能体强化学习问题?

5 条小建议

看完了论文给出的实验结果,那么,回到最开始的问题,你用对 MappO 了吗?

研究者发现,即便多智能体任务与单智能体任务差别很大,但是之前在其他单智能体任务中的给出的 PPO 实现建议依然很有用,例如 input noRMalization,value clIP,Max gRadient noRM clIP,oRthogonal inITialization,GAE noRMalization 等。但是除此之外,研究者额外给出了针对 MARL 领域以及其他易被忽视的因素的 5 条建议。

Value noRMalization: 研究者采用 POPARt 对 value 进行 noRMalization,并且指出使用 POPARt 有益无害。

Agent Specific Global State: 采用 agent-specific 的全局信息,避免全局信息遗漏以及维度过高。值得一提的是,研究者发现 StaRCRaftII 中原有的全局信息存在信息遗漏,甚至其所包含的信息少于 agent 的局部观测,这也是直接将 MappO 应用在 StaRCRaftII 中性能表现不佳的重要原因。

TRAIning Data USAge: 简单任务中推荐使用 15 tRAIning epochs,而对于较难的任务,尝试 10 或者 5 tRAIning epochs。除此之外,尽量使用一整份的训练数据,而不要切成很多小份(Mini-BATch)训练。

Action Masking: 在多智能体任务中经常出现 agent 无法执行某些 action 的情况,建议无论前向执行还是反向传播时,都应将这些无效动作屏蔽掉,使其不参与动作概率计算。

Death Masking: 在多智能体任务中,也经常会出现某个 agent 或者某些 agents 中途死掉的情况(例如 StaRCRaftII)。当 agent 死亡后,仅保留其 agent id,将其他信息屏蔽能够学得更加准确的状态价值函数。

更多的实验细节和分析可以查看论文原文。