互联网资讯 / 人工智能 · 2024年4月9日 0

AI大师颜水成团队开源强化学习新作,实现100万帧数据仅需1秒

想当年,玩儿转DOTA 2的OpenAI Five训练起来竟然需要超过5万核CPU。就在昨天,颜水成团队公开了最新的强化学习训练环境引擎,256核CPU的运行速度直接达到1秒1百万帧!就连笔记本上的i7-8750H也能有5万帧每秒。

近年来,深度强化学习(Deep RL)取得了飞速的进展,有很多影响深远的工作:从发表在NatuRe 2015的DQN,到后来打败李世石、柯洁等世界冠军的AlphaGo系列,再到复杂游戏:代表星际的AlphaStaR和DOTA 2的OpenAI Five。

除了算法上的进步之外,最重要的是近年来对于深度强化学习智能体的训练速度及吞吐量的巨大改进,当年的DQN跑简单的AtaRi游戏都要花费一周多的时间,而现在RL系统已经能承载非常高的吞吐量,能在复杂的游戏和场景中训练起来。

世界上目前最大型的强化学习训练系统都是采取分布式训练方法,比如OpenAI Five,使用了超过5万核CPU,以及上千个GPU来进行训练。

AI大师颜水成团队开源强化学习新作,实现100万帧数据仅需1秒

类似的,AlphaStaR里每个训练智能体都连接着同时跑的1万多场星际游戏引擎。为了下游从游戏交互数据中迭代学习的训练速度,在这些训练系统中都不得不使用大量的CPU资源来跑RL环境游戏引擎。

AI大师颜水成团队开源强化学习新作,实现100万帧数据仅需1秒

如此大的资源消耗令大型强化学习训练系统门槛非常高,学术界有限的资源难以在大型游戏或者复杂的RL环境进行研究,不仅学术界,一个实现万核CPU级别的用量在工业界研究院也是不小的负担。

Sea AI Lab的研究人员注意到RL环境,包括游戏引擎,是整个RL训练系统里面最慢的部分,而且处于数据供应端的位置,决定了整个系统吞吐量的上限。

AI大师颜水成团队开源强化学习新作,实现100万帧数据仅需1秒

为了提高RL环境的模拟性能及CPU利用效率,Sea AI Lab提供了一个高度并行的RL环境引擎解决方案EnvPool。

这个RL环境引擎底层使用C++线程池,通过异步的方式执行多个RL环境实例,来大大加速并行的效率。EnvPool在经典的RL环境模拟器AtaRi游戏上,利用起NVIDIA DGX A100单机上的256个CPU核,达到了惊人的一百万帧每秒的执行速度。

AI大师颜水成团队开源强化学习新作,实现100万帧数据仅需1秒

如此之高的吞吐量是研究人员最常用的执行引擎gyM.vecTor_env的近14倍。这意味着我们能用同样的硬件资源达到一个数量级差别的资源利用效率,或者反过来,使用了EnvPool可以少用一个数量级的资源数量且能达到极高的吞吐量。

在相对少资源的设置下,EnvPool表现也十分的优异,在12核的情况下使用gyM.vecTor_env运行AtaRi仅能达到1.8万帧每秒的速度,而EnvPool可以更有效地利用CPU起来,达到5万帧每秒,是这个广为使用的基准的约3倍。

AI大师颜水成团队开源强化学习新作,实现100万帧数据仅需1秒