互联网资讯 / 人工智能 · 2023年12月7日

MIT小组与谷歌合作,训练了7个多任务机器人,成功率达到89%!

随着任务数量的增加,使用当前计算方法来构建通用的日常机器人的成本变得过高,人们正在快速寻求一种解决办法。我们都希望通用机器人可以执行一系列复杂的任务,例如清洁,维护和交付等等。

但是,即使使用脱机强化学习(RL )来训练单个任务(例如清洁),也需要大量的工程设计、花费很长的时间,这看似是件不可能完成的事!

上图为脱机和非脱机强化学习的演示动图

MT-Opt+Actionable Model= 脱机强化学习

但是经过科学家们的不断努力,机器人的发展遇到前所未有的机遇。

任职于Google的几位优秀的计算机科学家,率先研发出了处理大规模任务的新型机器人。

杰克&Middot;瓦利(Jake VaRley)作为第二作者,本科毕业于麻省理工大学(MIT)计算机科学专业,2013年顺利成为哥伦比亚大学的博士生,一毕业就收到Google抛来的橄榄枝,现在Google任SWE一职已经3年了。

卡罗尔&Middot;豪斯曼(KaRol HaUSMan)作为第三作者,是南加大计算机科学专业的博士生,也是2018年加入Google,目前主要担任Google机器人控制和Google大脑实验室的科学家。

这项研究主要展示了机器人脱机强化学习(RL)的两个新进展,即MT-Opt(一种用于自动数据收集和多任务RL训练的系统)以及Actionable Models(可动模型),该模型利用获取的数据实现脱机学习的目标。

MT-Opt引入了可扩展的数据收集机制,该机制在真实的机器人上可以收集超过800,000个任务,相比以往很多多任务脱机学习的成功应用,其平均性能比基线提高了约3倍。

更神奇的是,它还可以使机器人在不到1天的时间内对新任务进行适应,接着快速掌握新任务。

即使在没有特定任务和奖励的情况下该机器人也可以进行学习,这不仅极大地增加了机器人可以执行的任务数量,并可以更有效地学习下游任务。

所以为了大规模地收集多样化的任务数据,他们创建了一个可扩展且直观的多任务检测器来指定任务,目的是为了要收集最终平衡结果的数据集。

具体步骤如下:

为了训练该系统,科学家们收集了9600个机器人数据(来自七个机器人连续57天的数据收集),并采用监督学习(supeRvised leaRning)的方式来训练多任务,甚至允许用户快速定义新任务及其奖励的设置。

首先当收集数据时,需要对各种现实因素进行监察和定期更新。(例如不同的光照条件,多变的背景环境以及机器人灵活的状态)。

其次,通过使用较为简单的任务解决方案,有效地引导机器人学习更复杂的任务,这样在针对不同任务时,可以同时使用多个机器人同时操作。

一旦形成针对性训练,每个任务的数据量和成功情节数便会随着时间增长。

为了进一步提高性能,科学家们还重点放在某些表现欠佳的任务上进行调试和训练,逐一突破!

成功率高达89%!

尽管这种数据收集策略可以有效地收集大量数据,但任务之间的成功率和数据量是不平衡的。

所以为了解决这个问题,他们命令机器人对每个成功或失败的任务进行标记。这一步骤之后再将已经达到均衡的任务发送到多任务RL训练管道。

好消息是,对于具有多数据的通用任务,MT-Opt的成功率是89%(QT-Opt的成功率是88%),罕见任务MT-Opt的平均成功率是50%。

使用可操作模型(Actionable Model)可以使机器人系统地学习大量的指示技能,例如物体抓握,容器放置和物体重新布置。

除此以外,该模型还能训练数据中看不到的物体和视觉目标,新的机器人具有「学习世界」的能力!

小结:

MT-Opt模型和可操作模型的结果都表明,真实的机器人可以学习许多不同的任务,并且这些模型有效地分摊了学习技能的成本。

这是迈向通用机器人学习系统很重要的一步,该系统可以进一步扩展到现实生活中,执行许多对人类有帮助的服务。

如果感兴趣的读者,可以具体参考这两篇论文:“ MT-Opt:大规模的连续多任务机器人强化学习&Rdquo;和“可行的模型:机器人技术的无监督离线强化学习&Rdquo;,网站上提供了很多有关MT-Opt的更多信息、视频和可行的模型。

OpenMagic API

Need more than content? Move into the product flow.

If you are here for model access, pricing, developer docs, or the future API console, the dedicated product path now lives on api.openmagic.ai.

登录免费注册