互联网资讯 · 2024年8月28日

经纬创投:人形机器人发展的新阶段

8月21日,2024年世界机器人大会在北京正式开幕,与以往最大的不同在于,今年是人形机器人参展企业最多的一届,共有27家人形机器人整机企业、30多家产业链上下游企业亮相。

随着AI突飞猛进,具身智能成为了今年资本市场上最热的领域之一,那些曾经仅存在于科幻电影中的机器人,正离现实生活越来越近,变得“看得见、摸得着”。

在开幕前后,也有多家机器人公司发布了新产品,比如经纬创投投资的宇树科技发布了G1量产版本,起售价为9.9万元,这款产品在世界机器人大会上首次展出,更强性能、终极外观,最关键的是可以大批量生产了。

宇树G1机器人身手敏捷,不仅可以空中劈腿,还可以自由地上下楼梯,轻巧敏捷。

英伟达科学家ERwin CouMans迫不及待想搞一台来做实验。

智元机器人则是一口气发布了五款商用人形机器人产品,包括3款适用于不同场景的远征系列(A2、A2-W、A2-Max),2款模块化机器人系列产品(灵犀X1和X1-W,后者面向专业数据采集)。

星尘智能则发布了新一代AI机器人助理AstRibot S1,这款产品也在2024世界机器人大会上正式亮相。

星尘智能的机器人助理AstRibot S1,正在烘烤华夫饼。

今天随着人形机器人越来越走进现实,也迎来了群雄逐鹿的时刻,但技术路线仍不确定、应用场景皆有可能。经纬创投在几年前就系统性地关注通用智能机器人赛道,在机器人软硬件一体化领域,投资了宇树科技、智元机器人、银河通用、星尘智能,它们都是优秀的全技术栈型创业公司,但各自的技术切入方向并不相同,切入的应用场景也不尽相同,有工业、仓储物流、零售、生物制药等等场景。短期目标都是快速占领各自的应用场景,谁先把一个细分场景做好,积累出足够多的数据,就有可能继续拓展新的延展领域,最终走向通用化。

除了机器人软硬件一体化外,在产业链上游的两个重要方向(数据、一体化关节),经纬创投也投资了AI仿真数据领域的光轮智能,正在为行业提供海量的高真实性、高效用性的训练数据;而在一体化关节/执行器领域,经纬则投资了钛虎机器人,钛虎有非常高效和全面的产品系列,覆盖了从灵巧手到全身上下的所有关节。

相比于AI大模型,人形机器人更需要工程层面的实践与突破。比如1990年出生的王兴兴,并不是履历亮眼的学霸型创业者,他是一个典型的理科偏才。“大家可能觉得很多顶尖院校的人很厉害,但实际上大家都是普通人,在机器人这个行业里,很多人只做软件,完全没碰过硬件,而硬件是实践出来的,你知道就是知道,不知道就是不知道。”宇树科技创始人兼CEO王兴兴说,在大学时代他就发现,只要集合最好的零部件,并且用上最先进的软件,就可以做出一个更好产品,组合式创新。

与王兴兴有着类似的经历,钛虎创始人易港是一位95后,早在大学宿舍就搞起了3D打印机和焊台,大一就做出了假肢原型机,还在中美创客大赛中获奖;大二又做出了一套主从式外骨骼,手部拥有17个自由度。他总结自己为什么能在大学时期的很多奖项中,打败名校的参赛项目,最核心的就是自己的产品“看得到、摸得着、能体验,对社会有直接价值,而不是漂亮的PPT。”

随着AI大模型的突破,今天的人形机器人,正越来越逼近临界点。有越来越多之前不敢想的任务,如今都可以实现了。特别是随着“世界模型”的提出,机器人的真机数据越来越具备实用价值。

“下一个十年,最值得做的就是人形机器人。”星尘智能创始人来杰说,他曾是腾讯RoboticsX机器人实验室的一号员工、百度“小度机器人”团队负责人,在去年底离职创业。

“人工智能的黎明已经迅速临近,我预计在明年年底之前,全球至少会有一家公司能够推出相对通用的机器人AI模型,发展速度之快令人瞩目。”王兴兴说,“我在年初提出了这一观点,至今仍然坚信,明年年底实现这一目标是非常有可能的。”

今天的机器人与以往最大的区别在于,随着AI的爆发,智能泛化能力大幅加强,这让通用机器人成为可能。传统机器人并不需要对外界自主响应,所以这是一个自动化设备,不断地重复之前预设的程序。而现在有了智能泛化能力的突破,甚至只需要语音控制,机器人就能实现新功能,这是从自动化到智能化的底层转变。

而AI大模型的能力,不仅体现在规划层面,也开始进入感知和控制环节,机器人发展了50多年,第一次出现这样由学习算法驱动、以及一个非常大的预训练模型来推动控制环节的变化,这也是过去一年里,我们看到技术层面最大的突破。

“最终我们会有大脑大模型、小脑大模型,一起把本体串起来,构成一个通用机器人系统。”北大-银河通用具身智能联合实验室主任王鹤说。他认为,通用机器人应该由基石层和能力层支撑,在基石层最关键的是去打造一个通用的本体,数据依赖于本体,本体也决定了它能产生什么样的数据,两者相互绑定。基于本体和数据,进而发展出机器人能力,主要是“大脑”和“小脑”,前者主要解决感知和决策问题,后者把大脑的感知和决策转换成动作。

比如智元机器人也遵循了这样的思考逻辑。“稚晖君”彭志辉从华为离职创业后,与上海交通大学博士生导师闫维新,组建了创始团队,其中闫维新负责人形机器人的“身体”,彭志辉负责人形机器人的“大脑”。“过去,他们在工作中有一些交集,创始人(彭志辉)提出这个想法之后,大家一拍即合。”

远征A1,是智元机器人的第一代产品,已于去年8月亮相。其步行速度为7公里/小时,依靠视觉传感器和多线激光雷达可自主避障。它的灵巧手有5根手指,能像人类一样抓取物品。应用场景专注于工厂、生物实验室、家庭护理与陪伴等。

而一年之后,智元机器人一口气发布了“远征”与“灵犀”两大家族共计五款商用人形机器人新品:交互服务机器人远征A2、柔性智造机器人远征A2-W、重载特种机器人远征A2-Max、智元X-Lab孵化的首个全栈开源机器人灵犀X1、专业数采机器人灵犀X1-W。

智元在发布会现场,搭建了一个摄影棚,机器人当场秀了一次在语音指令下,动手调饮料的操作。

对于机器人这样,离不开硬件做最终执行的赛道,“软硬一体”的能力尤其重要,像宇树科技、智元、银河通用、星尘等等公司都非常重视这一思路。如果我们看电动车与自动驾驶行业的历史,2015年第一批电动车创业公司创立至今,在这个过程中,自动驾驶创业公司的数量,并不少于电动车创业公司。但在今天,单纯做自动驾驶的创业公司基本上都处于挣扎状态,鲜有获得业务突破,哪怕曾经获得过巨额融资。

但从电动车企的角度,不仅“蔚小理”等一众新兴电动车企崛起,先有了“硬件”,产生数据闭环,再切入自动驾驶,反而有很大的业务进展,各家的城市NOA越来越智能。如果一个行业离不开硬件支撑,并且这个硬件仍处于快速迭代期,单纯做这行业的软件是要冒极大风险的。

类似于新能源汽车核心的三电系统,彭志辉将机器人的核心系统分为:动力域(电机关节、伺服控制、电源管理)、感知域(传感器模块、感知算法)、通信域(网络接口、数据传输协议、中间件框架)、控制域(通用算力、AI算力单元、运控算法、具身算法)。

“整个机器人其实是一个软硬件极其复杂的系统,既涉及到内部各个硬件模块的协同和部署,同时也需要软件跟算法高效配合。”彭志辉说。

另一方面,虽然最终的目标是通用化,但在当下早期的发展阶段,机器人的产品定义并不明确。由于劳动力和任务需求是多元的,人形机器人公司短期内也不会只有唯一的巨头,将会有很多公司围绕不同细分市场,走不同的技术方向,积累该场景下的数据护城河,这种“条条大路通罗马”的局面会维持一段时间。

一些公司选择把主要精力放在机器人的“上半身”。比如银河通用选择的落地场景是无人值守药店(特别是夜班),其首代产品盖博特机器人,“下半身”就采取了轮式底盘+折叠本体的设计。之所以采取这样的设计,首先因为轮式底盘在零售场景里,已经完全可以覆盖绝大部分应用。而折叠的设计,往上可以摸到2.4米,可以覆盖最高的货架,机器人可以拿到所有货物。

往下也可以摸到地面,比如当有产品不小心掉到地面上时,机器人也可以自己捡起来。这些都是目前机器人的双腿结构,比较难解决的问题,而在当下集中精力先研发“手”,可能能够率先实现应用价值。

星尘智能创始人来杰则将自己的机器人产品定义为“助理”,辅助人,而非替代人。首要的场景就是那些脑力劳动更多,但却经常陷入一些重复操作的事情上。最典型的例子就是生物医疗和化学实验,这些都是需要高智力劳动,但却绕不开重复操作的领域。此时一个合格的机器人助理,可以解放这些教授、博士们双手,他们只需要设计实验,而所有操作都可以让机器人准确无误、不分昼夜的去完成。如果给一位生物教授配10个机器人助理,他用于创造的时间甚至可以翻几倍。

来杰也非常重视“软硬一体”的能力。得益于在腾讯RoboticsX机器人实验室的经历,他非常重视架构,“我们与腾讯RoboticsX机器人实验室的架构就很相似,一半主攻机器人软硬件一体化,另一半强调用AI算法去做感知和运动控制,以此来探索AI和机器人的强耦合。”

星尘融合了触觉感知进行力控抓取,并结合规模化数据综合训练,包括人体动作视频演示、动捕、遥操作采集等方案。来杰非常重视传动结构中的刚、柔结合,也装入了一些传感器以在传动过程中,能一直监测力的传输。比如机器人在削黄瓜时,星尘的机器人并不是去估算轨迹,而是与人类一样,通过感知削皮刀在压到黄瓜上时,力量的大小,来控制力量的输出,这种特殊的传动结构,能使精度更上一层楼。

“当下,离我们想要的具身智能之间,还有两个重要的Gap(差距)没有解决。”星尘智能创始人来杰说。

第一个Gap是AI大模型和机器人之间,有时候一些问题的产生,并不是单纯靠扩大数据规模,或是算法就可以解决,而是需要在机器人层面去进行提升,这是硬件带来的。

第二个Gap是在硬件本身的表达能力足够的前提下,AI如何更好地结合硬件的能力。比如说AI是否可能完全自主地进行学习和尝试?假设有一个机器人在办公环境下,它本来什么都不知道,只知道一些基础动作,然后让它自己去建语义地图,自己去理解环境,自己去观察其他人的操作,然后把所有动作学会,这就跟我们人类很像。当然,这也是Yann LeCun所提出的“世界模型”。

彭志辉在最近的发布会上,对整个具身技术成熟度等级,做了从G1-G5的划分,这类似于自动驾驶的L1-L5:

“我们在过去一年里,同时在G2落地和G3预研两个方向,都取得了一些阶段性突破。在G2阶段实现了一系列zeRo-shot和few-shot的一些通用原子能力,比如通用的位姿估计模型UnIPose。目前也正在与多家制造业和服务业领军企业,进行联合的场景POC,今年晚些时候有望全流程跑通,让机器人能够正式在客户场景中部署干活。”彭志辉说。

低成本是人形机器人大规模运用的前提。今年5月,宇树在发布G1人形机器人时,把最低售价打到了9.9万元。但这款机器人的参数一个不差,身高约127厘米,体重约35公斤,具有超越常人的灵活性,小跑速度大于2M/s,拥有广阔的关节运动空间,23至43个关节,最大关节扭矩达到120N.M,可进行高难度的动态动作。比行业整体便宜80%的售价,再一次成为人形机器人领域的焦点。

“大部分人对社会的成本结构一无所知。”王兴兴说,“低成本的原因其实很简单,以前很多学术或公司主要靠去买工业电机,但它们很大、很贵、很重,所以做出来的效果也不太好。但我后来发现,其实可以对航模电机加以改造,所以后来的电机驱动器全是我自己做的,可以做到很小很便宜,再结合最新的运动控制技术,就可以把整体性能做得非常好。其实整个社会大部分创新,是组合式创新,我们需要把各个行业的一些想法、技术组合做新的实践,保证它是最前沿的,其实你就可以实现很多目标。

G1采用3指力控灵巧手,通过力位混合控制,能模拟人手的各种精准操作。

在2013年-2015年读研究生期间,王兴兴没什么资源和资金,却做出了一款当时特别火爆的产品XDog,拿到上海机器人设计大赛二等奖,这几乎是他一个人从头设计硬件、控制算法,自制驱动电机做出来的。相比之下波士顿动力的四足机器人,还是纯液

OpenMagic API

Need more than content? Move into the product flow.

If you are here for model access, pricing, developer docs, or the future API console, the dedicated product path now lives on api.openmagic.ai.