机器人跳舞没什么难的,真正的难点在智能控制。我们最强的模型来了,能完成复杂和长时序的任务。

美国机器人界掌管demo的神,Figure,冷不丁又出一拳!

这一次,他们带来了最新的具身大脑Helix 02以及最新的家务demo。

在推特上,Figure老板Brett直接放话:

机器人跳舞没什么难的,真正的难点在智能控制。我们最强的模型来了,能完成复杂和长时序的任务。

话虽狂,但这次的demo,真的很有说服力。

在视频中,搭载Helix 02的Figure 03,在普通的家庭厨房里,自主完成了洗碗机取盘并放入橱柜的整套流程。

在接近4分钟的完整任务里,机器人从头到尾没有重置、没有人工干预、也没有遥操作,行走、抓取、搬运、放置等61个操作全部连成一条连续动作链。

Figure直言,这是迄今为止,人形机器人自主完成的时间跨度最长、复杂度最高的任务。

而且必须强调的是,这一次Helix 02不再是上下半身分别控制,而是把视觉、触觉等感知统一接入,由一个系统直接输出全身动作的端到端控制

其中新引入的system0还基于1000小时人类数据训练,替代了之前手写的10万多行代码。

对此,前CMU机器人研究员Chong Zhang也表示:

Figure终于抛弃了他们过时的全身MPC,并使用我们现代的人类到类人的RL全身控制。

此外,Helix 02还第一次地把手掌摄像头与触觉传感器输入引入到模型的控制策略。

对此,不少网友表示有被震撼到:

就连Sunday机器人的工程师Alper也表示,这是他迄今为止见过最好的机器人全身控制。

Helix 02:加入系统0的VLA

如前面demo所展示的那样,这次 Helix 02的主打的是在厨房里抓取-移动-放置的长程任务,这需要机器人实现精细的全身控制与移动操作(loco-manipulation)。

为此,Helix 02打造了一个统一的视觉—运动神经网络——

一个统一全身行走—操作的一体化VLA模型(A Unified Whole-Body Loco-Manipulation VLA)。

它把机载的全部传感器、视觉、触觉与本体感知直接接到所有执行器上,让机器人把“感觉、思考、行动”当成一件事来做。

实现这一点的关键,在于Figure在去年2月发布的Helix双(快慢)系统架构基础上,引入了一个新的System 0,用于全身控制。

至此,Helix 02形成了一套从像素到扭矩(torque)的紧密层级系统:

  • System 2(S2):慢系统,负责高层语义推理——理解场景、理解语言,并将任务拆解为一系列行为目标。
  • System 1(S1):快系统,以200 Hz的频率进行快速思考,将感知结果转化为全身关节目标
  • System 0(S0):以1kHz的频率执行,负责平衡、接触处理以及全身协调执行

我们先从这次变化最大的System 0说起。

System 0:基于人类数据的人形全身控制

System 0是一个学习得到的全身控制器:它基于1000多小时的人类运动数据训练,并结合了仿真到现实(sim-to-real)的强化学习

具体而言,System 0用一个神经网络先验,替代了109504行手工编写的C++控制代码,负责把每一个动作执行得稳定、自然且可控。

从定位上看,S0是一个面向人形机器人的全身控制基础模型,不为某一个具体动作服务。

它学习的也不是“如何走路”或“如何伸手”,而是一种更底层的先验:

人在保持平衡与稳定的前提下,通常是怎么运动的。

这也是Helix 02的物理具身核心所在——

当上层系统在规划“做什么”时,S0负责保证“身体能不能顺利、稳定地把这件事做出来”。

与传统做法中为行走、转向、下蹲、伸手分别设计奖励函数不同,S0直接从大规模、多样化的人类运动数据中,学习对人类动作的整体跟踪能力。

在复现这些动作的过程中,策略自然学会了如何在各种行为之间协调受力、调整姿态并维持平衡,从而覆盖通用行走—操作所需的完整能力范围

一些关键细节包括:

  • 训练数据:超过1000小时的关节级重定向人类运动数据。
  • 模型架构:一个约1000万参数的神经网络,输入为全身关节状态与基座运动信息,以1kHz输出关节级执行器控制指令。
  • 仿真训练:完全在仿真中完成,覆盖20 万+并行环境,并采用大规模域随机化(domain randomization),从而实现对真实机器人的直接迁移,并在整个机器人机群上具备良好的泛化能力。
System 1:把所有感知,变成全身动作

如果说S0解决的是“全身动作执行的时候保持稳定”,那System 1解决的就是:所有感知信息,如何变成可执行的全身动作

在去年发布的Helix中,S1只控制上半身,输入主要来自关节状态和图像;

而在Helix 02中,S1接入了全部传感器,并直接控制整台机器人

  • 输入:头部摄像头、手掌摄像头、指尖触觉传感器,以及全身本体感知。
  • 输出:覆盖双腿、躯干、头部、手臂、手腕与每一根手指的完整关节级控制。

这种从像素到全身(pixels-to-whole-body)的架构,使S1能够将机器人自身状态与环境视为一个强耦合的整体系统来进行推理。

手掌摄像头和触觉传感器是Figure 03引入的全新硬件能力,这也是 Figure首次展示依赖这些模态的神经网络控制策略

手掌摄像头在物体被头部摄像头遮挡时,能够提供手内视觉反馈。

嵌入在每个指尖的触觉传感器可感知低至3克的微小受力——灵敏到可以“感觉到一枚回形针”,从而实现具备接触感知、可调控力度的抓取。

这些感知能力,真正释放了五指灵巧手的潜力,使Helix能够胜任那些需要多指精细控制的复杂操作任务。

在架构上,S1依然是一个以System 2隐变量为条件的Transformer,只是现在,它输出的是全身关节目标,并由S0 以 kHz级频率进行跟踪执行。

System 2:场景理解与语言

最后,是承担语义推理的System 2

S2负责处理场景、理解语言,并为S1生成语义级的隐式目标

在Helix 02中,S2能描述的行为范围被大幅扩展。

过去,它只能下达类似:“拿起番茄酱。”这样的指令。

现在,它可以直接表达:“走到洗碗机前并打开它”、“把碗端到台面上”、“回到上层架,拿起杯子”等指令。

此外,S2不需要规划具体的步态,也不需要关心手脚如何协同。

它只需生成一串语义级隐变量,由S1翻译为运动指令,再由S0负责稳定、连续地执行。

结合触觉与手内视觉的灵巧操作

Helix 02的突破不只体现在全身控制上。

Helix 02新引入的触觉感知与手掌摄像头,让它能够完成一类纯视觉策略几乎做不到的精细操作任务

下面是四个代表性的灵巧操作演示。

拧开瓶盖

机器人需要在稳定固定瓶身的同时,施加连续、可控的旋转力来拧下瓶盖,既不能打滑,也不能压坏容器。

这要求双手高度协同,并通过触觉调节的抓取力度与扭矩控制来完成

从药盒中取出单颗药片

机器人需要从分药盒中准确定位并取出一粒小药丸,而药丸往往会被头部摄像头遮挡。

这一任务依赖的是手掌摄像头提供的手内视觉反馈,以及触觉引导下的高精度抓取。

用注射器精确推出5ml液体

机器人必须在阻力不断变化、容错空间极小的情况下,推动注射器活塞,精确分配5ml药液。

这要求系统具备稳定的力控执行能力,并通过触觉反馈与多指协同,持续保持姿态与压力的微调。

从杂乱箱中取出金属零件:

机器人需要从一堆相互遮挡、叠放、且会在接触中发生位移的金属零件中,准确取出目标部件。

这不仅要求在杂乱环境中做出可靠的视觉抓取决策,还需要通过触觉确认是否真正形成了稳固接触。

在这一演示中,Figure 03实际展示的是从其BotQ制造工厂中卸载真实金属零件的过程。

Loco-Manipulation,新的主线?

去年年初,Helix的爆火,让很多人第一次意识到快慢双系统可能是具身智能里一个非常关键的方向。

但在当时Helix自己的技术报告中,其实也很坦率地暴露了一个问题——

当时解决的仍然只是whole upper-body control,而这次Helix 02的发布则直接把基于全身控制的Loco-Manipulation摆上了台面。

换句话说,在之前的Helix阶段,机器人的上下半身依然是割裂的。

手在想着怎么抓,腿和脚在想着怎么走,到哪里停住,上下半身通过接口对齐。

而这,也是机器人领域一直以来的主流做法:将行走与操作拆分为两个独立控制器,再用状态机把它们“缝合”在一起:

走→停→稳定→伸手→抓取→再走。

这种方案在桌面操作上问题不大,不过一旦任务扩展到真实空间里、需要移动与操作同时发生,这种分离就会立刻成为瓶颈。

原因其实很简单,机器人一抬起物体,身体的平衡就发生变化;机器人向前迈一步,手臂的可达范围也随之改变;手臂与双腿在任何时刻都在彼此制约。

也正因为这种上下半身的强耦合关系,此前的很多方案本质上仍是在回放离线规划好的动作,通过“先算好、再照着做”来绕开问题。

这确实能让机器人完成一些跑、跳、翻滚等演示动作,但代价是控制系统的反馈链路非常浅

一旦进入真实操作环境,只要物体位置稍有偏移,或接触过程与预期不一致,整套行为就会迅速崩溃。

同时,正如Figure指出的,这种频繁的“停—走—切换”,不仅慢、难以做鲁棒推理,在行为上也显得非常不自然。

毕竟,人类的上下半身,从来就不是由两个控制器分别控制的。

因此,真正的自主性,需要一种根本不同的方案:一个能够同时对全身进行整体推理的单一学习系统。它可以持续地感知、决策并行动。

在行走中搬运物体,在伸手时动态调整平衡,并在偏差出现时实时恢复,这种基于全身控制的Loco-Manipulation就成为了新的解决方案。

此前,因同样装填碗碟任务出圈的Sunday机器人创始人Tony Zhao也表示:

恭喜@Figure_robot完成这个长时程的洗碗机卸载任务!全身控制(WBC)真的非常惊艳。

Tony也顺带着提了一些建议,比如这次看起来所有物体都是塑料制品,有些操作似乎也在利用这一点。

不过,中肯地说,相较于Sunday之前的轮式机器人,Figure这次足式控制的难度明显要来的大一些。

同时,另一位网友也表示:

面向人形机器人的全身控制VLA,如今已经成了“入场门槛”。也要为Figure对Helix 02的详细拆解点赞——它在与周围世界交互时,已经开始让人感觉不再那么像一台机器人,而更像一个“人”。

当然,Figure 也并不是第一个把全身控制和loco-manipulation当作主线来推进的团队。

在更早之前,就已经有类似像WholeBodyVLA的工作,在智元Agibot X2人形机器人上,实现了在大尺度空间中的端到端移动—操作任务。

而这一系列趋势,也意味着具身智能的主战场,正在从静态桌面,转移到需要持续平衡、移动与操作协同的真实世界。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐