“笨拙机器人”难题:为什么成功率在AI评估中对我们撒了谎?
为了防止这种虚假的安全感,开发者必须引入“最小运动阈值(minimal motion thresholds)”,以区分真正优雅流畅的机器人和仅仅是死机的机器人。我们必须摆脱“钻空子的技术性成功”,转向一种新的范式:评估标准必须将特定的硬件(无论是 WidowX 机械臂还是 Google Robot)以及底层模型的“置信度”纳入考量。,也可能导致现实世界中的灾难。针对机器人“智能”的最新研究,终于揭

1. 浮于表面的“技术性成功”
想象一下,一个机器人的任务是将一罐汽水放进篮子里。它缓缓靠近桌面,碰倒了一盏台灯,把汽水罐摔了两次,最终——在一系列抽搐、犹豫的动作之后——勉强把汽水罐推过了终点线。在当今行业标准的基准测试下,这一表现会被记录为“100%成功”。
作为一名机器人分析师,我发现这种“唯结果论(success-at-all-costs)”的指标越来越站不住脚。为什么我们目前的基准测试会将这些笨拙、甚至危险的操作标记为完美成功?答案在于我们如何评估这些机器人的“大脑”:视觉-语言-动作(VLA)模型。这些多模态AI系统会在一个“预测步长(Action Horizon,在 π0\pi_0π0 等模型中可达50个动作)”内生成“动作块(Action Chunks)”——即结构化的控制信号序列。虽然这些模型旨在将视觉输入和自然语言转化为物理运动,但我们现有的评估工具却往往对这些运动的质量视而不见。针对机器人“智能”的最新研究,终于揭示了一个残酷的真相:一个勉强完成任务的机器人,与一个真正“知道自己在做什么”的机器人之间,存在着巨大的鸿沟。
2. 成功是二元的,但质量是一个光谱
在现代机器人技术中,标准的评估工具是“成功率”,通常由一个“符号化预言机(Symbolic Oracle)”来判定。这个预言机只检查一个二元条件:物体到达目标坐标了吗?是,或者否。
这种“非黑即白”的方法是一个陷阱。一项对908次“成功”任务执行过程的深入研究表明,其中很大一部分的“胜利”实际上是执行层面上的失败。机器人可能纯靠运气,或者通过在家庭或制造环境中绝对无法容忍的异常修正来完成任务。正如研究人员指出的那样:
“对成功测试用例的深入分析……表明,许多执行过程实际上是低质量的。例如,许多VLA模型在抓取时掉落目标物体,导致与其他物体发生碰撞,或者遵循了非最优的轨迹。此外,通常很难界定任务的成功究竟是因为模型的能力,还是仅仅出于偶然。”
3. π0\pi_0π0 的数量悖论:普及率不等于高精度
当我们将 OpenVLA、SpatialVLA 和 π0\pi_0π0 等最先进的模型进行对比时,一个“数量悖论(Paradox of Volume)”浮出水面。从纸面数据来看,π0\pi_0π0 这样的模型似乎占据主导地位,但如果深入挖掘数据——尤其是在 WidowX 机械臂硬件上的表现——我们会看到另一个截然不同的故事。
在“放入(Put In)”任务中,π0\pi_0π0 记录了72次成功,远超 SpatialVLA 的42次。然而,当人类专家对这些执行过程的质量进行人工标注时,他们发现两个模型产生的“高质量”执行次数几乎相同(π0\pi_0π0 为25次,SpatialVLA 为24次)。同样,在“拾取(Pick up)”任务中,π0\pi_0π0 获得了161次成功,而 SpatialVLA 为191次,但 π0\pi_0π0 仅产生了51次高质量执行——SpatialVLA 则以132次实现翻倍。这给整个行业带来了明确的启示:原始成功率只是一个“虚荣指标”。SpatialVLA 始终证明了一点:虽然它成功完成的任务总数可能较少,但其执行质量却远远胜出;而 π0\pi_0π0 所谓的“成功”中,充斥着犹豫不决和不稳定性。
4. 速度与加速度:机器人自我怀疑的隐秘信号
在没有人类观察者的情况下,我们该如何量化“笨拙”?关键在于将基于动作的指标(模型内部输出)与基于轨迹的指标(机器人的实际物理运动)进行对比监控。
一个不自信的机器人会“抖动”。这种抖动往往源于基于扩散的去噪过程(diffusion-based denoising process)——当模型试图通过迭代来优化运动轨迹时,其内部会产生“犹豫不决”。我们可以通过两个特定的信号来捕捉这种自我怀疑:
- 动作速度不稳定性 (A-VI): 测量动作块之间机器人速度的跳跃(二阶差分)。
- 动作加速度不稳定性 (A-AI): 测量加速度的变化率(三阶差分)。
这些不仅仅是学术上的好奇心,它们是用于实时监控的实用工具。相比于执行变异性 (EV)——它需要让模型运行多次以检查输出的一致性,从而导致极高的计算开销——A-VI 和 A-AI 的计算成本几乎可以忽略不计。研究表明,EV 本质上只适合实验室环境,而基于动作的不稳定性指标已经完全准备好走向生产线。
5. “静止”机器人的评估盲区
仅仅依赖关于稳定性的数学计算,存在一种反直觉的危险:“静止”的机器人。在数学评估中,质量指标(如基于“均方根加加速度 / RMS Jerk”计算的轨迹不稳定性 TI)通常会严厉惩罚高加速度和抽搐的运动。
这就产生了一个盲区:当VLA模型未能定位物体时,机器人可能因为困惑而彻底瘫痪、一动不动。此时,诸如动作位置不稳定性 (A-PI)、轨迹不稳定性 (TI) 和 TCP位置不稳定性 (TCP-PI) 等指标都会记录为完美的“0.0”。在自动化系统看来,这代表着“完美的稳定性”,而实际上这是一个彻底的定位失败。为了防止这种虚假的安全感,开发者必须引入“最小运动阈值(minimal motion thresholds)”,以区分真正优雅流畅的机器人和仅仅是死机的机器人。
6. “打翻水杯”问题:姿态控制的挣扎
即使是平滑的轨迹,如果机器人忽略了物体的姿态(Orientation),也可能导致现实世界中的灾难。在“移近(Move Near)”任务中,机器人可能成功地将一个瓶子从A点移动到B点,但在移动过程中将瓶子倾斜了45度——这就完全违背了任务的初衷。
目前的指标对此在很大程度上是“盲目”的。如果那个瓶子是敞口的,里面的水会洒得一干二净,但我们的自动化预言机依然会将其标记为一次“成功”。正如研究结果所暗示的那样:
“对于‘移近’任务而言,我们的指标未能充分捕捉物体的最终姿态,而我们认为这是该特定任务中的一个重要方面。未来的研究方向可以探索将物体姿态整合到我们的指标中,以提升评估性能。”
7. “一统江湖”的指标:最优轨迹差(OT)
尽管该研究引入了13个新指标,但**最优轨迹差(OT,Optimal Trajectory Difference)**脱颖而出,成为区分成功与失败的最强大指标。
OT是一个**模型无关(model-agnostic)**的指标,它专门测量机器人末端执行器(End-effector)与其目标参考位置之间的空间接近度。它不在乎“大脑”的内部架构是什么;它只在乎机器人是否在持续缩小与目标的距离。在统计学层面,OT在所有模型中都实现了具有统计学意义且巨大的 A^12\hat{A}_{12}A^12 效应量。这种级别的科学支持使其成为任何机器人任务的通用“健康指标”,为其作为主要基准测试工具提供了所需的技术分量。
8. 结论:迈向自适应机器人时代
从测量二元的成功率,到利用这13个新的不确定性和质量指标来细致理解执行质量,标志着机器人技术的一个重要转折点。我们必须摆脱“钻空子的技术性成功”,转向一种新的范式:评估标准必须将特定的硬件(无论是 WidowX 机械臂还是 Google Robot)以及底层模型的“置信度”纳入考量。
通过将 A-VI 等指标整合到实时运行时监控(runtime monitoring)中,我们正在逼近一个“具备自我意识”的自动化时代。如果现在我们已经能够通过机器人自身的加速度来测量它的“自我怀疑”,那么下一步就是主动干预。很快,我们将不再只能眼睁睁地看着机器人笨拙地摔碎一个罐子;机器人将能够感知到自身不断上升的不确定性,并在错误发生之前,主动停下来向人类寻求帮助。
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐



所有评论(0)