2026年,人形机器人战局已毫无争议地转向“上半身”

——业内首次

目录

01 破解灵巧操作的两大死结

02 模型架构

03 训练流程

第一步:大规模预训练(900+小时)

第二步:小规模微调(4小时)

第三步:MPC规划部署

04 实验结果

核心性能:零样本迁移表现亮眼

中间环节:手部细节预测碾压基线

这些局限不能忽视

05 总结

一点小思考


世界模型在机器人领域热度飙升,大多聚焦于导航、全身动作等粗粒度任务。近日,杨立昆团队最新发布的DexWM——一个专为灵巧操作设计的世界模型,正直接冲击更难的方向:

用类似人类手的多指夹具,完成毫米级精度的物体交互。

业界首次实现:用人类日常交互视频预训练,零样本迁移到真实机器人,完成抓取等高精度任务,抓取成功率达83%。

如果你深入看它的实验设定,或许会对“灵巧操作的通用性”产生新的思考:

它的训练依赖高质量人类第一视角视频(EgoDex),标注了精确的3D手关键点;真实机器人实验仅测试了12次抓取,且物体摆放相对规整。

比起83%的成功率,更值得关注的是它破解“灵巧操作数据荒”的思路:

当专用灵巧机器人数据集稀缺时,人类视频能否成为突破口?世界模型能否架起“人类动作”到“机器人操作”的桥梁?

01 破解灵巧操作的两大死结

为什么之前的世界模型做不了精细操作?DexWM直指两个核心痛点:

  • 数据稀缺:带多指灵巧夹具的机器人数据集极少,无法支撑复杂模型训练;
  • 动作粗糙:传统世界模型的动作表示(文本、导航指令)太粗,抓不住手指开合、手腕转动等精细动作。

DexWM的解决方案很直接:借人类数据的“力”,补机器人数据的“缺”;用精细的动作表示,匹配灵巧操作的需求。

▲图1 | DexWM的真实机器人实验场景:物体清晰摆放,无复杂遮挡

02 模型架构

DexWM的核心是一个“潜态世界模型”,整体架构简洁但针对性极强:

▲图2 | DexWM 灵巧操作世界模型:训练及零样本机器人任务应用

编码器:采用预训练的DINOv2模型,将图像转化为语义丰富的潜态特征(避免像素级冗余);

▲图3 | 基于 DexWM 的目标条件规划:CEM 优化关节角度实现目标导向动作

动作表示:不依赖文本或简单关节指令,而是用“3D手关键点变化+相机姿态变化”,精准捕捉手指、手腕的细微动作;

预测器:基于条件扩散Transformer(CDiT),直接回归未来潜态,无需迭代去噪,提升推理速度;

一致性损失(HC Loss)让模型同时预测环境状态和手部位置,避免只关注物体而“弄丢”手的细节——这是灵巧操作的关键。

$\mathcal{L}HC = \frac{1}{12 \times H \times W} |Vk_{n+1} - \hat{V}kn + 1|_2^2$

03 训练流程

DexWM的训练逻辑很清晰,分三步走,完美解决“数据缺口”和“embodiment gap(具身差异)”:

第一步:大规模预训练(900+小时)

核心数据:829小时人类第一视角视频(EgoDex)+ 100小时非灵巧机器人视频(DROID);

目的:从人类视频中学习“手-物交互”的通用规律,从机器人视频中减少“人类手”到“机器人手”的差异;

关键:DROID用的是平行夹爪,DexWM通过“虚拟手关键点”将其转化为统一的动作表示,实现数据融合。

动作表示。手部动作被以帧间三维关键点差异的形式进行表征。

第二步:小规模微调(4小时)

数据:RoboCasa仿真环境中,机器人的随机探索动作(无任务导向,仅熟悉自身运动);

目的:不用专门收集任务数据,仅用少量探索数据对齐机器人的“身体感知”,弥合仿真与现实的差距。

第三步:MPC规划部署

核心:DexWM不直接预测动作,而是作为“状态转移模型”,在模型预测控制(MPC)框架中优化轨迹;

优势:相比直接预测动作的方法,抗干扰能力更强,能应对真实世界的微小偏差。

点击图片:从视觉、经典的规划控制到深度学习、强化学习到VLM、VLA等具身智能方法,打通机器人抓取链条。优秀学员将优先推荐至10余家企业实习就业!包括字树科技、星海图、云深处、银河通用、逐际动力、国内浙江人形机器人创新中心等。

04 实验结果

核心性能:零样本迁移表现亮眼

仿真任务:在抓取、放置、到达任务中,比Diffusion Policy平均成功率高50%;

▲表1 | 各模型在模拟与真实机器人任务的成功率对比

真实机器人:Franka Panda+Allegro多指手,12次抓取任务成功10次,成功率83%;

关键对比:没有人类视频预训练的版本,仿真抓取成功率仅14%,证明人类数据的核心价值。

▲表2 | DexWM 利用人类视频数据的收益—各数据集在 EgoDex 与 RoboCasa 的指标表现对比

中间环节:手部细节预测碾压基线

DexWM的手一致性损失效果显著:在4秒长的开环预测中,手部关键点准确率(PCK@20)达到68%,远超NWM(48%)、PEVA(63%)等基线模型。

▲表3 | 不同动作空间的世界模型对比—嵌入 L2 误差与 PCK@20 指标的表现分析

图手部关键点预测对比:DexWM能更精准捕捉手指动作

▲图4 | DexWM 与 PEVA在新环境中匹配参考序列的手部状态表现

这些局限不能忽视

数据依赖:高度依赖EgoDex的3D手关键点标注——这类高质量人类数据集稀缺,难以复制;

任务范围窄:仅测试了抓取、放置、到达等基础任务,复杂的“拿起-调整-放置”长周期任务仍需子目标拆分;

规划效率:采用CEM算法优化轨迹,速度较慢,难以应对实时性要求高的场景;

真实场景泛化:实验物体摆放规整,未测试遮挡、物体滑动等复杂情况,泛化能力待验证。

05 总结

DexWM的价值,不在于83%的抓取成功率,而在于提供了一条“低成本实现灵巧操作”的路径——当专用机器人数据稀缺时,人类视频可以成为有效的“替代燃料”。

它证明了:世界模型不仅能处理粗粒度任务,只要优化动作表示和损失函数,就能胜任精细操作;人类的日常交互经验,是机器人学习物理世界规律的宝贵资源

但我们也要清醒认识到:DexWM目前还是“实验室级”的突破——它依赖高质量的人类标注和规整的实验环境。

真正的灵巧操作,需要机器人在杂乱的场景中应对各种突发情况。这需要的不仅是更好的模型,更是更贴近现实的数据、更高效的规划算法,以及对“手-物交互”物理规律的更深理解。

一点小思考

灵巧操作的进步,往往藏在“不完美”的细节里。DexWM的探索意义,在于为行业提供了一种新的可能性——人类数据与世界模型的结合,或许能让机器人更快地掌握精细动作。

但通往真实世界的路上,没有“完美数据集”和“理想环境”。未来的突破,需要在保持数据效率的同时,进一步提升模型对真实场景噪声、不确定性的适应能力。

Ref

论文题目:World Models Can Leverage Human Videos for Dexterous Manipulation

论文地址:https://arxiv.org/pdf/2512.13644v1

项目地址:https://raktimgg.github.io/dexwm/

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐