业内首次！用世界模型实现零样本灵巧操作，抓取成功率达83%

这需要的不仅是更好的模型，更是更贴近现实的数据、更高效的规划算法，以及对“手-物交互”物理规律的更深理解。DexWM的手一致性损失效果显著：在4秒长的开环预测中，手部关键点准确率（PCK@20）达到68%，远超NWM（48%）、PEVA（63%）等基线模型。DexWM的价值，不在于83%的抓取成功率，而在于提供了一条“低成本实现灵巧操作”的路径——当专用机器人数据稀缺时，人类视频可以成为有效的“替

深蓝学院

875人浏览 · 2026-01-15 19:50:40

深蓝学院 · 2026-01-15 19:50:40 发布

2026年，人形机器人战局已毫无争议地转向“上半身”

——业内首次

世界模型在机器人领域热度飙升，大多聚焦于导航、全身动作等粗粒度任务。近日，杨立昆团队最新发布的DexWM——一个专为灵巧操作设计的世界模型，正直接冲击更难的方向：

用类似人类手的多指夹具，完成毫米级精度的物体交互。

业界首次实现：用人类日常交互视频预训练，零样本迁移到真实机器人，完成抓取等高精度任务，抓取成功率达83%。

如果你深入看它的实验设定，或许会对“灵巧操作的通用性”产生新的思考：

它的训练依赖高质量人类第一视角视频（EgoDex），标注了精确的3D手关键点；真实机器人实验仅测试了12次抓取，且物体摆放相对规整。

比起83%的成功率，更值得关注的是它破解“灵巧操作数据荒”的思路：

当专用灵巧机器人数据集稀缺时，人类视频能否成为突破口？世界模型能否架起“人类动作”到“机器人操作”的桥梁？

01 破解灵巧操作的两大死结

为什么之前的世界模型做不了精细操作？DexWM直指两个核心痛点：

数据稀缺：带多指灵巧夹具的机器人数据集极少，无法支撑复杂模型训练；
动作粗糙：传统世界模型的动作表示（文本、导航指令）太粗，抓不住手指开合、手腕转动等精细动作。

DexWM的解决方案很直接：借人类数据的“力”，补机器人数据的“缺”；用精细的动作表示，匹配灵巧操作的需求。

▲图1 | DexWM的真实机器人实验场景：物体清晰摆放，无复杂遮挡

02 模型架构

DexWM的核心是一个“潜态世界模型”，整体架构简洁但针对性极强：

▲图2 | DexWM 灵巧操作世界模型：训练及零样本机器人任务应用

编码器：采用预训练的DINOv2模型，将图像转化为语义丰富的潜态特征（避免像素级冗余）；

▲图3 | 基于 DexWM 的目标条件规划：CEM 优化关节角度实现目标导向动作

动作表示：不依赖文本或简单关节指令，而是用“3D手关键点变化+相机姿态变化”，精准捕捉手指、手腕的细微动作；

预测器：基于条件扩散Transformer（CDiT），直接回归未来潜态，无需迭代去噪，提升推理速度；

一致性损失（HC Loss）：让模型同时预测环境状态和手部位置，避免只关注物体而“弄丢”手的细节——这是灵巧操作的关键。

$\mathcal{L}HC = \frac{1}{12 \times H \times W} |Vk_{n+1} - \hat{V}kn + 1|_2^2$

03 训练流程

DexWM的训练逻辑很清晰，分三步走，完美解决“数据缺口”和“embodiment gap（具身差异）”：

第一步：大规模预训练（900+小时）

核心数据：829小时人类第一视角视频（EgoDex）+ 100小时非灵巧机器人视频（DROID）；

目的：从人类视频中学习“手-物交互”的通用规律，从机器人视频中减少“人类手”到“机器人手”的差异；

关键：DROID用的是平行夹爪，DexWM通过“虚拟手关键点”将其转化为统一的动作表示，实现数据融合。

动作表示。手部动作被以帧间三维关键点差异的形式进行表征。

第二步：小规模微调（4小时）

数据：RoboCasa仿真环境中，机器人的随机探索动作（无任务导向，仅熟悉自身运动）；

目的：不用专门收集任务数据，仅用少量探索数据对齐机器人的“身体感知”，弥合仿真与现实的差距。

第三步：MPC规划部署

核心：DexWM不直接预测动作，而是作为“状态转移模型”，在模型预测控制（MPC）框架中优化轨迹；

优势：相比直接预测动作的方法，抗干扰能力更强，能应对真实世界的微小偏差。

点击图片：从视觉、经典的规划控制到深度学习、强化学习到VLM、VLA等具身智能方法，打通机器人抓取链条。优秀学员将优先推荐至10余家企业实习就业！包括字树科技、星海图、云深处、银河通用、逐际动力、国内浙江人形机器人创新中心等。

04 实验结果

核心性能：零样本迁移表现亮眼

仿真任务：在抓取、放置、到达任务中，比Diffusion Policy平均成功率高50%；

▲表1 | 各模型在模拟与真实机器人任务的成功率对比

真实机器人：Franka Panda+Allegro多指手，12次抓取任务成功10次，成功率83%；

关键对比：没有人类视频预训练的版本，仿真抓取成功率仅14%，证明人类数据的核心价值。

▲表2 | DexWM 利用人类视频数据的收益—各数据集在 EgoDex 与 RoboCasa 的指标表现对比

中间环节：手部细节预测碾压基线

DexWM的手一致性损失效果显著：在4秒长的开环预测中，手部关键点准确率（PCK@20）达到68%，远超NWM（48%）、PEVA（63%）等基线模型。

▲表3 | 不同动作空间的世界模型对比—嵌入 L2 误差与 PCK@20 指标的表现分析

图手部关键点预测对比：DexWM能更精准捕捉手指动作

▲图4 | DexWM 与 PEVA在新环境中匹配参考序列的手部状态表现

这些局限不能忽视

数据依赖：高度依赖EgoDex的3D手关键点标注——这类高质量人类数据集稀缺，难以复制；

任务范围窄：仅测试了抓取、放置、到达等基础任务，复杂的“拿起-调整-放置”长周期任务仍需子目标拆分；

规划效率：采用CEM算法优化轨迹，速度较慢，难以应对实时性要求高的场景；

真实场景泛化：实验物体摆放规整，未测试遮挡、物体滑动等复杂情况，泛化能力待验证。

05 总结

DexWM的价值，不在于83%的抓取成功率，而在于提供了一条“低成本实现灵巧操作”的路径——当专用机器人数据稀缺时，人类视频可以成为有效的“替代燃料”。

它证明了：世界模型不仅能处理粗粒度任务，只要优化动作表示和损失函数，就能胜任精细操作；人类的日常交互经验，是机器人学习物理世界规律的宝贵资源。

但我们也要清醒认识到：DexWM目前还是“实验室级”的突破——它依赖高质量的人类标注和规整的实验环境。

真正的灵巧操作，需要机器人在杂乱的场景中应对各种突发情况。这需要的不仅是更好的模型，更是更贴近现实的数据、更高效的规划算法，以及对“手-物交互”物理规律的更深理解。

一点小思考

灵巧操作的进步，往往藏在“不完美”的细节里。DexWM的探索意义，在于为行业提供了一种新的可能性——人类数据与世界模型的结合，或许能让机器人更快地掌握精细动作。

但通往真实世界的路上，没有“完美数据集”和“理想环境”。未来的突破，需要在保持数据效率的同时，进一步提升模型对真实场景噪声、不确定性的适应能力。

Ref

论文题目：World Models Can Leverage Human Videos for Dexterous Manipulation

论文地址：https://arxiv.org/pdf/2512.13644v1

项目地址：https://raktimgg.github.io/dexwm/

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

老板要的不是聊天机器人：一篇讲明白企业级 Agent 怎么搭

这篇文章用大白话讲清楚企业级 Agent 是什么、需要哪些工具、正确的落地路线是什么，并用报销审核案例说明 Agent 为什么不是聊天机器人。

DAMO开发者矩阵

【论文阅读】StereoVLA: Enhancing Vision-Language-Action Models with Stereo Vision

DAMO开发者矩阵

从场景落地到技术迭代：服务机器人迈入规模化商用爆发期

采用8nm工艺，搭载6TOPS NPU算力，支持8K编解码、多传感器融合、高精度力控、复杂环境自主导航、机械臂动态运动规划，算力性能强劲、体积小巧、功耗可控，可支撑人形康养机器人、高端AI理疗机器人、工业级AMR、四足巡检机器人等高负载、高智能需求的高端设备开发。商用服务机器人主要应用于酒店、商场、写字楼、园区等公共场景，可实现迎宾引路、物品配送、清洁消杀、导购讲解、安防巡逻等标准化重复作业，核心