观看即学会:从万亿帧人类视频中,为机器人蒸馏操作文明的“常识基因”
具身智能的数据来源中,人类中心视频与跨形态迁移扮演着极为特殊且关键的角色。它不像遥操作那样直接产生机器人可用的动作标签,但却蕴含着人类在千百万年里进化出的操作常识、物理直觉与任务结构。将这种“纯粹的人类经验”转化为机器人可执行的策略,正是当前具身大模型走向通用化的必然路径。
一、这类数据为何不可或缺?
真实遥操作数据虽精度极高,却始终面临规模有限、场景狭窄、成本高昂的桎梏。人类中心视频则完全跳出了机器人的物理限制,提供了三种遥操作无法比拟的核心价值:
-
规模与多样性近乎无限
互联网上每天产生数亿小时的人类活动视频,涵盖几乎所有的日常操作场景。这些数据天然包含了不同国家、不同厨房、不同工具和不同习惯下的任务执行方式,是构建视觉常识的完美原料。 -
富含完整的任务结构与语义
一段煮咖啡的视频,不仅展示了“抓杯子”的动作,更包含了“为什么先放滤纸”“何时等待”这样的任务逻辑。叙事性标注(如Ego4D的“等待咖啡滴落”)让模型能够学习时间维度上的长程依赖与因果关系。 -
跨形态迁移的“知识杠杆”
人手的形态与机械手截然不同,但物体运动的物理规律是共享的。通过人类视频学习“如何推动一个滑动变阻器”或“拉开抽屉需要先克服静摩擦力”这类通用动力学知识,可以大幅减少机器人在真实环境中试错所需的样本量。
二、主要数据来源与代表数据集
根据数据形式、标注深度以及与机器人本体距离的远近,这类数据可分为四个层次,由通用到专用逐步逼近机器人的执行端。
1. 大规模被动人类活动视频:常识的海洋
这类数据完全不考虑机器人,单纯记录人类自然行为,主要用于视觉表征预训练,为机器人提供“眼睛”和“直觉”。
-
Ego4D
由全球多所大学联合收集,总计超过3,670小时的第一人称日常活动视频,覆盖厨房、维修、社交、手工等数百种场景。其关键优势在于:
• 密集的叙事化标注:每一秒都有自然语言描述,如“左手拿起锅盖”“用勺子搅拌汤”,形成了视频与语言的双模态对齐。
• 丰富的任务流:记录了“从冰箱取鸡蛋→打蛋→煎蛋”的完整过程,可训练模型理解长期任务的时序结构。
基于Ego4D预训练的视觉模型(如R3M、VIP)已被广泛用作机器人策略网络的主干,显著提升了陌生场景下的物体识别与动作识别能力。 -
Epic-Kitchens
聚焦厨房操作的第一人称视频数据集,采集了多个参与者在各自真实厨房中无脚本烹饪的全过程,标注精细到动词-名词对(如“切-胡萝卜”“拧-水龙头”)。它捕捉了高度的同任务变异——不同人以截然不同的方式完成同一道菜,这种多样性能有效防止策略过拟合至单一操作风格。 -
Something-Something V2
由众包志愿者拍摄的简短视频,专门演示基本物理交互,如“拿起某物”“把某物推进某物”“覆盖某物”。所有视频都由动作的语义标签驱动,而非物体类别,这迫使模型必须理解动作的动态过程而非静态外观。它已成为评估视频理解模型时序推理能力的标准基准,其语义知识可通过跨模态迁移注入机器人操作策略。
2. 精细手-物交互视频:解剖操作的本质
更进一层,研究者需要理解操作的微观结构——人手的姿态、接触点、施加的力。此类数据集通常包含高精度的手部姿态估计或3D标注。
-
HOI4D
大规模第一人称手-物交互4D数据集,在真实厨房场景中采集,提供逐帧的人手与物体3D网格对齐、实例分割及动作标签。机器人可以从中学到“抓杯柄”与“抓杯身”在接触几何上的本质区别,从而设计更稳定的抓取策略。 -
DexYCB 与 FPHA
分别提供人手操纵YCB物体的RGB-D序列以及第一人称手势数据集。它们为训练从图像中提取手部关键点或直接预测手-物接触的神经网络提供了珍贵监督,而这些模型正是后续“从人类视频生成机器人动作”的桥接基础。
3. 主动对齐的人-机配对数据:跨形态的罗塞塔石碑
上述数据集仅记录人类一侧,缺乏与机器人动作的直接对应。为打破“体现鸿沟”,一些先驱工作专门构建了同一任务既有人类操作视频,又有机器人执行轨迹的配对数据集。
-
RH20T
这是一个多模态、跨形态的基准数据集,其核心贡献在于:为上百个日常任务同时采集了人类自然演示视频和相应的机器人执行轨迹(包括关节角、末端位姿、力觉和音频)。通过标定与时间对齐,一条人类切菜的视频直接关联到机械臂“拿刀-下压-推拉”的明确动作序列,为训练视频到机器人动作的端到端映射提供了理想监督。这相当于建立了一个“人-机词典”,把人类视频中的运动模式翻译成特定机器人形态的控制指令。 -
Open-TeleVision 与类似系统
这类系统在实时遥操作过程中,将人类精细手部动作通过优化重定向到五指灵巧手,同时录制下操作员的RGB视频与机器人的动作。由此生成的数据天然具备“人类图像↔机器人动作”的配对,支持直接从单帧人类操作图预测机器人目标动作的研究。
4. 互联网图文知识的蒸馏:语义世界的边界拓展
除了视频,互联网级的多模态数据(图像-文本对、网页图文)构成了另一条重要的知识迁移路径。这里不直接提供动作,但拓展了机器人对概念和场景的理解范围。
-
RT-2 所用的网络数据
RT-2 模型除了基于机器人遥操作数据外,还大规模使用了来自网络的全景图文数据(例如 PaLI-X 和 PaLM-E 的训练集)。这让机器人能够零样本理解“拿起已经灭绝的渡渡鸟玩具”或“用恐龙水杯喝水”这类从未在机器人数据中出现过的指令。本质上是将互联网中人类用语言描述的千万种实体与关系蒸馏到了具身策略中,使得机器人在看到陌生物体时,能凭借语言锚点推断其功能和交互方式。
三、跨形态迁移的关键技术路径
拥有了数据,如何填补人-机之间的形态鸿沟,是这一领域的核心难题。目前主要有四条技术路线:
-
基于预训练视觉表征的泛化
用人类视频(如Ego4D)训练一个通用视觉编码器(VIP、R3M、LIV),提取对操作任务敏感的特征,然后将该编码器冻结并作为机器人策略网络的前端。这样,即使机器人是在仿真或少量遥操作数据中训练,它所“看到”的画面也已携带了从人类视频中习得的关于物体边界、可动性、任务阶段的丰富先验。 -
通过人体关键点或物体运动进行动作重定向
首先用现成的模型(如手部姿态估计、物体6D姿态跟踪)从人类视频中提取手的关键点运动轨迹或被操作物体的运动轨迹,然后将这些轨迹通过逆运动学或运动优化映射到具体机器人上。这一过程可自动化地将一条人类烹饪视频转化为机器人可执行的关节轨迹序列。 -
学习视频到动作的端到端翻译
利用RH20T等配对数据集,训练一个以视频帧和任务指令为输入,直接输出机器人动作的Transformer模型。模型内部自主学会从人类操作中忽略手的外观,聚焦于物体的位移和姿态变化,并映射到机械手末端的微分运动。 -
利用生成式模型构造配对数据
最新的方法尝试先基于人类视频训练一个“神经运动模拟器”,然后让强化学习策略在这个模拟器中与人类视频所定义的任务进行交互,自动产生机器人动作。本质上是通过世界模型把单向的视频观察转化为可交互的环境,从而实现迁移。
四、挑战与局限
尽管前景诱人,人类中心视频的利用仍面临多重困难:
-
体现鸿沟 (Embodiment Gap):人手有21个自由度,带柔性皮肤,而平行夹爪仅1个自由度,这种差异导致很多人类动作(如“用手指捏起针”)无法直接映射。必须从视频中抽象出“物体该如何移动”的目标级表征,再交给机器人实现。
-
视角歧义与遮挡:第一人称视频常伴随剧烈运动、遮挡和变焦,使得精确提取物体和手的运动变得极不稳定。
-
缺少力与触觉:视频只能记录可见的几何运动,无法感知插拔时的阻力变化或抓握时的摩擦力,这些对精密操作至关重要的信息被完全丢失。
-
巨大的数据噪声与标注成本:互联网视频质量参差不齐,动作节奏各异,要获得像RH20T那样的人-机配对数据,仍需耗费可观的人工与机时。
五、未来展望
随着视觉基础模型和生成式AI的快速进步,人类中心视频的利用正走向一个新阶段:
-
从“观看”到“交互”:未来的通用视频模型将不仅能回答“视频中发生了什么”,还能预测“如果我移动这个物体,画面会如何变化”,成为可直接用于策略规划的视频世界模型。
-
生成式数据增强的闭环:通过少量人机配对数据,训练一个视频-动作生成模型,然后为任意人类操作视频“合成”对应的机器人动作,指数级放大配对数据的规模。
-
统一人-机行为表征:构建一种与具体形态无关的“行为潜空间”,无论人手还是机械臂的动作,都被编码为同一空间中的意图向量,从而彻底打破体现鸿沟。
总结而言,人类中心视频与跨形态迁移是一座连接“人类灵巧之海”与“机器人执行之躯”的桥梁。它提供的不是直接的动作标签,而是更高阶的任务理解、物理直觉与语义概念。当这些从万亿级的人类经验中蒸馏出的知识,与少量高保真的遥操作数据相结合时,具身智能才能突破“见过的才会做”的封闭边界,真正走向开放世界中的通用操作。

图示解读:
数据从通用人类常识到精细手-物交互,再到人-机动作配对和互联网语义蒸馏,层层逼近机器人可执行的监督信号。跨形态迁移技术像一座桥,将这些不同层级的数据转化为机器人可用的视觉直觉与动作策略,同时不断克服形态鸿沟,迈向统一的行为表征。
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐
所有评论(0)