通用流,零样本机器人技能迁移突破
清华大学等机构提出"GeneralFlow"方法,通过3D点轨迹预测实现人类到机器人的零样本技能迁移。该方法利用跨载体RGBD视频数据训练语言条件预测模型,在6个场景18项任务中取得81%成功率。核心突破包括:1)利用人类视频数据解决机器人数据稀缺问题;2)通过通用流预测实现跨载体、跨物体技能迁移;3)选择3D点轨迹作为预测目标增强几何指导性。该方法显著降低了机器人应用门槛,展
它是由清华大学交叉信息研究院、上海人工智能实验室等机构的研究团队提出的一种名为 “General Flow(通用流)” 的基础赋能方法,为可扩展机器人学习提供了全新思路。
该方法以 3D 点未来轨迹为核心预测目标,借助大规模跨载体 RGBD 人类视频数据集训练语言条件预测模型,实现了零样本人类到机器人的技能迁移,在 6 个场景的 18 项任务中取得了 81% 的惊人成功率。本文将从研究背景、核心价值与技术原理三个维度,深入解析这一突破性成果。

工作链接(项目主页):https://general-flow.github.io/
一、这个工作诞生的背景(一些困境)
机器人学习的终极目标是让机器人具备像人类一样的通用操作能力,能够适应复杂多变的现实环境,完成多样化的任务。但长期以来,这一目标的实现面临着三大核心瓶颈,成为研究人员亟待解决的关键问题。
1. 数据利用的规模化难题

机器人学习高度依赖数据驱动,但高质量的机器人操作数据获取成本极高。传统方法往往需要针对特定机器人、特定任务采集专用数据集,不仅耗时耗力,还存在数据覆盖范围窄、泛化能力弱的问题。
相比之下,人类日常活动的视频数据海量且易获取,包含了丰富的操作技能与场景信息,但这些跨载体数据(人类与机器人的身体结构、运动方式存在差异)难以直接应用于机器人学习。
如何有效利用大规模跨载体数据,打破数据稀缺对机器人学习的限制,成为实现可扩展学习的首要挑战。
2. 技能迁移的通用性困境
现实世界中的物体种类繁多,包括刚性物体(如杯子、笔记本电脑)、铰接物体(如保险箱、冰箱)和柔性物体(如衣物)等。传统机器人学习方法通常针对特定物体类别或任务设计模型,缺乏通用性,无法快速适配新的物体和场景。
更重要的是,人类的操作技能难以直接迁移到机器人身上,由于载体差异导致的动作映射、尺度适配等问题,使得 “看到即学会” 的零样本技能迁移难以实现。如何构建一种通用的学习框架,实现跨物体、跨场景、跨载体的技能迁移,是机器人走向实用化的关键。
3. 预测目标的有效性缺失
在机器人学习中,选择合适的预测目标至关重要。传统方法多以机器人的关节角度、末端执行器位置等为预测目标,这类目标高度依赖具体的机器人硬件,泛化能力差,且缺乏对物理世界规律的考量。
此外,这些预测目标难以提供足够的几何和物理指导,导致机器人在执行任务时稳定性不足,容易受到环境干扰或感知误差的影响。寻找一种能够兼顾通用性、几何指导性和跨载体适配性的预测目标,成为提升机器人学习效率与稳定性的核心需求。
二、这个工作有什么用呢?
General Flow 的提出不仅在理论层面突破了传统机器人学习的局限,更在实际应用中展现出强大的价值,为机器人技术的规模化落地提供了关键支撑。其核心价值主要体现在以下三个方面:

1. 降低应用门槛
该工作最显著的成果是实现了高效的零样本人类到机器人技能迁移。在无需针对具体机器人或任务进行额外训练的情况下,仅通过人类操作视频和自然语言指令,机器人就能快速掌握相应技能,在 18 项不同任务中取得 81% 的成功率。
这一突破极大地降低了机器人应用的门槛,无需为每台机器人、每项任务单独开发训练方案,只需利用已有的人类活动视频数据集,就能快速部署机器人完成各类操作任务。例如,在家庭场景中,机器人可通过观看人类折叠衣物、打开冰箱的视频,直接学会相应技能;在办公场景中,能够快速掌握打开笔记本电脑、拾取文件等操作,大幅提升了机器人的适配能力与部署效率。
2. 覆盖多类别物体与复杂场景,提升通用性
General Flow 具备强大的通用性,能够适配刚性、铰接和柔性等多种类型的物体,涵盖 6 个场景的 18 项多样化任务,包括拾取杯子、打开保险箱、折叠衣物、关闭笔记本电脑等。
**这种通用性打破了传统机器人学习方法的任务局限性,使机器人能够灵活应对现实世界中的复杂环境。**无论是家庭、办公、工业等不同场景,还是不同材质、不同结构的物体,机器人都能通过通用流预测获得有效的操作指导,无需针对特定场景或物体重新训练模型。这一特性让机器人能够真正走向多场景、多任务的实用化应用,推动服务机器人、工业机器人等领域的技术升级。
3. 提供稳定可靠的操作指导,增强鲁棒性
通用流预测能够为机器人提供丰富的几何和物理指导,具有较小的推理域间隙,确保机器人在执行任务时的稳定性和可靠性。其展现出的三大涌现特性进一步强化了这一优势:
语义丰富性与可控性使得模型能够通过切换语言指令灵活调整操作意图,例如根据 “打开保险箱” 和 “关闭保险箱” 的不同指令,精准预测对应的运动轨迹;
对标签噪声的鲁棒性让模型在面对标注偏差或静态标签等问题时,依然能够预测正确的操作趋势,提升了在真实复杂数据环境中的适应性;
空间常识的习得使模型能够准确把握物体的空间关系,例如在 “放置杯子” 任务中,根据距离调整预测尺度,确保杯子稳定放置在桌面上。这些特性让机器人在实际操作中能够有效应对各种干扰因素,提升任务完成的成功率与稳定性。
三、核心方法
General Flow 的突破性成果,源于其逻辑严密、环环相扣的技术 Pipeline 设计。从数据输入到机器人执行,整个流程围绕 “通用流预测” 这一核心,整合了数据处理、模型训练、轨迹预测与闭环控制四大关键环节,形成了一套从跨载体数据到实际操作技能的完整转化链路。以下将详细拆解这一 Pipeline 的核心流程与技术细节,揭示其实现零样本跨载体技能迁移的底层逻辑。

1. Pipeline 整体框架:从数据到执行的四步闭环
General Flow 的完整技术 Pipeline 可概括为 “数据预处理→模型训练→通用流预测→机器人执行控制” 的四步闭环流程,各环节无缝衔接,确保从人类视频数据到机器人操作技能的高效迁移。
- **第一步是数据预处理阶段,**核心是对大规模跨载体 RGBD 人类视频数据集进行结构化处理。
首先,从海量人类操作视频中提取连续的 RGBD 帧,同步获取彩色图像的语义信息与深度图像的 3D 空间信息;
其次,通过目标检测与分割算法,分离出视频中的操作对象(如杯子、保险箱、衣物等),并提取物体表面的关键 3D 点集;
最后,为每段视频配对对应的自然语言指令(如 “拾取杯子”“打开保险箱”),构建 “语言指令 - RGBD 图像 - 3D 点运动轨迹” 的三元组训练数据,同时对 3D 点轨迹进行标准化处理,消除不同视频间的尺度差异与噪声干扰。
- 第二步是模型训练阶段,重点是训练语言条件下的尺度感知通用流预测模型。
模型以预处理后的三元组数据为输入,通过双分支网络结构分别处理语言指令与 3D 点云信息:语言分支采用 Transformer 编码器将自然语言指令转化为语义向量,捕捉操作意图;
视觉分支通过 PointNet++ 网络提取 3D 点云的空间特征,感知物体结构。两个分支的特征经交叉注意力机制融合后,输入到尺度感知预测头,动态学习不同物体、不同场景下的运动尺度规律,最终输出物体关键 3D 点的未来轨迹(即通用流)。
训练过程中,采用均方误差损失函数优化预测轨迹与真实轨迹的偏差,同时引入鲁棒性损失项,提升模型对标签噪声与分割误差的适应能力。
- 第三步是通用流预测阶段,这是连接模型与执行的核心环节。
当需要机器人完成某一任务时,首先输入自然语言指令(如 “折叠衣物”),并通过机器人搭载的 RGBD 相机获取当前场景的 3D 点云数据;将指令语义向量与场景 3D 点云特征输入训练好的模型,模型会基于学习到的人类操作规律,预测出目标物体在完成该任务时的 3D 点未来运动轨迹(通用流)。
该预测过程无需任何额外微调,完全依赖训练阶段习得的通用规律,实现零样本适配。
- 第四步是机器人执行控制阶段,通过闭环流预测策略将通用流转化为实际操作动作。
机器人的控制模块以预测的通用流为参考轨迹,规划末端执行器(如抓手)的运动路径:首先根据通用流确定关键操作点(如保险箱的把手、衣物的边角),计算抓手的目标位置与姿态;
在执行过程中,持续通过 RGBD 相机采集实时场景数据,动态更新通用流预测结果,与当前运动轨迹进行比对;若出现偏差(如物体位置偏移、抓手受力异常),控制模块会实时调整关节角度与运动速度,形成闭环反馈,确保操作动作始终贴合预测轨迹,直至任务完成。
2. 一些Tricks
点击链接通用流,零样本机器人技能迁移突破阅读原文
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐


所有评论(0)