【学习笔记】BifrostUMI 论文全面解析
本文提出BifrostUMI框架,通过低成本VR-UMI接口采集人类全身演示数据,并采用分层控制策略实现人形机器人全身技能迁移。系统包含:1)无机器人数据采集系统,记录人类关键点轨迹和腕部视觉;2)高层扩散策略预测5个关键点相对位姿;3)空间关键点重定向模块(SKR)处理体型差异;4)底层全身控制器执行运动。实验在Unitree G1机器人上验证了取放和垃圾处理任务的有效性。相比现有方法,Bifr
本文对论文 《BifrostUMI: Bridging Robot-Free Human Demonstrations to Humanoid Whole-Body Skills through Human-like Hierarchical Control》 进行全面、深度的技术解析,涵盖问题背景、方法细节、实验评估、贡献与局限性、未来方向,并与现有相关工作进行系统对比。
一、问题定位与研究动机
1.1 人形机器人策略学习的数据瓶颈
人形机器人具备丰富的自由度(Unitree G1 约 29 个关节),期望能够完成全身协调操作(例如弯腰捡物、跨步投掷)。然而,当前主流的策略学习范式依赖机器人参与的遥操作(robot-in-the-loop teleoperation),存在以下硬伤:
- 成本高昂:需要多台物理机器人、多位训练有素的操作员、安全监控设备;
- 效率低下:数据采集速度慢,机器人磨损、故障风险高;
- 扩展性差:难以低成本获取多样化、复杂环境中的“野外”(in-the-wild)数据。
1.2 无机器人演示(Robot-free Demonstration)的潜力
以 UMI(Universal Manipulation Interface)为代表的工作表明:手持式、低成本的采集设备可以直接记录人类操作者的动作与腕部视觉,并迁移到机械臂上。这一范式在机械臂、四足机器人、双移动臂等平台上取得成功,但在人形全身控制领域仍属空白。
1.3 现有方法的不足
| 方法 | 特点 | 局限性 |
|---|---|---|
| UMI / HoMMI | 低成本、便携 | 仅支持臂式操作,无全身控制 |
| HuMI | UMI + Vive 全身追踪 | Vive 昂贵、标定复杂;重定向与底层控制器耦合过紧 |
| EgoHumanoid | 基于 ego 视角的人类演示 | 需要额外的 embodiment gap 桥接,精准操作难 |
1.4 BifrostUMI 的核心思想
将数据采集从目标人形机器人上解耦:人类通过轻量级 VR-UMI 接口进行全身操作演示,录制的多模态数据(腕部图像、夹爪状态、5 个空间关键点轨迹)随后用于训练分层策略,再通过显式重定向与底层控制器映射到物理人形机器人上。
类比:像“彩虹桥”(Bifrost)一样连接人类意图与机器人执行,且整个过程可解释、模块化。
二、方法全面拆解
2.1 无机器人数据采集系统(Section III-A)
硬件选型与设计
- VR 全身动捕:PICO 4(头显+双手柄+双足+腰部共 6 个追踪点)。通过 XRobotoolkit 获取 SMPL 格式的 6-DoF 位姿(骨盆、脚、手柄)。
- 手持夹爪(UMI 风格):
- 集成 鱼眼相机(224×224 RGB,腕部视角);
- 电机驱动的齿轮齿条机构,通过磁编码器连续测量夹爪宽度;
- 手柄处固定 PICO 控制器,用于获取夹爪 6-DoF 位姿。
- 同步记录:全身关键点、夹爪宽度、左右腕部图像、通过 SKR 实时重定向得到的人形机器人下体关节状态(用于训练时的 proprioception)。
关键设计选择:为什么要记录下体关节状态?
- 在无机器人数据采集时,人形机器人不在场,但我们仍然需要为高层策略提供机器人本体感知(例如当前腿部姿势、腰部弯曲)。BifrostUMI 的做法是:在采集时立即将人类关键点通过 SKR 重定向为机器人关节角,并存储这些角度。这样,训练时策略就能以“如果机器人在此刻执行这个动作,它会感知到什么下体状态”作为条件输入,实现闭合训练回路。
数据流格式
- 动作空间(训练标签):未来 48 步的 5 个关键点相对位姿 + 2 个夹爪宽度。
- 观测空间(策略输入):当前时刻左右腕部图像 + 过去 3 帧的 15 维下体关节状态。
2.2 高层策略:扩散策略(Section III-B)
为什么用扩散模型?
- 扩散策略(Diffusion Policy)在机器人模仿学习中表现优异:能建模多模态动作分布、处理高维动作序列、生成平滑轨迹。
- BifrostUMI 扩展其到全身关键点空间,而非原始关节空间,降低学习难度。
动作空间构造(核心创新)
- 定义 5 个关键点:骨盆、左TCP、右TCP、左脚、右脚。每个关键点用 3D 平移 + 6D 连续旋转表示(6D 表示来自 [Zhou et al., CVPR19]),避免四元数或欧拉角的奇异性/不连续性。
- 动作维度:5 × (3+6) = 45,加上左右夹爪宽度 2 → 47 维。
相对位姿编码(Eq. 1)
[
\mathbf{T}{k,\tau}^{\mathrm{rel}} = (\mathbf{T}{k,t}{\mathrm{abs}}){-1} \mathbf{T}_{k,\tau}^{\mathrm{abs}}, \quad \tau = t+1, \dots, t+H
]
- 关键点 (k) 的未来绝对位姿,转换到 以当前时刻该关键点自身帧为参考 的相对位姿。
- 优点:
- 消除世界坐标系依赖,模型不记忆绝对位置;
- 每个关键点的运动与其它关键点的基座解耦,便于泛化到新场景;
- 便于训练数据归一化(平移、旋转不影响相对表示)。
观测条件
- 图像编码器:DINOv2(自监督 ViT),提供鲁棒视觉特征。
- 下体 proprioception:12 个腿关节 + 3 个腰关节(15 维),历史 3 帧。
- 为什么不直接用全身关节? 上肢关节运动已经隐含在 TCP 关键点的变化中,且减少观测维度有利于策略学习。
推理流程
- 扩散模型去噪得到归一化的相对动作块 → 逆归一化 → 通过逆 Eq. 1 转为绝对 SE(3) 目标 → 送入 SKR。
2.3 中层:空间关键点重定向 SKR(Section III-C)
问题:人形机器人与人类体型差异
- 直接复制人类关键点位置会导致机器人高度、臂长不匹配。
- 常规做法(如 GMR)是对整个人体骨架进行全局缩放,但这会破坏任务关键的空间关系(例如手与桌面的绝对距离、脚与骨盆的垂直距离用于平衡)。
SKR 方案
- 保留水平面(X-Y)和所有旋转信息;
- 仅沿垂直方向(Z轴)缩放骨盆到脚的距离,以匹配机器人的腿长和身高;
- 其他关键点之间的度量信息完全不变。
数学上:设人类骨盆到左脚踝的垂直距离为 (d_{\text{human}}),机器人对应值为 (d_{\text{robot}}),缩放因子 (s = d_{\text{robot}} / d_{\text{human}})。仅将人类左脚位置的 Z 坐标(相对于骨盆)乘以 (s),而 X、Y 以及所有旋转保持不变。右脚同理。TCP 和骨盆本身不缩放。
逆运动学求解
- 使用 mink(MuJoCo 的 IK 求解器)计算满足 5 个关键点目标位姿的全身 36 维运动(根位置 3D + 根四元数 4D + 29 个关节角)。
- 输出直接作为底层控制器的参考轨迹。
SKR 的工程价值
- 显式解耦:高层只关心任务空间关键点(人类可解释),底层只接收机器人原生运动参考。
- 避免在底层控制器中隐式学习 IK,减少 sim-to-real 难度。
- 同时支持实时可视化:在数据采集时,操作员可以看到虚拟人形机器人是否按照预期运动,及时调整演示。
2.4 底层:全身控制器 WBC(Section III-D)
设计目标
- 稳定跟踪 SKR 生成的参考运动(包含根位姿 + 29 关节角)。
- 高频运行(50 Hz),适应真实机器人动态。
- 对仿真到现实的差异(延迟、摩擦力、质量)鲁棒。
控制器架构
- 基于 MJLab(GPU 加速 MuJoCo)训练的策略网络,输出 29 维动作(关节位置残差)。
- 观测 (\mathbf{o}_t) 包含:
- 本体感知:根高度、投影重力向量、IMU 角速度、关节位置/速度历史、上一动作。
- 运动指令:参考轨迹中多个时间偏移(未来 0~4 步,过去 -1~-16 步)的根相对位移、根相对旋转、参考根高度、参考投影重力、参考关节角。
- 动作输出:关节位置残差 → 裁剪缩放 → 加上默认姿势 → PD 控制(Eq. 11, 12)。
关键设计
- 多时间尺度:参考窗口包含未来帧(预见性)和历史帧(平滑性),模仿人类运动控制中的前馈+反馈。
- 根位姿相对编码:Δp, Δq 减少绝对误差漂移。
- 线性/球面插值:将高层策略的低频(若干 Hz)运动块插值到 50 Hz。
三、实验评估深度分析
3.1 实验设置
- 机器人:Unitree G1(29 DoF,双足人形)。
- 任务 1:杂乱桌面取放(pick-and-place)。面包片位于多个干扰物中,要求视觉定位、抓取、转移、放置。
- 任务 2:桌下垃圾处理(under-table waste disposal)。抓取纸团 → 后退一步 → 弯腰 → 伸手到桌下垃圾桶 → 释放。需要腿、腰、臂协同。
3.2 定性结果分析
论文未提供定量成功率、速度等指标,但通过序列图像(图 6)展示了完整执行。
任务 1 关键观察:
- 机器人能在混杂视觉场景中定位目标(验证视觉策略有效性)。
- 抓取时手部到达正确三维位置,表明高层预测的关键点与 SKR 的 IK 配合准确。
- 提起面包时未失去平衡,说明底层控制器能跟踪变重心运动。
任务 2 关键观察:
- 机器人主动后退一步,说明策略学会了空间调整。
- 弯腰同时屈膝,没有发生腿部奇异或碰撞,验证 SKR 保留了空间关系且 IK 可行。
- 释放动作在桌下狭窄空间完成,需要 TCP 精确运动到垃圾箱开口。
3.3 隐含的优势与不足
| 优势 | 不足 |
|---|---|
| 完全无机器人数据采集,成本低、可规模化 | 论文未给出定量成功率(例如 10 次试验成功次数) |
| 分层设计提高可解释性和模块化调试能力 | 未与 HuMI、UMI 等基线进行直接定量比较 |
| 五点关键点表示足以表达复杂全身行为 | 是否适用于更动态的任务(如推车、踢球)存疑 |
| 相对位姿编码增强泛化性 | 训练数据量未明确(需要多少演示?) |
四、与相关工作的系统对比
| 维度 | UMI | HuMI | BifrostUMI (本文) |
|---|---|---|---|
| 目标平台 | 机械臂 | 人形机器人 | 人形机器人 |
| 数据采集设备 | 手持夹爪+GoPro | Vive 追踪器 + UMI 夹爪 | PICO 4全身追踪 + 自研 UMI 夹爪 |
| 是否需机器人本体参与 | 否 | 否 | 否 |
| 动捕精度/成本 | 低/低 | 高/高 | 中/中低 |
| 动作表示 | 末端位姿 | 关键点 + 隐式 IK | 5 关键点 + 显式 SKR + 分层控制 |
| 底层控制器 | 阻抗控制 | 学习型全身体控制器 | 学习型全身体控制器 (MJLab) |
| 全身协调能力 | 无 | 有(但耦合) | 有(明确解耦) |
| 可解释性 | 中 | 低(IK 隐式) | 高(SKR 显式) |
关键区别总结
- 与 UMI 比:BifrostUMI 支持全身运动(腿、腰),而不仅仅是臂。
- 与 HuMI 比:使用更便宜的 PICO 替代 Vive,且 SKR 显式处理 IK,使重定向过程可解释、可调参,而不是嵌入到策略中。
五、局限性讨论与未来方向
5.1 当前局限性
- 缺少定量评估:无成功率、任务完成时间、重定向误差等指标。未来应补充。
- 仅验证了两个静态操作任务:未涉及动态避障、实时交互或受外部扰动的场景。
- 夹爪设计:虽然能记录宽度,但夹爪本身无触觉传感,对于精细操作(如软物体)可能不足。
- 关键点数量固定:5 个关键点可能不足以表达更复杂的动作(如使用工具时的手臂弯曲细节)。可扩展为更多关键点(如肘、膝)。
- Sim-to-real 依赖:底层控制器在仿真中训练,尽管宣称鲁棒,但实际部署中可能仍需要域随机化调参。
5.2 未来研究方向
- 多任务泛化:训练一个通用关键点扩散策略,支持多种操作任务(如开门、擦拭)。
- 主动关键点选择:让模型自动选择任务相关的关键点数量与位置。
- 集成触觉:在夹爪上增加触觉传感器,用于精细力控任务。
- 动态运动:扩展到走路、跑步、跳跃等全身动态行为(需要更高级的底层控制器)。
- 混合数据训练:结合少量机器人遥操作数据来修正 embodiment gap 导致的误差。
六、结论与全文总结
BifrostUMI 提供了一个富有启发性的范式:通过便携、低成本的 VR-UMI 设备采集人类全身演示,再通过显式的分层重定向和控制实现人形机器人的全身操作模仿。
其核心价值在于:
- 解耦了数据采集与机器人执行,大幅降低了人形机器人学习的门槛。
- 提出 SKR 重定向方法,在保留任务空间几何结构的同时适配人机形态差异。
- 构建了类人分层控制结构(意图→空间映射→动态执行),提高了系统的可解释性和模块化程度。
尽管目前缺少大规模定量验证,但两个真实机器人任务的成功执行已经初步证明了该框架的可行性。BifrostUMI 为未来低成本、高泛化能力的人形机器人学习系统打开了新的可能性。
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐


所有评论(0)