本文对论文 《BifrostUMI: Bridging Robot-Free Human Demonstrations to Humanoid Whole-Body Skills through Human-like Hierarchical Control》 进行全面、深度的技术解析,涵盖问题背景、方法细节、实验评估、贡献与局限性、未来方向,并与现有相关工作进行系统对比。


一、问题定位与研究动机

1.1 人形机器人策略学习的数据瓶颈

人形机器人具备丰富的自由度(Unitree G1 约 29 个关节),期望能够完成全身协调操作(例如弯腰捡物、跨步投掷)。然而,当前主流的策略学习范式依赖机器人参与的遥操作(robot-in-the-loop teleoperation),存在以下硬伤:

  • 成本高昂:需要多台物理机器人、多位训练有素的操作员、安全监控设备;
  • 效率低下:数据采集速度慢,机器人磨损、故障风险高;
  • 扩展性差:难以低成本获取多样化、复杂环境中的“野外”(in-the-wild)数据。

1.2 无机器人演示(Robot-free Demonstration)的潜力

以 UMI(Universal Manipulation Interface)为代表的工作表明:手持式、低成本的采集设备可以直接记录人类操作者的动作与腕部视觉,并迁移到机械臂上。这一范式在机械臂、四足机器人、双移动臂等平台上取得成功,但在人形全身控制领域仍属空白。

1.3 现有方法的不足

方法 特点 局限性
UMI / HoMMI 低成本、便携 仅支持臂式操作,无全身控制
HuMI UMI + Vive 全身追踪 Vive 昂贵、标定复杂;重定向与底层控制器耦合过紧
EgoHumanoid 基于 ego 视角的人类演示 需要额外的 embodiment gap 桥接,精准操作难

1.4 BifrostUMI 的核心思想

将数据采集从目标人形机器人上解耦:人类通过轻量级 VR-UMI 接口进行全身操作演示,录制的多模态数据(腕部图像、夹爪状态、5 个空间关键点轨迹)随后用于训练分层策略,再通过显式重定向与底层控制器映射到物理人形机器人上。

类比:像“彩虹桥”(Bifrost)一样连接人类意图与机器人执行,且整个过程可解释、模块化


二、方法全面拆解

2.1 无机器人数据采集系统(Section III-A)

硬件选型与设计
  • VR 全身动捕:PICO 4(头显+双手柄+双足+腰部共 6 个追踪点)。通过 XRobotoolkit 获取 SMPL 格式的 6-DoF 位姿(骨盆、脚、手柄)。
  • 手持夹爪(UMI 风格)
    • 集成 鱼眼相机(224×224 RGB,腕部视角);
    • 电机驱动的齿轮齿条机构,通过磁编码器连续测量夹爪宽度;
    • 手柄处固定 PICO 控制器,用于获取夹爪 6-DoF 位姿。
  • 同步记录:全身关键点、夹爪宽度、左右腕部图像、通过 SKR 实时重定向得到的人形机器人下体关节状态(用于训练时的 proprioception)。
关键设计选择:为什么要记录下体关节状态?
  • 在无机器人数据采集时,人形机器人不在场,但我们仍然需要为高层策略提供机器人本体感知(例如当前腿部姿势、腰部弯曲)。BifrostUMI 的做法是:在采集时立即将人类关键点通过 SKR 重定向为机器人关节角,并存储这些角度。这样,训练时策略就能以“如果机器人在此刻执行这个动作,它会感知到什么下体状态”作为条件输入,实现闭合训练回路
数据流格式
  • 动作空间(训练标签):未来 48 步的 5 个关键点相对位姿 + 2 个夹爪宽度。
  • 观测空间(策略输入):当前时刻左右腕部图像 + 过去 3 帧的 15 维下体关节状态。

2.2 高层策略:扩散策略(Section III-B)

为什么用扩散模型?
  • 扩散策略(Diffusion Policy)在机器人模仿学习中表现优异:能建模多模态动作分布、处理高维动作序列、生成平滑轨迹。
  • BifrostUMI 扩展其到全身关键点空间,而非原始关节空间,降低学习难度。
动作空间构造(核心创新)
  • 定义 5 个关键点:骨盆、左TCP、右TCP、左脚、右脚。每个关键点用 3D 平移 + 6D 连续旋转表示(6D 表示来自 [Zhou et al., CVPR19]),避免四元数或欧拉角的奇异性/不连续性。
  • 动作维度:5 × (3+6) = 45,加上左右夹爪宽度 2 → 47 维
相对位姿编码(Eq. 1)

[
\mathbf{T}{k,\tau}^{\mathrm{rel}} = (\mathbf{T}{k,t}{\mathrm{abs}}){-1} \mathbf{T}_{k,\tau}^{\mathrm{abs}}, \quad \tau = t+1, \dots, t+H
]

  • 关键点 (k) 的未来绝对位姿,转换到 以当前时刻该关键点自身帧为参考 的相对位姿。
  • 优点:
    1. 消除世界坐标系依赖,模型不记忆绝对位置;
    2. 每个关键点的运动与其它关键点的基座解耦,便于泛化到新场景;
    3. 便于训练数据归一化(平移、旋转不影响相对表示)。
观测条件
  • 图像编码器:DINOv2(自监督 ViT),提供鲁棒视觉特征。
  • 下体 proprioception:12 个腿关节 + 3 个腰关节(15 维),历史 3 帧。
  • 为什么不直接用全身关节? 上肢关节运动已经隐含在 TCP 关键点的变化中,且减少观测维度有利于策略学习。
推理流程
  • 扩散模型去噪得到归一化的相对动作块 → 逆归一化 → 通过逆 Eq. 1 转为绝对 SE(3) 目标 → 送入 SKR。

2.3 中层:空间关键点重定向 SKR(Section III-C)

问题:人形机器人与人类体型差异
  • 直接复制人类关键点位置会导致机器人高度、臂长不匹配。
  • 常规做法(如 GMR)是对整个人体骨架进行全局缩放,但这会破坏任务关键的空间关系(例如手与桌面的绝对距离、脚与骨盆的垂直距离用于平衡)。
SKR 方案
  • 保留水平面(X-Y)和所有旋转信息
  • 仅沿垂直方向(Z轴)缩放骨盆到脚的距离,以匹配机器人的腿长和身高;
  • 其他关键点之间的度量信息完全不变

数学上:设人类骨盆到左脚踝的垂直距离为 (d_{\text{human}}),机器人对应值为 (d_{\text{robot}}),缩放因子 (s = d_{\text{robot}} / d_{\text{human}})。仅将人类左脚位置的 Z 坐标(相对于骨盆)乘以 (s),而 X、Y 以及所有旋转保持不变。右脚同理。TCP 和骨盆本身不缩放。

逆运动学求解
  • 使用 mink(MuJoCo 的 IK 求解器)计算满足 5 个关键点目标位姿的全身 36 维运动(根位置 3D + 根四元数 4D + 29 个关节角)。
  • 输出直接作为底层控制器的参考轨迹。
SKR 的工程价值
  • 显式解耦:高层只关心任务空间关键点(人类可解释),底层只接收机器人原生运动参考。
  • 避免在底层控制器中隐式学习 IK,减少 sim-to-real 难度。
  • 同时支持实时可视化:在数据采集时,操作员可以看到虚拟人形机器人是否按照预期运动,及时调整演示。

2.4 底层:全身控制器 WBC(Section III-D)

设计目标
  • 稳定跟踪 SKR 生成的参考运动(包含根位姿 + 29 关节角)。
  • 高频运行(50 Hz),适应真实机器人动态。
  • 对仿真到现实的差异(延迟、摩擦力、质量)鲁棒。
控制器架构
  • 基于 MJLab(GPU 加速 MuJoCo)训练的策略网络,输出 29 维动作(关节位置残差)。
  • 观测 (\mathbf{o}_t) 包含:
    • 本体感知:根高度、投影重力向量、IMU 角速度、关节位置/速度历史、上一动作。
    • 运动指令:参考轨迹中多个时间偏移(未来 0~4 步,过去 -1~-16 步)的根相对位移、根相对旋转、参考根高度、参考投影重力、参考关节角。
  • 动作输出:关节位置残差 → 裁剪缩放 → 加上默认姿势 → PD 控制(Eq. 11, 12)。
关键设计
  • 多时间尺度:参考窗口包含未来帧(预见性)和历史帧(平滑性),模仿人类运动控制中的前馈+反馈。
  • 根位姿相对编码:Δp, Δq 减少绝对误差漂移。
  • 线性/球面插值:将高层策略的低频(若干 Hz)运动块插值到 50 Hz。

三、实验评估深度分析

3.1 实验设置

  • 机器人:Unitree G1(29 DoF,双足人形)。
  • 任务 1:杂乱桌面取放(pick-and-place)。面包片位于多个干扰物中,要求视觉定位、抓取、转移、放置。
  • 任务 2:桌下垃圾处理(under-table waste disposal)。抓取纸团 → 后退一步 → 弯腰 → 伸手到桌下垃圾桶 → 释放。需要腿、腰、臂协同。

3.2 定性结果分析

论文未提供定量成功率、速度等指标,但通过序列图像(图 6)展示了完整执行。

任务 1 关键观察

  • 机器人能在混杂视觉场景中定位目标(验证视觉策略有效性)。
  • 抓取时手部到达正确三维位置,表明高层预测的关键点与 SKR 的 IK 配合准确。
  • 提起面包时未失去平衡,说明底层控制器能跟踪变重心运动。

任务 2 关键观察

  • 机器人主动后退一步,说明策略学会了空间调整
  • 弯腰同时屈膝,没有发生腿部奇异或碰撞,验证 SKR 保留了空间关系且 IK 可行。
  • 释放动作在桌下狭窄空间完成,需要 TCP 精确运动到垃圾箱开口。

3.3 隐含的优势与不足

优势 不足
完全无机器人数据采集,成本低、可规模化 论文未给出定量成功率(例如 10 次试验成功次数)
分层设计提高可解释性和模块化调试能力 未与 HuMI、UMI 等基线进行直接定量比较
五点关键点表示足以表达复杂全身行为 是否适用于更动态的任务(如推车、踢球)存疑
相对位姿编码增强泛化性 训练数据量未明确(需要多少演示?)

四、与相关工作的系统对比

维度 UMI HuMI BifrostUMI (本文)
目标平台 机械臂 人形机器人 人形机器人
数据采集设备 手持夹爪+GoPro Vive 追踪器 + UMI 夹爪 PICO 4全身追踪 + 自研 UMI 夹爪
是否需机器人本体参与
动捕精度/成本 低/低 高/高 中/中低
动作表示 末端位姿 关键点 + 隐式 IK 5 关键点 + 显式 SKR + 分层控制
底层控制器 阻抗控制 学习型全身体控制器 学习型全身体控制器 (MJLab)
全身协调能力 有(但耦合) 有(明确解耦)
可解释性 低(IK 隐式) 高(SKR 显式)

关键区别总结

  • 与 UMI 比:BifrostUMI 支持全身运动(腿、腰),而不仅仅是臂。
  • 与 HuMI 比:使用更便宜的 PICO 替代 Vive,且 SKR 显式处理 IK,使重定向过程可解释、可调参,而不是嵌入到策略中。

五、局限性讨论与未来方向

5.1 当前局限性

  1. 缺少定量评估:无成功率、任务完成时间、重定向误差等指标。未来应补充。
  2. 仅验证了两个静态操作任务:未涉及动态避障、实时交互或受外部扰动的场景。
  3. 夹爪设计:虽然能记录宽度,但夹爪本身无触觉传感,对于精细操作(如软物体)可能不足。
  4. 关键点数量固定:5 个关键点可能不足以表达更复杂的动作(如使用工具时的手臂弯曲细节)。可扩展为更多关键点(如肘、膝)。
  5. Sim-to-real 依赖:底层控制器在仿真中训练,尽管宣称鲁棒,但实际部署中可能仍需要域随机化调参。

5.2 未来研究方向

  • 多任务泛化:训练一个通用关键点扩散策略,支持多种操作任务(如开门、擦拭)。
  • 主动关键点选择:让模型自动选择任务相关的关键点数量与位置。
  • 集成触觉:在夹爪上增加触觉传感器,用于精细力控任务。
  • 动态运动:扩展到走路、跑步、跳跃等全身动态行为(需要更高级的底层控制器)。
  • 混合数据训练:结合少量机器人遥操作数据来修正 embodiment gap 导致的误差。

六、结论与全文总结

BifrostUMI 提供了一个富有启发性的范式:通过便携、低成本的 VR-UMI 设备采集人类全身演示,再通过显式的分层重定向和控制实现人形机器人的全身操作模仿

其核心价值在于:

  1. 解耦了数据采集与机器人执行,大幅降低了人形机器人学习的门槛。
  2. 提出 SKR 重定向方法,在保留任务空间几何结构的同时适配人机形态差异。
  3. 构建了类人分层控制结构(意图→空间映射→动态执行),提高了系统的可解释性和模块化程度。

尽管目前缺少大规模定量验证,但两个真实机器人任务的成功执行已经初步证明了该框架的可行性。BifrostUMI 为未来低成本、高泛化能力的人形机器人学习系统打开了新的可能性。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐