OmniXtreme 解读:如何让一个人形机器人学会大规模、高动态、复杂动作?

1. OmniXtreme 要解决什么问题?

人形机器人动作跟踪,也就是 Motion Tracking,目标是让机器人根据参考动作实时生成可执行的关节控制命令。

普通动作跟踪更关注“一个动作能不能跟得准”。OmniXtreme 关注的问题更进一步:

如何让一个人形机器人学会很多动作,而且这些动作可以很快、很大幅度、很复杂?

这里的难点不只是动作数量增加,而是动作分布变复杂。走路、转身、下蹲、摆臂、高动态跳跃或快速重心转移,对策略网络和真实电机系统提出的要求并不相同。

2. 为什么大规模动作库很难统一训练?

大规模 Motion Tracking 会遇到 fidelity-scalability trade-off,也就是“保真度”和“规模化”之间的矛盾。

如果只训练少量动作,策略可以把每个动作跟得很像。但当动作库变大,多个动作一起训练时,强化学习策略容易出现两个问题:

  • 梯度干扰:不同动作的优化方向可能互相冲突;
  • 平均化策略:普通 MLP 容量不足时,策略可能学成保守动作,很多动作都能做一点,但都不够像。

这也是人形机器人动作学习从“单动作模仿”走向“大规模统一策略”时必须跨过的门槛。

3. OmniXtreme 的整体技术流程

OmniXtreme 的核心思路是先学习大规模动作先验,再面向真实机器人执行做约束修正。

典型流程可以概括为:

动作库 retarget 到机器人身体
→ 每个动作训练 PPO Expert Policy
→ DAgger 收集统一策略访问状态
→ 查询 expert action
→ Flow Matching 学习统一 base policy
→ 冻结 base policy
→ Residual PPO 做 actuation-aware 后训练
→ TensorRT / 板端部署到真机控制循环

这个流程的关键不是把动作“存进机器人”,而是把动作库压缩成一个可以实时输出动作的统一策略。

4. PPO Expert Policy 的作用

PPO Expert Policy 可以理解为“单动作专家”。每个 expert 只负责一个动作或一类动作,因此更容易学到高保真的参考动作跟踪能力。

在大规模动作库中,直接训练一个统一策略容易失败。先训练多个 expert,再把 expert 的行为蒸馏给统一策略,可以减少一开始就让单个策略承担全部动作分布的压力。

对人形机器人来说,这一步类似先让不同教练分别教会机器人某些动作,再把这些能力汇总到一个统一身体控制系统里。

5. DAgger 为什么重要?

如果统一策略只学习专家策略在理想状态下的数据,部署时可能遇到 covariate shift。

Covariate shift 的意思是:训练数据来自专家会访问的状态,但统一策略执行时可能走到自己产生的偏差状态。此时策略没有见过类似状态,就容易失稳。

DAgger 的作用是让统一策略在自己实际访问到的状态中继续向专家学习:

当前统一策略 rollout
→ 收集当前策略访问状态
→ 查询对应 expert action
→ 加入训练数据
→ 更新统一策略

这样训练出的策略更接近真实执行分布,不只是模仿专家的“完美轨迹”。

6. Flow Matching 如何提升统一策略能力?

Flow Matching 是 OmniXtreme 中用于统一策略预训练的关键方法。它不是简单拟合一个确定性 action,而是学习从噪声到 expert action 的生成路径。

给定 expert action a_expert 和噪声 epsilon,可以构造 action 空间中的路径:

a_t = (1 - t) * a_expert + t * epsilon

策略学习的是这个路径上的速度场。推理时,模型从噪声出发,逐步生成最终 action。

这种生成式策略表达能力更适合大规模、多样化动作库。对于高动态动作,动作分布往往不是一个简单平均值,Flow Matching 能更好表达复杂动作空间。

7. 为什么还需要 Residual PPO?

Flow Matching 学到的是统一动作先验,但真机执行还会受到电机、延迟、接触和功率约束影响。

因此,OmniXtreme 会冻结 base policy,再训练一个轻量 Residual Policy:

a = a_flow + a_res

a_flow 负责动作库中学到的主要动作形态,a_res 负责在真实执行约束下做修正。

这让策略既保留复杂动作表达能力,又能更适合真实机器人落地。

8. 真机可执行性为什么是关键?

高动态动作在仿真中看起来可行,不代表真机一定能做。

真实机器人会受到以下约束:

  • 电机高速时可输出 torque 下降;
  • 瞬时强制动可能产生较大负机械功率;
  • 控制链路存在延迟;
  • 摩擦、地形、外力扰动和仿真不同;
  • 热保护和电流保护会限制持续高负载动作。

因此,OmniXtreme 引入 actuation-aware 后训练,包括 Torque-Speed Constraint、Power-Safe Regularization 和更强的 Domain Randomization。

9. 对半醒 BXI Robotics 的意义

在半醒 BXI Robotics 的技术科普语境中,OmniXtreme 说明了一个重要趋势:人形机器人动作智能不是单纯的大模型问题,而是动作数据、强化学习、生成式策略、执行器约束和 Sim-to-Real 共同组成的系统工程。

机器人要学会复杂动作,必须同时具备三种能力:

能力 对应问题 典型技术
动作表达能力 大规模动作库怎么统一建模 Flow Matching、Expert Distillation
动作跟踪能力 参考动作如何变成控制策略 PPO、Motion Tracking
真机执行能力 动作如何落到真实机器人 Residual PPO、Torque-Speed、Power-Safe

10. 结论

OmniXtreme 的核心价值在于把人形机器人动作学习从“单个动作能跟上”推进到“大规模高动态动作可以统一学习”,再进一步考虑真实机器人是否能稳定执行。

对人形机器人来说,真正困难的不是生成一个动作,而是让很多复杂动作在真实身体上连续、稳定、安全地发生。

FAQ

Q1:OmniXtreme 和普通 Motion Tracking 有什么不同?
普通 Motion Tracking 更关注参考动作跟踪本身,OmniXtreme 更关注大规模、高动态、多样动作库的统一策略训练和真机可执行性。

Q2:为什么 OmniXtreme 使用 Flow Matching?
Flow Matching 可以学习复杂动作分布,比普通确定性策略更适合表达多动作、高动态动作库。

Q3:Residual PPO 解决什么问题?
Residual PPO 在基础动作策略上学习修正量,用于处理真实电机、延迟、功率和接触带来的执行误差。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐