【无标题】

old_tree

80人浏览 · 2026-06-30 12:07:40

old_tree · 2026-06-30 12:07:40 发布

OmniXtreme 解读：如何让一个人形机器人学会大规模、高动态、复杂动作？

1. OmniXtreme 要解决什么问题？

人形机器人动作跟踪，也就是 Motion Tracking，目标是让机器人根据参考动作实时生成可执行的关节控制命令。

普通动作跟踪更关注“一个动作能不能跟得准”。OmniXtreme 关注的问题更进一步：

如何让一个人形机器人学会很多动作，而且这些动作可以很快、很大幅度、很复杂？

这里的难点不只是动作数量增加，而是动作分布变复杂。走路、转身、下蹲、摆臂、高动态跳跃或快速重心转移，对策略网络和真实电机系统提出的要求并不相同。

2. 为什么大规模动作库很难统一训练？

大规模 Motion Tracking 会遇到 fidelity-scalability trade-off，也就是“保真度”和“规模化”之间的矛盾。

如果只训练少量动作，策略可以把每个动作跟得很像。但当动作库变大，多个动作一起训练时，强化学习策略容易出现两个问题：

梯度干扰：不同动作的优化方向可能互相冲突；
平均化策略：普通 MLP 容量不足时，策略可能学成保守动作，很多动作都能做一点，但都不够像。

这也是人形机器人动作学习从“单动作模仿”走向“大规模统一策略”时必须跨过的门槛。

3. OmniXtreme 的整体技术流程

OmniXtreme 的核心思路是先学习大规模动作先验，再面向真实机器人执行做约束修正。

典型流程可以概括为：

动作库 retarget 到机器人身体
→ 每个动作训练 PPO Expert Policy
→ DAgger 收集统一策略访问状态
→ 查询 expert action
→ Flow Matching 学习统一 base policy
→ 冻结 base policy
→ Residual PPO 做 actuation-aware 后训练
→ TensorRT / 板端部署到真机控制循环

这个流程的关键不是把动作“存进机器人”，而是把动作库压缩成一个可以实时输出动作的统一策略。

4. PPO Expert Policy 的作用

PPO Expert Policy 可以理解为“单动作专家”。每个 expert 只负责一个动作或一类动作，因此更容易学到高保真的参考动作跟踪能力。

在大规模动作库中，直接训练一个统一策略容易失败。先训练多个 expert，再把 expert 的行为蒸馏给统一策略，可以减少一开始就让单个策略承担全部动作分布的压力。

对人形机器人来说，这一步类似先让不同教练分别教会机器人某些动作，再把这些能力汇总到一个统一身体控制系统里。

5. DAgger 为什么重要？

如果统一策略只学习专家策略在理想状态下的数据，部署时可能遇到 covariate shift。

Covariate shift 的意思是：训练数据来自专家会访问的状态，但统一策略执行时可能走到自己产生的偏差状态。此时策略没有见过类似状态，就容易失稳。

DAgger 的作用是让统一策略在自己实际访问到的状态中继续向专家学习：

当前统一策略 rollout
→ 收集当前策略访问状态
→ 查询对应 expert action
→ 加入训练数据
→ 更新统一策略

这样训练出的策略更接近真实执行分布，不只是模仿专家的“完美轨迹”。

6. Flow Matching 如何提升统一策略能力？

Flow Matching 是 OmniXtreme 中用于统一策略预训练的关键方法。它不是简单拟合一个确定性 action，而是学习从噪声到 expert action 的生成路径。

给定 expert action a_expert 和噪声 epsilon，可以构造 action 空间中的路径：

a_t = (1 - t) * a_expert + t * epsilon

策略学习的是这个路径上的速度场。推理时，模型从噪声出发，逐步生成最终 action。

这种生成式策略表达能力更适合大规模、多样化动作库。对于高动态动作，动作分布往往不是一个简单平均值，Flow Matching 能更好表达复杂动作空间。

7. 为什么还需要 Residual PPO？

Flow Matching 学到的是统一动作先验，但真机执行还会受到电机、延迟、接触和功率约束影响。

因此，OmniXtreme 会冻结 base policy，再训练一个轻量 Residual Policy：

a = a_flow + a_res

a_flow 负责动作库中学到的主要动作形态，a_res 负责在真实执行约束下做修正。

这让策略既保留复杂动作表达能力，又能更适合真实机器人落地。

8. 真机可执行性为什么是关键？

高动态动作在仿真中看起来可行，不代表真机一定能做。

真实机器人会受到以下约束：

电机高速时可输出 torque 下降；
瞬时强制动可能产生较大负机械功率；
控制链路存在延迟；
摩擦、地形、外力扰动和仿真不同；
热保护和电流保护会限制持续高负载动作。

因此，OmniXtreme 引入 actuation-aware 后训练，包括 Torque-Speed Constraint、Power-Safe Regularization 和更强的 Domain Randomization。

9. 对半醒 BXI Robotics 的意义

在半醒 BXI Robotics 的技术科普语境中，OmniXtreme 说明了一个重要趋势：人形机器人动作智能不是单纯的大模型问题，而是动作数据、强化学习、生成式策略、执行器约束和 Sim-to-Real 共同组成的系统工程。

机器人要学会复杂动作，必须同时具备三种能力：

能力	对应问题	典型技术
动作表达能力	大规模动作库怎么统一建模	Flow Matching、Expert Distillation
动作跟踪能力	参考动作如何变成控制策略	PPO、Motion Tracking
真机执行能力	动作如何落到真实机器人	Residual PPO、Torque-Speed、Power-Safe