Exbody 2——富有表现力的人形全身控制：Teacher–Student两阶段训练方式，基于CVAE做连续运动合成

UCSD团队开发的ExBody2是一种先进的人形机器人全身控制框架，通过两阶段教师-学生训练策略实现高精度动作模仿。该系统采用特权信息训练教师策略后，将其蒸馏为学生策略用于真实部署。创新性地使用了局部关键点跟踪策略和基于CVAE的运动合成技术，解决了全局跟踪误差累积和连续运动生成问题。实验表明，ExBody2在Unitree G1/H1平台上实现了优于基线方法的上半身/下半身协调跟踪表现。该系统克

v_JULY_v

4379人浏览 · 2025-11-01 23:58:20

v_JULY_v · 2025-11-01 23:58:20 发布

前言

本文一开始是在此文《Exbody——从MDM、RobotMDM到全身运动控制策略Exbody：上半身模仿人体动捕数据，下半身RL训练》之中的

后来我看到作者在一段采访中提到：“ 比如，任务是 '把物体从这里搬到那边'。机器人本身已经有一系列技能：走过去、下蹲、双手抱起、站起、行走、放下。通过在 latent space 中激活这些技能向量，并用一个高层模型来调度它们，机器人就能组合出一条完整的动作序列去完成搬运任务 ”

我个人是深表认同啊，此类似灵启万物的技术路线，如其创始人朱庆旭所说，他们采用分层的架构

小脑(元动作库)：它的目标是掌握所有人类的基础动作，比如走、跑、蹲、抓、拉。通过动捕数据，在仿真环境中对它进行无实物训练
随后，在真实环境中由操作员手持UMI夹爪直接操作物体，可大规模获取手与物体的真实交互数据。与前一步的动捕数据结合后，形成既高质量又可规模化的训练数据底座
————
一旦这个“元动作库”构建完成，它就是通用的，可以跨所有场景调用
大脑(任务规划与泛化)：它负责通过摄像头感知环境，理解语言指令，进行任务规划，并精准地调用“小脑”技能库中的动作来完成任务

且它们不是先后关系，而是耦合迭代的。小脑的技能越丰富，大脑能调用的工具就越多；大脑越聪明，调用技能就越精准

顺带说明下
虽然动捕需要搭建一个类似“影棚“的布满摄像头的环境，但如果我要完成特定场景的工作，比如教会机器人在肯德基炸薯条，不需要真的到肯德基厨房里搭摄像头架子

即动作可以在实验室里采全。人类动作是“有限集”，比如炸薯条，分解下来就是手持、放置、提起、把油抖掉这样的动作集，可以在动捕设备中采集即可
然后，到实际场景中只需补UMI动作(手持夹爪与物体交互)，以及环境数据即可

且还类似

Being-0——集操作、导航、运动为一体的机器人Agent框架：GPT4o高层感知并推理规划、低层VLM导航适配，最终执行技能库
从R2S2到OpenWBT——提高人形的到达能力：模仿教师策略下RL探索新行为，最终实现技能之间的协调与切换

于是把Exbody 2的部分特地独立成此文

第一部分可跳简单舞蹈的Exbody 2：富有表现力的人形全身控制

24年12月17，来自1 UC San Diego、2 UC Berkeley、3 MIT的研究者推出Exbody的升级版Exbody 2

其对应paper为：ExBody2: Advanced Expressive Humanoid Whole-Body Control
作者包括
Mazeyu Ji∗,1、Xuanbin Peng∗,1、Fangchen Liu2、Jialong Li1
Ge Yang3、Xuxin Cheng†,1、Xiaolong Wang†,1
其项目地址为：exbody2.github.io
其对应的GitHub为：jimazeyu/exbody2，但后来25年11月初发现，此链接打不开了，不知是不是他们取消开源了
代码库改编自Exbody一代：Expressive Humanoid
截止到25年6月中旬，该Exbody 2的示例policy、完整的训练流程、部署代码暂未发布
此外，其重定向和运动处理代码分别改编自PHC和ASE——顺带提下，exbody2 对这两个代码库的描述搞反了比如把ASE定义了重定向库，大家可以注意下

不过，如果只是缺个部署代码
$\rightarrow$ 我有找到这个HOMIE——包括PBHC的作者也表示可以参考openhomie和unitree rl gym的真机代码，有提供G1的部署代码(我也和HOMIE作者确认了下，说他们GitHub上包含G1的部署代码)——当然 HOMIE也用的别人的Walk these ways，对应的GitHub为leggedrobotics/rsl_rl
$\rightarrow$  当然，也可以直接参考或用unitree_rl_gym的代码
此unitree_rl_gym仓库建立在以下开源项目的支持和贡献之上。特别感谢：
legged_gym：训练和运行代码的基础
rsl_rl：强化学习算法实现——即上面提到的Walk these ways
mujoco：提供强大的模拟功能。
unitree_sdk2_python：用于物理部署的硬件通信接口
$\rightarrow$ 此外，PBHC里的一群友还介绍了个基于unitree_sdk2_python的部署代码：LeggedLabDeploy

这是一种通用的全身跟踪框架，可以接受任何参考动作输入并控制人形机器人模仿动作。该模型在仿真环境中通过强化学习进行训练，然后转移到现实世界

它将关键点跟踪与速度控制解耦，并有效利用特权教师策略(privileged teacher policy)将精确的模仿技能蒸馏到目标学生策略，可实现对诸如奔跑、蹲伏、跳舞及其他具有挑战性的动态动作的高保真复现

如作者所说

Exbody2 与Exbody1 最大的区别其实在于Exbody1采用了上下半身分离控制的策略：上半身做 mimic，下半身不追踪具体动作，只跟随简单的指令，比如向前或向后
而 Exbody2 是全身协同的 mimic，采用了全身动作跟踪（whole-body tracking）

Exbody1 之所以没有做全身mimic，一个主要原因是直接一阶段训练太困难，Exbody2通过引入 teacher-student 机制进行了升级
Teacher–Student核心思想是：在仿真中，模型可以获取机器人的全部状态信息，而在真实环境中，这些信息往往难以获得

举例来说，机器人在仿真中可以直接读取自身的绝对速度（root velocity）等关键运动信息，而在现实中要获得这些信息非常困难。若想实现，需要借助额外传感器或视觉系统，结合 IMU 等方式进行估计，但目前为止仍没有成熟、稳定的解决方案

因此，为了弥合这种 sim-to-real 的差距，采用了两阶段训练策略

1.1 Exbody 2的提出背景与其创新性

1.1.1 提出背景与相关工作

机器人动作模仿机器人动作模仿可以分为两个主要领域：操作和表现力

对于操作任务，机器人——通常是轮式或桌面式的——优先考虑对平衡和地面接触的精确控制，因此不需要类人形态

这类机器人通常使用
遥操作
2-Rt-1
3-Rt-2
79-ALOHA ACT，Learning fine-grained bimanual manipulation with low-cost hardware

或
人类示范
5-Arcap: Collecting high-quality human demonstrations for robot learning with augmented reality feedback
34-Egomimic: Scaling imitation learning via egocentric video
65-Hrp: Human affordances for robotic pretraining
70-Dexcap: Scalable and portable
mocap data collection system for dexterous manipulation，详见此文《DexCap——斯坦福李飞飞团队泡茶机器人：带灵巧手和动作捕捉的数据收集系统(含硬件改进VIVE)》
的数据
相比之下，表现性动作模仿侧重于从人类或动物动作捕捉数据中学习拟人化行为。由于需要对接触和平衡进行精细控制，这一任务更加具有挑战性

尽管强化学习已在仿真环境中实现了基于物理的角色动作模仿
22-Synthesizing physical character-scene interactions
43-Character controllers using motion vaes
44-Universal humanoid motion representations for physics-based control
54-Amp
55-Ase
67-Calm
68-Maskedmimic
71-Strategy and skill learning for physics-based table tennis animation
77-Learning physically simulated tennis skills from broadcast videos

但将这些方法应用到真实机器人上仍然面临重大挑战
8--Exbody,15-Learning Multi-Modal Whole-Body Control for Real-World Humanoid Robots,
16-Adversarial motion priors make good substitutes for complex reward functions
20-Humanplus 详见此文《HumanPlus——斯坦福ALOHA团队开源的人形机器人：融合影子学习技术、RL、模仿学习》,
23- Omnih2o《OmniH2O——通用灵巧且可全身远程操作并学习的人形机器人(含其前身H2O：HumanPlus的重要参考)》
25-Hover,53-Learning agile robotic locomotion skills by imitating animals

目前，随着大规模人类运动数据集的日益可用[4-mocap database,45-Amass: Archive of motion capture as surface shapes]

解决这一挑战的实用方法是通过跟踪和模仿人类动作来学习复制多样化的运动[8-Exbody,20-Humanplus,23-Omnih2o,24-H2O]
然而，考虑到硬件，人形机器人和人类仍然存在很大差异，这阻碍了机器人完全复制人类动作的能力

这提出了一个引人注目的研究问题：在考虑到其物理限制的情况下，如何追求类人机器人的表现力和类似人类的能力，同时保持其稳定性和鲁棒性？

1.1.2 4个关键设计：多样化的数据集、两阶段训练、局部关键点跟踪策略、基于CVAE的远程运动

对此，作者训练了一个能够泛化到不同输入动作的单一策略，且确定了实现这一目标的四项技术设计

(i) 构建可行且多样化的训练数据集
像AMASS [45]这样的人体动作数据集通常包含超出机器人物理能力的复杂动作，这会导致跟踪难度过大并降低性能

一些工作通过优化数据集来解决该问题
例如，ExBody[8]利用语言标签过滤不可行的动作，但模糊的描述（如“舞蹈”）仍可能包含不适合的动作

其他方法，如H2O[24]和OmniH2O [24]，采用SMPL模型模拟虚拟仿人机器人并过滤复杂动作。然而，SMPL虚拟人可以执行真实机器人无法完成的极端动作，导致仿真与现实可行性之间存在差距，进而影响训练效果

作者系统地分析了数据集的难度和多样性，重点关注上半身运动多样性以实现稳定性和跟踪精度，以及下半身的可行性以实现稳健的训练
实验表明，数据集中的多样性和可行性对于在训练和测试阶段实现富有表现力且稳定的行为至关重要
(ii)两阶段训练：教师-学生训练框架
ExBody2采用了如下图图2(b)所示的两阶段教师-学生训练框架「(b)ExBody2在Unitree G1和H1全身控制任务中采用了教师-学生学习框架」
首先使用标准的强化学习算法PPO[60]，在包含特权信息「包括真实根速度、每个身体关节的精确位置以及其他物理属性（如摩擦力）」的仿真环境中训练教师策略
这能够得到一个能够准确模仿多样化人体动作的有效策略
这样得到的策略能够有效且精确地模仿多样化的人体动作

随后，通过对教师策略进行DAgger[59-A reduction of imitation learning and structured prediction to noregret online learning]风格的蒸馏，学习一个可部署的学生策略
对于学生策略，特权信息被一系列历史观测值所替代
(iii) 局部关键点跟踪策略
以往的全身跟踪方法，如 H2O [24] 和 OmniH2O [23]，依赖于关键点位置的全局跟踪
这种方法通常会导致在机器人难以与当前全局关键点对齐，从而在后续步骤中出现即时跟踪失败，从而将其应用限制在高度静止的场景中
This approach often leads to tracking failures in immediate next steps when robots struggle to align with current global key points, limiting their applications to highly stationary scenarios

相比之下，ExBody2将关键点转换到局部参考系，并将关键点跟踪与速度控制解耦
且为了进一步提升跟踪的鲁棒性，作者会定期将全局跟踪关键点重置到局部坐标系。该方法确保了持续且稳健的全身跟踪
(iv) 基于CVAE的远程运动
借助增强的全身跟踪能力，ExBody2的机器人现在可以执行长时间的运动模仿。然而，现有数据集中的动作相对较短，这在旨在实现连续运动执行而无需人工重置时提出了挑战

为了解决这个问题，作者训练了一个条件变分自编码器(CVAE)模型
[64-Learning structured output representation using deep conditional generative models,79-ALOHA ACT]
来合成未来的动作

如下图图2-c所示「(c) ExBody2采用了基于Transformer的CVAE进行连续运动合成，(d) 通过跟踪CVAE生成的运动，ExBody2可以在现实世界中无缝部署，以生动地模拟持续运动」
CVAE输入过去的运动信息，并生成未来的动作序列，从而使机器人在部署期间能够无缝执行复杂且富有表现力的动作

1.2 ExBody2的4个组件：数据集整理、策略学习(Teacher–Student 两阶段训练方式)、运动合成、实际部署

ExBody2由四个主要组件组成：数据集策划、策略学习、运动合成和实际部署。接下来，将详细介绍ExBody2的这些组件

1.2.1 动作数据集整理

在ExBody2的动作数据集整理过程中，重点放在对动作的详细分析和选择

首先，尤其是区分上半身和下半身运动所需的能力

此策略性方法旨在机器人可实现的范围内，最大化动作的多样性

上半身动作
数据集包含了丰富多样的上半身动作
这种多样性对于挑战和提升机器人的适应能力和应对现实世界应用的准备程度至关重要，因为在现实应用中，对突发场景的灵活应对能力非常重要
下肢动作
由于机器人在机械结构和稳定性方面的限制，下肢动作的选择更加保守。包括基本的行走动作和细微的站姿调整

然而，对于跳跃或复杂旋转等高动态动作，则需谨慎评估。对这些不可行动作的训练会在学习过程中引入噪声，从而降低其有效性

其次，对于平衡动作与数据集完整性

数据集的策划过程需要在挑战机器人能力和保持动作在可行范围内之间进行微妙的平衡

过于简单的任务可能限制训练策略对新情境的泛化能力，而过于复杂的任务则可能超出机器人的操作能力，导致学习效果不佳
因此，在数据集准备过程中，会排除或修改那些包含超出机器人能力范围的复杂下肢动作的条目。这一步骤对于确保数据集内容丰富且具有可操作性，同时不会因不切实际的任务而使机器人的学习算法负担过重至关重要

通过精心策划，作者整理出适用于机器人训练的最优平衡的不同数据集

1.2.2 两阶段教师-学生的策略学习：教师策略(特权信息、运动跟踪目标、奖励设计)、学生策略(基于过去较长观测，对齐教师策略)

ExBody2旨在使全身动作的目标跟踪更加富有表现力。为此，ExBody2采用了与[37-Rma,38-Learning quadrupedal locomotion over challenging terrain]类似的高效两阶段教师-学生训练流程

首先使用现成的RL算法PPO [60]，结合只能在模拟器中获得的特权信息(privileged information)，训练出理想的教师策略
即教师策略使用标准的PPO [60]算法在特权信息（包括跟踪目标和本体状态）上进行训练
————
总之，如作者所说，在这一阶段中，Teacher 可以访问机器人在仿真环境中所有完整的状态信息，包括那些现实中无法直接观测的数据
通过RL方式，根据奖励信号训练 Teacher，让它能够在仿真中稳定、准确地完成动作跟踪。由于信息完备，Teacher 能在仿真环境中学到非常精确的策略
不过，这样的策略无法直接部署到真实机器人上，因为真实机器人并没有相同的信息输入
在第二阶段，用与真实世界对齐的观测值替代特权信息，并将教师策略蒸馏为可部署的学生策略
且使用IsaacGym[46-Isaac gym: High performance gpu-based physics simulation for robot learning]进行高效并行仿真来训练他们的策略
即学生策略在没有特权信息的情况下，采用Dagger [59]进行训练，但使用了更长的历史序列
————
总之，如作者所说，在这一阶段中，Student 不再直接使用RL，而是采用监督学习进行训练
具体做法是利用 Teacher 作为教师模型，为每个状态提供一个理想动作作为『真值（ground truth）』
Student 在训练时根据这些真值调整自己的输出，使其行为尽可能接近 Teacher 的表现

1.2.2.1 教师策略的训练：特权信息、运动跟踪目标、奖励设计

具体而言

可以将人形运动控制问题表述为一个马尔可夫决策过程(MDP)，状态空间 $\mathcal{S}$ 包含
$\rightarrow$ 特权观测 $\mathcal{X}$
$\rightarrow$ 本体感知状态 $\mathcal{O}$
$\rightarrow$ 动作跟踪目标 $G$

策略 $\hat{\pi}$ 以 $\left\{p_{t}, o_{t}, g_{t}\right\}$ 作为输入，并输出动作 $\hat{a}_{t}$ ，如图2(b)中所示为教师策略
预测的动作 $\hat{a}_{t} \in R^{23}$ 是关节比例微分(PD)控制器的目标关节位置
作者使用现成的PPO [60] 算法，以最大化累积未来奖励的期望
$E_{\hat{\pi}}\left[\sum_{t=0}^{T} \gamma^{t} \mathcal{R}\left(s_{t}, \hat{a}_{t}\right)\right]$
从而鼓励以鲁棒的行为跟踪示范，预测的 $\hat{a}_{t} \in R^{23}$ 是关节比例微分(PD)控制器的目标位置

接下来，分别具体阐述下教师策略的三大输入：特权观测 $\mathcal{X}$ 、本体感知状态 $\mathcal{O}$ 、动作跟踪目标 $G$

第一，对于特权信息，包含人形机器人和环境的一些真实状态，这些状态只能在模拟器中观察到

它包括真实的根部速度、实际身体连接的位置以及物理属性(例如摩擦系数、电机强度)。特权信息可以显著提高RL算法的样本效率，通常被用来获得高性能的教师策略，如下表表7所示，便是ExBody2中使用的特权信息

第二，对于本体感知，如下表表6所示，是ExBody2中使用的本体感觉状态。旋转信息来自IMU。本体感觉历史长度为25

第三，对于运动跟踪目标，类似于Exbody [9]，ExBody2学习一种可以通过操纵杆命令(例如线速度和身体姿态)控制的策略，以为了准确跟踪全身运动『Similar to Exbody [9], ExBody2 learns a policy that can be controlled by the joystick commands (e.g. the linear velocity and body pose) when accurately tracking a whole-body motion』

运动跟踪目标由两个部分组成，分别是

上半身和下半身的目标关节和3D关键点
目标根部速度与根部姿态

对于跟踪目标信息而言，教师策略和学生策略都将运动跟踪目标作为其观测的一部分，该目标包括关键点位置、自由度(关节)位置以及根部运动信息。运动跟踪目标的详细组成部分可参见表8

最后，对于奖励设计，奖励函数经过精心构建，旨在提升人形机器人运动的性能和逼真度。奖励的主要组成部分包括对根部的速度、方向和朝向的跟踪，以及对关键点和关节位置的精确跟踪

其中，基于跟踪的奖励的主要元素详见下表表1

作者还加入了几个正则化项——原论文也把此称作为补充奖励，以增强机器人的稳定性，并提升从仿真到现实应用的可迁移性，如下表表5所示
「表5介绍了正则化奖励组件及其权重，用于计算最终奖励。最终奖励将正则化项与基于跟踪的奖励相结合，以训练一个鲁棒的强化学习策略」

1.2.2.2 学生策略的训练：从较长的过去观察序列中学习最终对齐教师策略

在此阶段，作者移除特权信息，并使用更长的历史观察来训练学生策略「与特权信息教师策略利用特权信息以获得准确的运动跟踪性能不同，学生策略是在较长的历史长度上训练的，相较于教师，因为它无法观察特权信息，而必须从较长的过去观察序列中学习」。如下图图2所示

学生策略对一系列将过去的观测值 $o_{t-H: t}$ 与编码的 $g_{t}$ 一起用于获得预测的 $a_{t} \sim \pi\left(\cdot \mid o_{t-H: t}, g_{t}\right)$
然后，作者使用教师的动作 $\hat{a}_{t} \sim \hat{\pi}\left(\cdot \mid o_{t}, g_{t}\right)$ 和一个MSE 损失来监督π
$l=\left\|a_{t}-\hat{a}_{t}\right\|^{2}$
本质就是模仿学习

为了训练学生，作者采用DAgger [59- A reduction of imitation learning and structured prediction to noregret online learning]中使用的策略，作者在仿真环境中执行学生策略π以生成训练数据

对于每个访问的状态，教师策略 $\hat{\pi}$ 计算对应的最优(oracle)动作，作为监督信号
然后通过在累积数据不断最小化损失 $l$ 来逐步优化策略 $\pi$
对于教师策略 $\hat{\pi}$ 的训练会通过连续的rollout持续进行，直到损失 $l$ 达到收敛为止「The training of ˆπ continues through successive rollouts untilthe loss l reaches convergence」
而训练学生策略的一个关键方面是保留足够长的历史观测序列

1.2.2.3 分解跟踪策略

动作追踪包括两个目标：追踪自由度（关节）位置和关键点（身体关键点）位置。关键点追踪通常在动作追踪中起着至关重要的作用，因为关节自由度的误差会传播到整个身体，而关键点追踪则直接应用于身体

现有的工作如H2O、OmniH2O [23,24] 学习跟踪全局关键点的轨迹。然而，这种全局追踪策略通常会导致次优甚至失败的追踪行为，因为全局关键点可能随时间漂移，导致累积误差，最终阻碍学习

为了解决这个问题，作者将全局关键点映射到机器人的当前坐标系，并采用基于速度的全局跟踪
速度与动作的协调使得即使出现轻微的位置偏差，也能以最大表现力完成追踪
此外，为了进一步提升机器人在跟随复杂关键点动作时的能力，作者在训练阶段允许关键点出现小幅全局漂移，并定期将其校正到机器人当前的坐标系
在部署阶段，则严格采用基于速度分解控制的局部关键点追踪(During deployment, we strictly employ local key-point tracking with velocity-decomposed control)

1.2.3 连续运动合成：类似ALOHA ACT，通过CVAE做编码、解码

现有的运动通常较短，这限制了人形机器人持续执行有趣且复杂的行为

为了解决这一问题，作者训练了一个条件变分自编码器(CVAE)[64- Learning structured output representation using deep conditional generative models,79-ALOHA ACT]，以合成未来动作，这些动作可以被全身跟踪策略直接利用，使机器人在部署过程中能够无缝地执行复杂且富有表现力的动作

如下图图2(c) 所示，CVAE 模型包含一个基于transformer 的编码器和解码器

CVAE 接收过去M 步的运动 $m_{t-M: t}$ ，并自回归地合成未来H 步的运动 $m_{t+1: t+H+1}$ 。 $m_{t}$ 包括当前的自由度位置、根姿态、速度和角速度

具体来说，作者利用基于Transformer 的CVAE 架构，类似于[79-ALOHA ACT]中提出的架构
首先通过两个独立的MLP 分别对自由度位置和根信息进行tokenize——即对于教师和学生策略，将相应的输入拼接后输入MLP层进行策略学习，获得tokenized的运动信息
然后通过Transformer 编码器网络，利用[CLS] token的特征，计算后验分布
$q_{\phi}\left(m_{t-M: t}, m_{t+1: t+H+1}\right)$
「相当于在训练过程中，Transformer CVAE编码器 $f_{e n c}$ 接收整段全部动作 $m_{t-M: t+H+1}$ 和一个分类token [CLS]，并得到输出序列 $z$ ，即采用[CLS] token对应的输出以获得一个后验高斯分布 $z$ 」

为了简化记号并与标准CVAE 保持一致，作者

将条件 $c=m_{t-M: t}$ 表示为历史上下文
而将 $x=m_{t+1: t+H+1}$ 表示为要预测的目标
在训练时，潜在变量 $z$ 从 $\mathcal{N}\left(\mu(c, x), \sigma(c, x)^{2}\right.$ 中采样

相当于编码器利用双向注意力从过去M步动作 $m_{t-M: t}$ 和未来H步动作 $m_{t+1: t+H+1}$ 中提取潜在后验变量 $z$ ——The encoder leverages bidirectional attention to extract the latent posterior variable z based on past M−step motions mt−M:t and future H-step motions mt+1:t+H+1
一个Transformer 解码器将利用 $z$ 和 $c=m_{t-M: t}$ 以及位置嵌入一块，用于预测H 步的未来运动 $\hat{x}$
相当于解码器在因果注意力下，基于 $z$ 、过去M 步动作 $m_{t-M: t}$ 、位置嵌入pos emb，去预测未来H步动作 $m_{t+1: t+H+1}$ ——即the decoder uses causal attention to predict future H-step motions mt+1:t+H+1 based on z and mt−M:t.

1) 这里 $m_t$ 包括当前关键点位置、根部速度、根部角速度、位置和旋转
2) 预测归预测，那实际的未来H步动作 $m_{t+1: t+H+1}$ 怎么生成的呢？一个潜在变量 $z$ 被采样并与整段全部动作 $m_{t-M: t+H+1}$ 一起输入解码器，以生成未来H步动作 $m_{t+1: t+H+1}$ 
A latent variable z is sampled and fed into the decoder alongside mt−M:t+H+1 to generate mt+1:t+H+1

CVAE 损失包括
$\rightarrow$ 重建损失
$l_{\text {recon }}=\|x-\hat{x}\|^{2}$
和
$\rightarrow$ KL 散度损失
$l_{K L}=\frac{1}{2} \sum_{i=1}^{d}\left(\sigma_{i}^{2}(x, c)+\mu_{i}^{2}(x, c)-1-\log \left(\sigma_{i}^{2}(x, c)\right)\right)$
其中， $d$ 是潜在空间的维数
且
$\rightarrow$ 为了提高预测运动的平滑性，作者还应用了平滑损失 $l_{\text {smooth }}=\left\|\hat{m}_{t+1}-m_{t}\right\|^{2}+\sum_{i=t+1}^{t+H}\left\|\hat{m}_{i+1}-\hat{m}_{i}\right\|^{2}$

最终，CVAE 训练的总损失为： $l_{\text {motion }}=l_{\text {recon }}+\alpha l_{K L}+\beta l_{\text {smooth }}$ ，在作者的实验中设置 $\alpha=\beta=0.5$

在推理过程中， $z$ 被设置为先验的均值(即零)
CVAE 在AMASS CMU动作捕捉数据集上进行训练，条件是过去50 帧的动作以预测未来15 帧的动作
且采用与Zhao 等人[79-ALOHA ACT] 类似的时间集成策略来获得预测的未来动作

至于作者做的为证明ExBody2效果不错的一系列实验，请见原论文

下表表9 中提供了CVAE 的训练和架构超参数

1.2.4 真实世界部署

他们的真实机器人采用了Unitree G1平台，板载Jetson Orin NX作为主要的计算和通信设备

控制策略接收运动跟踪目标信息作为输入，计算每个电机的期望关节位置，并将指令发送到机器人的低层接口。该策略的推理频率设置为50 Hz。指令发送时延保持在18到30毫秒之间
低层接口以500 Hz的频率运行，确保平滑的实时控制。控制策略与低层接口之间的通信通过LCM(轻量级通信与编组)[27-Lcm: Light weight communications and marshallin]实现

顺带提下动作空间

动作是关节比例-微分（PD）控制器的目标位置

对于 Unitree G1 为 23 维

对于Unitree H1 为 21 维
对于该H1，作者使用的是升级版的 Unitree H1。旧版 H1 拥有19 个自由度，而新版 H1 拥有 21 个自由度

1.3 实验

1.3.1 实验设置

作者在IsaacGym [46]模拟器中，针对两种机器人平台（Unitree G1和H1）进行了实验

为检验不同跟踪方法、运动控制策略和训练技术的有效性，作者利用一个高质量、精心整理的250个动作样本数据集评估了4种基线方法。该数据集经过仔细筛选，适用于最佳训练，后续实验将进一步说明

Exbody[9]：该方法仅从人体数据中跟踪上半身动作，同时跟踪下半身的根部运动，但并未明确遵循步态模式，侧重于部分身体的跟踪
即Exbody与Exbody2方法的主要区别如下：Exbody仅关注上半身运动跟踪，不采用教师-学生结构，历史长度仅为5，并且完全通过本地关键点进行跟踪
Exbody†：Exbody 的全身控制版本，在该版本中，基于人体数据跟踪全身动作。该设置实现了全面的人体动作模仿，力求使整个身体姿态与参考数据相匹配
OmniH2O*：对OmniH2O的重新实现，采用全局关键点跟踪，并使用原论文中描述的相同观测空间。在部署过程中，将OmniH2O适配到我们的本地跟踪评估，以实现公平比较
即OmniH2O*在训练过程中不将机器人的速度作为特权信息，仅依赖全局跟踪
为保证公平，尽管OmniH2O*保持其原有的训练方法，作者在测试时对其进行了调整，采用局部关键点来评估跟踪精度。除此之外，作者还确保观测空间和奖励设计与原始的OmniH2O实现保持一致
ExBody2：我们的方法利用了局部关键点跟踪，并结合了多种训练技术，以提升整体运动的真实感和仿真到现实的迁移能力

关于指标。作者使用多个指标对策略在数据集中所有运动序列上的表现进行评估

平均线速度误差 $E_{\text {vel }}(\mathrm{m} / \mathrm{s})$ 衡量机器人根部线速度与示范之间的误差，反映策略的速度跟踪能力，且通过关键身体位置和关节角度来计算跟踪误差

平均每关键点位置误差(MPKPE) $E_{\text {mpkpe }}(\mathrm{m})$ 评估整体关键点位置的跟踪能力
为了更详细的分析，作者会分别报告上半身的MPKPE $E_{\text {mpkpe }}^{\text {upper }}(\mathrm{m})$ 和下半身的MPKPE $E_{\text {mpkpe }}^{\text {lower }}(\mathrm{m})$ ，以分别评估上半身和下半身的关键点位置跟踪能力
同样，平均每关节位置误差(MPJPE) $E_{\text {mpjpe }}(rad)$ 衡量关节的跟踪能力
同样为了更细致的分析，作者还报告上半身的MPJPE $E_{\text {mpjpe }}^{\text {upper }}(\mathrm{rad})$ 和下半身的MPJPE $E_{\text {mpjpe }}^{\text {lower }}(\mathrm{rad})$ ，以评估不同身体区域的跟踪表现

1.3.2 评估结果：ExBody2的师生训练范式(将特权信息蒸馏到历史观测中)使得其综合表现更好

表2

图3是机器人表演恰恰舞的动作序列『从上到下依次为：由虚拟角色表示的参考动作、ExBody2算法在仿真中的表现以及其在真实机器人上的表现。底部三行展示了每帧误差：速度跟踪误差、上半身关节自由度误差和下半身自由度误差，蓝色曲线代表ExBody2，橙色代表Exbody†，绿色代表Exbody，红色代表OmniH2O*』

展示了在两种机器人平台Unitree G1和H1上不同算法的结果，其中ExBody2在所有跟踪指标上均优于其他方法。且ExBody2的方法在整个时间段内始终保持较低的跟踪误差且波动极小，表明其具有稳定且精确的跟踪性能

更具体地说，作者评估了以下指标

上半身跟踪精度：ExBody2的算法在上半身跟踪精度方面的表现略低于Exbody
然而，Exbody为了保持平衡牺牲了下半身的跟踪，而ExBody2的算法能够在上半身和下半身的跟踪精度之间实现良好的平衡
下肢跟踪精度：ExBody2的算法在下肢跟踪精度方面，相较于其他算法，在G1和H1上均表现出更高的准确性
速度跟踪精度：ExBody2的算法在速度跟踪精度方面也表现优异，优于其他方法
这一提升归因于ExBody2的师生训练范式，通过将特权信息蒸馏到历史观测中，最终使学生策略具备更好的速度跟踪能力

总体而言，ExBody2的算法在全身跟踪精度（包括上半身和下半身）以及速度跟踪精度方面相比基线算法取得了显著提升，在动态环境中展现出稳定且高效的跟踪性能

1.3.3 数据集消融实验

// 待更

1.3.4 策略训练的消融实验

最后，作者对ExBody2中的设计选择进行了消融实验，包括师生设置的有效性、用于训练策略的最优历史长度，以及使用延迟关键点重置的机制，如表4所示「实验在Unitree G1机器人上进行」

首先，分析教师-学生训练的影响
如表4(c)所示，缺少教师-学生训练时，跟踪精度显著下降。这主要是因为缺乏特权速度引导，使得单阶段强化学习策略难以直接从历史中学习速度。因此，策略无法跟上期望的动作，导致跟踪精度变差
随后，作者在表4(a)中测试了用不同历史长度训练的学生策略。当不使用额外历史信息时，策略难以有效学习。在非零历史长度中，大多数策略表现相近，其中历史长度为25时效果最佳，因此作者在主要实验中采用了该长度
更长的历史长度增加了拟合特权信息的难度，最终降低了跟踪性能
最后，作者在表4(b)中通过采用延迟全局关键点重置策略，评估了引入小幅漂移的影响。且允许关键点在全局坐标系中短时间移动，然后再重置到机器人本地坐标系。这实际上起到了数据增强的作用，鼓励机器人在关键点出现更大漂移时进行跟踪
这一设计显著提升了速度跟踪能力，使机器人能够利用绝对位置调整来补偿跟踪速度时出现的偏差

// 待更

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

AWE2026收官：AI“觉醒”前夜，谁在定义未来？

无论是石头的轮足机器人、追觅的仿生四足，还是宇树的人形机器人，它们不再是单纯的“替代者”，还是“会思考”的执行者，能让人从重复劳动中解脱出来，投入到更具创造性的生活之中。放眼全球，中国企业在这轮变革中的角色也在悄然变化，从曾经的产业链追随者，到跨场景生态构建的定义者，海尔、华为、追觅们正通过“人车家全域协同”和底层芯片、大模型的突破，为全球消费者提供关于未来生活的“中国方案”。相比之下，追觅展示的

DAMO开发者矩阵

收藏！小白程序员快速入门：AI Agent开发核心知识体系梳理

DAMO开发者矩阵

别再给OpenClaw交“智商税”了：这5个免费方案，能省下90%的钱

OpenClaw（原Clawdbot）最近在技术社区被频繁讨论，这款强大的AI Agent能让你的聊天机器人真正“干活”——处理文件、调用系统命令、执行自动化流程。然而随着它走红，市场上出现了大量“付费部署”、“付费插件”的服务，让很多人误以为使用OpenClaw门槛高、成本高。支持将PDF及图片（JPG/JPEG/PNG/BMP/TIFF/TIF/WEBP/JPEG2000）转换为Word、Ex