7篇标志性成果，看透机器人模仿学习8年关键突破

现在还得人类指定任务目标（比如“移动到目标位置”），未来是否能让机器人自己发现任务，比如“看到地面垃圾→自主捡起”。机器人的奖励分两部分：“任务分”（比如跑够速度）和“风格分”（鉴赏家给的评分），不用抄每一步，只要整体像人就行。：给机器人配个“风格鉴赏家”（对抗训练的判别器），专门对比机器人动作和人类动捕数据的“整体感觉”。，但具身智能的终极目标是“自主行动”——从“学人类动”到“为目标而动”，还

深蓝学院

676人浏览 · 2026-02-26 17:39:57

深蓝学院 · 2026-02-26 17:39:57 发布

机器人运控圈的流行语：跑步绕不开AMP，跳舞绕不开DeepMimic

——模仿学习8年深耕

01 技术拆解

（2018）DeepMimic：机器人的“逐帧抄作业课”（跳舞/武术）

（2021）AMP：机器人的“风格鉴赏课”（跑步/步态底盘）

（2022）ASE：机器人的“技能预训练+按需调用课”（通用场景）

（2025）ADD：机器人的“自动调参课”

（2025）PARC：机器人的“数据生成外挂”

（2025）TWIST：机器人的“从模拟到真实通关课”

MimicKit：机器人运动控制的“工程化”（填平落地鸿沟）

02 核心进化路

03 未来展望

五年前，人形机器人的运动控制仍处于机械且不自然的阶段，动作僵硬、稳定性有限；如今，我们已看到其完成流畅的后空翻、转体乃至复杂的街舞动作。

这一跃迁的背后，并非完全依赖层出不穷的新模型，而更多得益于一套持续演进的“模仿学习”范式——它构成了众多先进运动控制系统的共同基础。

而站在这条进化路正中央的，正是以Xue Bin Peng（西蒙弗雷泽大学助理教授&英伟达研究科学家）为代表的研究团队8年来持续输出的关键工作——今天要介绍的“6篇核心论文+1个工具箱”。

这篇文章将和大家一起浅析“机器人模仿学习”的核心脉络——不堆公式，只聊真问题、真思路，还得说说这些技术的“高光”与“软肋”。

毕竟没有完美的算法，只有适配的场景。

从 DeepMimic 的手动奖励工程，到 AMP 的对抗性运动先验，再到 ASE 的可复用技能嵌入、ADD 的多目标自动平衡，直至 PARC、TWIST 的进阶优化，最后 MimicKit 的工程化落地——

这套横跨八年的技术发展，远不止简单的线性迭代，而是针对行业五大核心痛点的系统性破局，每个技术都给机器人“上了一课”。

下面，我们就逐一拆解这七项工作。

01 技术拆解

（2018）DeepMimic：机器人的“逐帧抄作业课”（跳舞/武术）

核心问题：怎么让机器人精准复刻复杂动作？

比如街舞、武术这种差一帧就变“群魔乱舞”的场景。

核心思路：给一段人类动捕数据当“标准答案”，让机器人在仿真里“逐帧抄”，还加了两个“小技巧”：

随机从参考动作里选起点（避免只会跳开头）、跳错就重来（不浪费训练资源）。

▲图1| 视觉运动策略网络的结构示意图

适用场景：需要精准动作编排的场景（机器人跳舞、武术表演、影视特效角色）。

▲图2| 基于动作捕捉模仿习得的高动态技能 —— 物理模拟角色的动作演示

它的精准度是“双刃剑”——

能把动作复刻到几乎以假乱真，但也绑死了灵活性。

比如跳舞时被碰一下，机器人就容易“卡壳”，不会自己纠偏；而且长动作里的高难片段会“偏科”：简单段落学得超像，难的部分就糊弄过去，像极了学生抄作业只挑简单题做。

（2021）AMP：机器人的“风格鉴赏课”（跑步/步态底盘）

核心问题：不用逐帧复刻，怎么让机器人的动作“整体像人”？

比如跑步，不用和参考帧完全一致，但步态得自然，不能像机械臂甩动。

核心思路：给机器人配个“风格鉴赏家”（对抗训练的判别器），专门对比机器人动作和人类动捕数据的“整体感觉”。

机器人的奖励分两部分：“任务分”（比如跑够速度）和“风格分”（鉴赏家给的评分），不用抄每一步，只要整体像人就行。

▲图3| AMP 基于动作数据集的运动先验与任务奖励融合的策略训练系统

适用场景：需要自然步态的场景（机器人跑步、日常行走、工业巡检底盘）。

▲图4| 基于非结构化动作数据的框架 —— 物理模拟角色以风格化行为完成挑战任务

它解决了“僵硬”问题，但带来了新麻烦——风格和精准的平衡。

比如让机器人跑着去碰目标，它可能为了保持“人类风格”，宁愿慢一点，也不调整动作去精准触达；

而且“像人”的标准很主观，到底是“运动员跑”还是“普通人跑”，全看数据集，没有统一答案。

（2022）ASE：机器人的“技能预训练+按需调用课”（通用场景）

核心问题：能不能让机器人像人类一样，学会一次技能就能适配多个任务，不用每个任务从头学？

核心思路：先搞个“大规模技能库”——在海量运动数据上预训练走路、跑、跳、挥剑等技能，每个技能对应一个“隐藏代码”（latent向量）；

下游任务只需要训练“高层指挥官”，根据任务目标选“隐藏代码”，底层技能直接复用。

此外，还加了“球形技能空间”（避免动作异常）和“自动恢复技能”（摔倒了自己爬起来）。

▲图 5| ASE框架

适用场景：需要快速适配新任务的场景（比如机器人既要走路又要操作工具）。

▲图6| 物理模拟角色利用习得技能完成跑向目标并推倒的任务

它虽然可以实现“技能复用”，但也依赖“海量数据投喂”——预训练技能库的多样性全看数据，没见过的动作还是不会；

而且“高层指挥官”和“底层技能”的适配，偶尔还得手动调权重，没完全实现“零干预”。

（2025）ADD：机器人的“自动调参课”

核心问题：几十种运动目标要手动调权重，那么是否能让系统自动平衡？

核心思路：用“对抗性微分判别器”当“自动教练”：

1. “打包“误差：把关节、速度、平衡等误差塞进“微分向量Δ”，理想状态Δ=0；

2. 判别器“抓重点纠错”：只认Δ=0的完美样本，先揪离谱错误（脚飘不沾地），再抠精微误差（身体旋转偏差）；

3. 奖励自动化： $(r_t = -\log(1 - D(\Delta_t))))$ ，Δ越接近0奖励越高，全程不碰权重滑块。

实验里双金刚跳位置误差仅0.03m，远超DeepMimic的0.223m，复杂跑酷动作也能稳住。

▲图7| ADD算法流程

适用场景：精准模仿类任务（工具操作、跑酷、武术复刻）。

▲图8| 无需手动奖励工程的物理模拟角色高敏捷运动技能模仿

（2025）PARC：机器人的“数据生成外挂”

核心问题：跑酷等敏捷数据采集贵、场景少，数据不够学不会新技能？

核心思路：“生成-修正-迭代”闭环造数据：

1. 10分钟核心数据（平地走、简单跳）启动“运动生成器”；

2. 生成复杂地形动作（跳平台+攀爬），再用“物理跟踪器”修正穿模、漂浮等bug；

3. 干净数据回灌训练集，循环迭代，10分钟变100小时，动作成功率从27%涨到68%。

核心公式：生成器损失 $(\mathcal{L}(G) = \mathcal{L}_{rec}(G) + \mathcal{L}_{pen}(G))$ （还原+不穿模）。

▲图9| PARC 框架

适用场景：数据稀缺的复杂场景（跑酷、山地穿越、工业工况适配）。

▲图10| 物理模拟角色的复杂地形跑酷技能穿越（迭代扩充框架）

AI能造动作但没创造力，只能拼基础技能，没法搞全新招式；迭代多了数据还会“撞脸”，机器人只会换皮不会创新，只能说“量够质不够”。

（2025）TWIST：机器人的“从模拟到真实通关课”

核心问题：sim-to-real之间的gap（动力学差异、噪声）如何解决？

核心思路：“动捕重定向+RL+BC混合双打”：

1. 把人类动作适配机器人形态，生成专属参考运动；

2. BC保证精准（末端定位误差<0.05m），RL练抗造（抗地面不平、轻微推力）；

3. 剧透未来几帧动作，减少实时滞后。

核心公式：混合损失 $(L(\pi_{stu}) = L_{RL}(\pi_{stu}) + \lambda D_{KL}(\pi_{stu} | \pi_{tea}))$ （精准+抗造），真实机器人能搬箱踢门、钻障碍、跳华尔兹。

▲图11| TWIST 系统三阶段流程（动作数据集・仿真训练・实机遥操作）

适用场景：真实人形机器人全身体技能（家庭服务、工业辅助、娱乐互动）。

▲图12| TWIST 系统 ——人形机器人实时全身模仿人类动作

打通模拟到真实的门槛不低——反应慢半拍（0.9秒延迟），突然遇障碍必撞；

电机5-10分钟就过热，想长时间干活得给它配风扇，工业落地还得等硬件升级！

MimicKit：机器人运动控制的“工程化”（填平落地鸿沟）

核心解决：论文算法思路易懂、落地复现调参痛点。

它并非新算法，而是一站式工程工具箱——

将DeepMimic、AMP、ADD等核心方法打包成统一代码库，标准化仿真环境、数据接口与训练流程，无需从零搭建框架、重复调试底层代码。

模块化调用就能快速跑通实验，填平论文思路到稳定落地的工程鸿沟。

▲图13| MimicKit 框架结构概览 —— 学习与仿真模块的核心组件

02 核心进化路

梳理下来，这几项研究形成了一条清晰的机器人运动控制“升级路线”：

目标设计：手动调参→对抗性奖励→自动平衡多目标（ADD）；
技能复用：单任务训练→大数据集组合→预训练+迁移（ASE）；
数据利用：依赖真实数据→生成+物理修正（PARC）；
场景适配：模拟验证→真实机器人落地（TWIST）；
工程落地：论文难复现→工具箱一键调用（MimicKit）。

这套逻辑的核心就是“让机器人像人类一样高效行动”——

不用人类事事干预，能自己复用技能、自己修正数据、自己适应环境，还能让开发者轻松落地，这也是它能成为行业模板的原因。

03 未来展望

现在的技术已经能让机器人“跳得好、跑得稳、落地易”，但要达到人类的灵活度，还有两道坎：

小样本迁移：现在还需要一定规模的初始数据，未来能不能看1-2个参考动作，就学会同类技能，比如看一次跨越1m gap，就能自主跨越0.8-1.2m。

自主决策：现在还得人类指定任务目标（比如“移动到目标位置”），未来是否能让机器人自己发现任务，比如“看到地面垃圾→自主捡起”。

该系列研究搭好了“运动控制+工程落地”的双重地基，但具身智能的终极目标是“自主行动”——从“学人类动”到“为目标而动”，还有很长的路要走。

Ref

1. DeepMimic：https://arxiv.org/pdf/1804.02717

2. AMP：https://arxiv.org/pdf/2104.02180

3. ASE：https://arxiv.org/pdf/2205.01906

4. ADD：https://arxiv.org/pdf/2505.04961?

5. PARC：https://arxiv.org/pdf/2505.04002

6. TWIST：https://arxiv.org/pdf/2505.02833

7. MimicKit：https://arxiv.org/pdf/2510.13794

8. Xue Bin Peng主页：https://xbpeng.github.io/

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

DreamZero技术解析：当世界模型成为机器人“物理大脑”

DAMO开发者矩阵

硬实时·强生态：鸿道Intewell硬实时操作系统

DAMO开发者矩阵

【随手记】Covariant’s Brain Service和gRPC谷歌远程过程调用

高性能：HTTP/2 + Protobuf，高吞吐量、低延迟实时双向通信：机器人和 Brain Service 可持续交换数据支持流式数据：感知数据和动作指令都是连续流跨语言系统支持：简化分布式开发正是 gRPC 的这些特性，使得 Covariant 的机器人系统能够像“智能团队”一样高效协作，实现真正的工业自动化智能。