# TRO 2026｜机器人学也开始疯狂用生成模型了？

嘉子的秃头日记

170人浏览 · 2026-06-09 20:49:20

嘉子的秃头日记 · 2026-06-09 20:49:20 发布

哈喽大家好，我是疯狂读论文的戴夫。今天继续啃一篇论文，让自己的脑子艮揪一点！

这几年机器人学习里有一个很明显的趋势：机器人开始从大量示范数据里学习行为。

比如人类示范怎么抓取、怎么倒水、怎么整理桌面、怎么操作柔性物体，机器人再从这些示范中学习自己的动作策略。

但人类示范本身并不规整。

同一个任务，不同人可能有不同做法；同一个物体，可能有多种抓法；同一个目标，也可能对应多条可行轨迹。模型如果只学一个平均动作，就容易把多种正确行为“平均”成一个错误行为。

这篇 TRO 2026 综述讨论的就是这个问题：

机器人能不能用深度生成模型，更好地学习复杂、多模态的人类示范？

论文题目是：

A Survey on Deep Generative Models for Robot Learning From Multimodal Demonstrations

DOI：10.1109/TRO.2025.3631816

可以理解为：

面向多模态示范机器人学习的深度生成模型综述。

图1 综述结构图

一、这篇论文讲什么？

这是一篇综述论文，主要梳理一个方向：

深度生成模型如何帮助机器人从多模态示范中学习动作策略。

这里有两个关键词。

第一个是 Learning from Demonstrations，LfD，从示范中学习。

简单说，就是机器人通过专家示范学习行为。它和模仿学习、行为克隆、逆强化学习这些概念关系很近。

第二个是 Deep Generative Models，DGM，深度生成模型。

它的作用是学习复杂数据分布，并从中生成新的样本。在机器人里，这个“样本”可以是动作、轨迹、抓取姿态、目标场景，甚至是视频或子目标。

机器人学习需要生成模型，一个重要原因是示范数据天然具有多种可能性。

同一个杯子可以从左边抓，也可以从右边抓；同一个抽屉可以快点拉，也可以慢点拉；同一个整理桌面的任务，也可能存在多种合理顺序。

生成模型的价值在于：它可以学习“多种可能的正确答案”。

二、现有方法卡在哪里？

传统行为克隆方法经常把机器人策略学成一个确定动作，或者一个简单分布。

在数据干净、任务单一时，这类方法还能工作。但机器人示范通常更复杂。

示范者不同，动作习惯不同；
传感器输入复杂，可能包含图像、点云、触觉、语言；
动作空间不统一，可能是末端位姿、轨迹、关节控制或目标场景；
任务存在长时序依赖，前面的小误差会在后面不断放大；
训练数据和真实部署环境之间还存在分布偏移。

所以这篇综述的核心切入点是：

机器人学习需要建模复杂示范数据背后的分布结构。

这也是深度生成模型进入机器人学习的重要原因。

三、作者怎么分类？

这篇综述把机器人学习中常见的深度生成模型分成五类。

1. Sampling Models

直接生成一个动作；包括 VAE、GAN、Normalizing Flow 等。

这类模型的特点是：给一个随机变量，就能直接生成动作或姿态，推理速度通常比较快。

在机器人中，它们常用于生成抓取姿态、逆运动学解、初始采样点，或者作为强化学习里的行为先验。

图2 Sampling Models 示意图

2. Energy-Based Models，EBM

EBM 的工作方式是给候选动作打分，判断这个动作“好不好”。

它的优势是可以组合多个目标，比如接近示范、避障、满足任务约束。缺点是采样通常更慢，经常需要优化或 MCMC 过程。

图3 EBM 示意图

3. Diffusion Models

从噪声慢慢修成动作；扩散模型这几年在机器人里非常火。

它通过“从噪声一步步去噪”的方式生成动作、轨迹或目标姿态。它的表达能力强，训练相对稳定，适合生成复杂连续动作序列。

比如生成一段机械臂轨迹、一个抓取姿态，或者一组未来动作。

图4 Diffusion Models 示意图

4. Categorical Models

这类方法把动作离散化，把动作变成选择题；用分类方式生成动作。

典型例子包括 action value map 和 GPT-style autoregressive models。前者适合视觉抓取任务，比如在图像上预测哪个像素位置最适合抓取；后者更接近语言模型的思路，把动作序列当成 token 序列来生成。

5. Mixture Density Models，MDM

MDM 用多个分布混合表示动作分布。

它适合表达“一个输入对应多个合理动作”的情况。比如同一个视觉状态下，机器人可以往不同方向操作，并且这些操作都有可能成功。

图4 MDM示意图

四、这些模型用在机器人哪里？

这篇综述还重点讨论了生成模型如何嵌入机器人系统。

常见用法有几类。

第一类是生成 末端执行器目标位姿。
比如给机器人生成一个 6D 抓取姿态，再交给运动规划器生成路径。

第二类是生成轨迹。
扩散模型在这里很常见，可以直接生成一段未来动作序列，适合倒水、插入、食物处理这类连续操作任务。

第三类是生成 末端位移。
这类方法常作为视觉运动策略，输入图像，输出机器人末端下一步该怎么移动。

第四类是生成 场景安排。
比如给一句“set the table for dinner”，模型生成盘子、杯子、餐具应该摆放的位置，然后再由任务和运动规划器执行。

图5 生成模型集成到机器人任务中的几种方式

生成模型在机器人系统中的主要作用，是生成传统规则很难手写的关键变量。

五、这篇综述最重要的问题：泛化

机器人学习最怕训练时效果很好，换个物体、换个场景、换个角度就崩。

所以这篇综述专门讨论了 out-of-distribution generalization，分布外泛化。

作者总结了几类重要思路。

第一，组合式建模。
把多个行为模块组合起来，应对新任务和新约束。

第二，提取更有效的观测特征。
图像、触觉、点云都很复杂。模型需要关注物体、接触、几何关系这些关键特征，减少背景、光照、相机位置等无关因素的影响。

第三，利用感知和动作之间的对称性。
比如苹果在图像里平移 10 厘米，合理抓取点也应该跟着平移。action value map 这类方法就很适合利用这种空间结构。

图6 Action Value Map 空间对称性示意图

这部分很适合普通研究生重点阅读。

很多机器人论文真正的难点，在于让模型换场景之后还能保持可用。

六、未来方向怎么看？

这篇综述最后提到几个重要方向。

第一是 长时程任务。
现在很多生成模型更适合短时程动作，复杂长任务还需要高层规划、语言模型或任务分解配合。

第二是 从视频示范中学习。
真实机器人数据很贵，互联网上有大量人类操作视频。问题在于，视频里没有机器人的真实动作标签，而且人和机器人的身体结构也不同。

第三是 从合成数据中学习。
仿真可以生成大量数据，但 sim-to-real gap 仍然是绕不开的问题。

第四是 更强泛化能力。
未来模型需要更好地结合结构先验、3D 信息和互联网知识，让机器人适应没见过的新物体、新环境和新任务。

七、论文画像

应用范围： 这篇综述覆盖机器人模仿学习、行为克隆、抓取、轨迹生成、场景安排和多模态策略学习，适用面比较宽。

复现友好度： 作为综述本身不需要复现实验，但沿着具体方法做课题时，复现门槛会因模型类型和机器人平台差异很大。

方法新颖度： 这篇属于综述论文，价值主要在系统梳理 DGM 在机器人学习中的模型类别、应用方式和泛化设计。

思维借鉴度： 非常适合作为开题和选题地图，尤其适合想做机器人学习、模仿学习、扩散策略、多模态操作的研究生。

技术完整度： 综述结构比较完整，从问题定义、模型分类、机器人应用、泛化策略到未来方向都有覆盖。

实验充分性： 这是综述论文，不以单一实验验证为主；它的充分性体现在文献覆盖、分类框架和问题归纳上。

最后总结

这篇 TRO 综述最值得记住的一点是：

机器人从示范中学习，核心在于学习复杂示范背后的动作分布。

对普通工科研究生来说，这篇文章很适合当作方向地图。

如果你想做机器人学习，但还不知道从哪里切入，可以顺着这篇综述去看几个方向：

扩散策略；
动作价值图；
轨迹生成；
6D 抓取姿态生成；
多模态示范学习；
分布外泛化。

如果只记住一句话：

好的机器人生成模型，需要在没见过的新场景里生成仍然有用的动作。

关注我，获取更多相关资讯。
在这里插入图片描述

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

干细胞：再生医学的潜力新星

近期，瑞士苏黎世联邦理工学院研发出由干细胞与磁电纳米颗粒组成的“细胞机器人”，为脊髓损伤修复提供新路径。[1] 该“细胞机器人”可通过磁场远程操控，在动物实验中展现促进神经再生的潜力，但目前仍处于实验阶段，距离临床应用还有较长周期。[2] 研究聚焦衰老伴随的身体功能下降问题，而非“返老还童”的夸张效果，目前正处于受试者招募阶段，结果将为该领域应用提供科学依据。需要明确的是，当前多数干细胞疗法仍处于