哈喽大家好,我是疯狂读论文的戴夫。今天继续啃一篇论文,让自己的脑子艮揪一点!

这几年机器人学习里有一个很明显的趋势:机器人开始从大量示范数据里学习行为。

比如人类示范怎么抓取、怎么倒水、怎么整理桌面、怎么操作柔性物体,机器人再从这些示范中学习自己的动作策略。

但人类示范本身并不规整。

同一个任务,不同人可能有不同做法;同一个物体,可能有多种抓法;同一个目标,也可能对应多条可行轨迹。模型如果只学一个平均动作,就容易把多种正确行为“平均”成一个错误行为。

这篇 TRO 2026 综述讨论的就是这个问题:

机器人能不能用深度生成模型,更好地学习复杂、多模态的人类示范?

论文题目是:

A Survey on Deep Generative Models for Robot Learning From Multimodal Demonstrations

DOI:10.1109/TRO.2025.3631816

可以理解为:

面向多模态示范机器人学习的深度生成模型综述。image.png

图1 综述结构图


一、这篇论文讲什么?

这是一篇综述论文,主要梳理一个方向:

深度生成模型如何帮助机器人从多模态示范中学习动作策略。

这里有两个关键词。

第一个是 Learning from Demonstrations,LfD,从示范中学习

简单说,就是机器人通过专家示范学习行为。它和模仿学习、行为克隆、逆强化学习这些概念关系很近。

第二个是 Deep Generative Models,DGM,深度生成模型

它的作用是学习复杂数据分布,并从中生成新的样本。在机器人里,这个“样本”可以是动作、轨迹、抓取姿态、目标场景,甚至是视频或子目标。

机器人学习需要生成模型,一个重要原因是示范数据天然具有多种可能性。

同一个杯子可以从左边抓,也可以从右边抓;同一个抽屉可以快点拉,也可以慢点拉;同一个整理桌面的任务,也可能存在多种合理顺序。

生成模型的价值在于:它可以学习“多种可能的正确答案”。


二、现有方法卡在哪里?

传统行为克隆方法经常把机器人策略学成一个确定动作,或者一个简单分布。

在数据干净、任务单一时,这类方法还能工作。但机器人示范通常更复杂。

示范者不同,动作习惯不同;
传感器输入复杂,可能包含图像、点云、触觉、语言;
动作空间不统一,可能是末端位姿、轨迹、关节控制或目标场景;
任务存在长时序依赖,前面的小误差会在后面不断放大;
训练数据和真实部署环境之间还存在分布偏移。

所以这篇综述的核心切入点是:

机器人学习需要建模复杂示范数据背后的分布结构。

这也是深度生成模型进入机器人学习的重要原因。


三、作者怎么分类?

这篇综述把机器人学习中常见的深度生成模型分成五类。

1. Sampling Models

直接生成一个动作;包括 VAE、GAN、Normalizing Flow 等。

这类模型的特点是:给一个随机变量,就能直接生成动作或姿态,推理速度通常比较快。

在机器人中,它们常用于生成抓取姿态、逆运动学解、初始采样点,或者作为强化学习里的行为先验。
image.png
图2 Sampling Models 示意图

2. Energy-Based Models,EBM

EBM 的工作方式是给候选动作打分,判断这个动作“好不好”。

它的优势是可以组合多个目标,比如接近示范、避障、满足任务约束。缺点是采样通常更慢,经常需要优化或 MCMC 过程。
image.png
图3 EBM 示意图

3. Diffusion Models

从噪声慢慢修成动作;扩散模型这几年在机器人里非常火。

它通过“从噪声一步步去噪”的方式生成动作、轨迹或目标姿态。它的表达能力强,训练相对稳定,适合生成复杂连续动作序列。

比如生成一段机械臂轨迹、一个抓取姿态,或者一组未来动作。
image.png
图4 Diffusion Models 示意图

4. Categorical Models

这类方法把动作离散化,把动作变成选择题;用分类方式生成动作。

典型例子包括 action value map 和 GPT-style autoregressive models。前者适合视觉抓取任务,比如在图像上预测哪个像素位置最适合抓取;后者更接近语言模型的思路,把动作序列当成 token 序列来生成。

5. Mixture Density Models,MDM

MDM 用多个分布混合表示动作分布。

它适合表达“一个输入对应多个合理动作”的情况。比如同一个视觉状态下,机器人可以往不同方向操作,并且这些操作都有可能成功。

image.png
图4 MDM示意图


四、这些模型用在机器人哪里?

这篇综述还重点讨论了生成模型如何嵌入机器人系统。

常见用法有几类。

第一类是生成 末端执行器目标位姿
比如给机器人生成一个 6D 抓取姿态,再交给运动规划器生成路径。

第二类是生成 轨迹
扩散模型在这里很常见,可以直接生成一段未来动作序列,适合倒水、插入、食物处理这类连续操作任务。

第三类是生成 末端位移
这类方法常作为视觉运动策略,输入图像,输出机器人末端下一步该怎么移动。

第四类是生成 场景安排
比如给一句“set the table for dinner”,模型生成盘子、杯子、餐具应该摆放的位置,然后再由任务和运动规划器执行。
image.png
图5 生成模型集成到机器人任务中的几种方式

生成模型在机器人系统中的主要作用,是生成传统规则很难手写的关键变量。


五、这篇综述最重要的问题:泛化

机器人学习最怕训练时效果很好,换个物体、换个场景、换个角度就崩。

所以这篇综述专门讨论了 out-of-distribution generalization,分布外泛化

作者总结了几类重要思路。

第一,组合式建模
把多个行为模块组合起来,应对新任务和新约束。

第二,提取更有效的观测特征
图像、触觉、点云都很复杂。模型需要关注物体、接触、几何关系这些关键特征,减少背景、光照、相机位置等无关因素的影响。

第三,利用感知和动作之间的对称性
比如苹果在图像里平移 10 厘米,合理抓取点也应该跟着平移。action value map 这类方法就很适合利用这种空间结构。
image.png
图6 Action Value Map 空间对称性示意图

这部分很适合普通研究生重点阅读。

很多机器人论文真正的难点,在于让模型换场景之后还能保持可用。


六、未来方向怎么看?

这篇综述最后提到几个重要方向。

第一是 长时程任务
现在很多生成模型更适合短时程动作,复杂长任务还需要高层规划、语言模型或任务分解配合。

第二是 从视频示范中学习
真实机器人数据很贵,互联网上有大量人类操作视频。问题在于,视频里没有机器人的真实动作标签,而且人和机器人的身体结构也不同。

第三是 从合成数据中学习
仿真可以生成大量数据,但 sim-to-real gap 仍然是绕不开的问题。

第四是 更强泛化能力
未来模型需要更好地结合结构先验、3D 信息和互联网知识,让机器人适应没见过的新物体、新环境和新任务。


七、论文画像

应用范围: 这篇综述覆盖机器人模仿学习、行为克隆、抓取、轨迹生成、场景安排和多模态策略学习,适用面比较宽。

复现友好度: 作为综述本身不需要复现实验,但沿着具体方法做课题时,复现门槛会因模型类型和机器人平台差异很大。

方法新颖度: 这篇属于综述论文,价值主要在系统梳理 DGM 在机器人学习中的模型类别、应用方式和泛化设计。

思维借鉴度: 非常适合作为开题和选题地图,尤其适合想做机器人学习、模仿学习、扩散策略、多模态操作的研究生。

技术完整度: 综述结构比较完整,从问题定义、模型分类、机器人应用、泛化策略到未来方向都有覆盖。

实验充分性: 这是综述论文,不以单一实验验证为主;它的充分性体现在文献覆盖、分类框架和问题归纳上。


最后总结

这篇 TRO 综述最值得记住的一点是:

机器人从示范中学习,核心在于学习复杂示范背后的动作分布。

对普通工科研究生来说,这篇文章很适合当作方向地图。

如果你想做机器人学习,但还不知道从哪里切入,可以顺着这篇综述去看几个方向:

扩散策略;
动作价值图;
轨迹生成;
6D 抓取姿态生成;
多模态示范学习;
分布外泛化。

如果只记住一句话:

好的机器人生成模型,需要在没见过的新场景里生成仍然有用的动作。

关注我,获取更多相关资讯。
在这里插入图片描述

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐