# TRO 2026|机器人学也开始疯狂用生成模型了?
哈喽大家好,我是疯狂读论文的戴夫。今天继续啃一篇论文,让自己的脑子艮揪一点!
这几年机器人学习里有一个很明显的趋势:机器人开始从大量示范数据里学习行为。
比如人类示范怎么抓取、怎么倒水、怎么整理桌面、怎么操作柔性物体,机器人再从这些示范中学习自己的动作策略。
但人类示范本身并不规整。
同一个任务,不同人可能有不同做法;同一个物体,可能有多种抓法;同一个目标,也可能对应多条可行轨迹。模型如果只学一个平均动作,就容易把多种正确行为“平均”成一个错误行为。
这篇 TRO 2026 综述讨论的就是这个问题:
机器人能不能用深度生成模型,更好地学习复杂、多模态的人类示范?
论文题目是:
A Survey on Deep Generative Models for Robot Learning From Multimodal Demonstrations
DOI:10.1109/TRO.2025.3631816
可以理解为:
面向多模态示范机器人学习的深度生成模型综述。
图1 综述结构图
一、这篇论文讲什么?
这是一篇综述论文,主要梳理一个方向:
深度生成模型如何帮助机器人从多模态示范中学习动作策略。
这里有两个关键词。
第一个是 Learning from Demonstrations,LfD,从示范中学习。
简单说,就是机器人通过专家示范学习行为。它和模仿学习、行为克隆、逆强化学习这些概念关系很近。
第二个是 Deep Generative Models,DGM,深度生成模型。
它的作用是学习复杂数据分布,并从中生成新的样本。在机器人里,这个“样本”可以是动作、轨迹、抓取姿态、目标场景,甚至是视频或子目标。
机器人学习需要生成模型,一个重要原因是示范数据天然具有多种可能性。
同一个杯子可以从左边抓,也可以从右边抓;同一个抽屉可以快点拉,也可以慢点拉;同一个整理桌面的任务,也可能存在多种合理顺序。
生成模型的价值在于:它可以学习“多种可能的正确答案”。
二、现有方法卡在哪里?
传统行为克隆方法经常把机器人策略学成一个确定动作,或者一个简单分布。
在数据干净、任务单一时,这类方法还能工作。但机器人示范通常更复杂。
示范者不同,动作习惯不同;
传感器输入复杂,可能包含图像、点云、触觉、语言;
动作空间不统一,可能是末端位姿、轨迹、关节控制或目标场景;
任务存在长时序依赖,前面的小误差会在后面不断放大;
训练数据和真实部署环境之间还存在分布偏移。
所以这篇综述的核心切入点是:
机器人学习需要建模复杂示范数据背后的分布结构。
这也是深度生成模型进入机器人学习的重要原因。
三、作者怎么分类?
这篇综述把机器人学习中常见的深度生成模型分成五类。
1. Sampling Models
直接生成一个动作;包括 VAE、GAN、Normalizing Flow 等。
这类模型的特点是:给一个随机变量,就能直接生成动作或姿态,推理速度通常比较快。
在机器人中,它们常用于生成抓取姿态、逆运动学解、初始采样点,或者作为强化学习里的行为先验。
图2 Sampling Models 示意图
2. Energy-Based Models,EBM
EBM 的工作方式是给候选动作打分,判断这个动作“好不好”。
它的优势是可以组合多个目标,比如接近示范、避障、满足任务约束。缺点是采样通常更慢,经常需要优化或 MCMC 过程。
图3 EBM 示意图
3. Diffusion Models
从噪声慢慢修成动作;扩散模型这几年在机器人里非常火。
它通过“从噪声一步步去噪”的方式生成动作、轨迹或目标姿态。它的表达能力强,训练相对稳定,适合生成复杂连续动作序列。
比如生成一段机械臂轨迹、一个抓取姿态,或者一组未来动作。
图4 Diffusion Models 示意图
4. Categorical Models
这类方法把动作离散化,把动作变成选择题;用分类方式生成动作。
典型例子包括 action value map 和 GPT-style autoregressive models。前者适合视觉抓取任务,比如在图像上预测哪个像素位置最适合抓取;后者更接近语言模型的思路,把动作序列当成 token 序列来生成。
5. Mixture Density Models,MDM
MDM 用多个分布混合表示动作分布。
它适合表达“一个输入对应多个合理动作”的情况。比如同一个视觉状态下,机器人可以往不同方向操作,并且这些操作都有可能成功。

图4 MDM示意图
四、这些模型用在机器人哪里?
这篇综述还重点讨论了生成模型如何嵌入机器人系统。
常见用法有几类。
第一类是生成 末端执行器目标位姿。
比如给机器人生成一个 6D 抓取姿态,再交给运动规划器生成路径。
第二类是生成 轨迹。
扩散模型在这里很常见,可以直接生成一段未来动作序列,适合倒水、插入、食物处理这类连续操作任务。
第三类是生成 末端位移。
这类方法常作为视觉运动策略,输入图像,输出机器人末端下一步该怎么移动。
第四类是生成 场景安排。
比如给一句“set the table for dinner”,模型生成盘子、杯子、餐具应该摆放的位置,然后再由任务和运动规划器执行。
图5 生成模型集成到机器人任务中的几种方式
生成模型在机器人系统中的主要作用,是生成传统规则很难手写的关键变量。
五、这篇综述最重要的问题:泛化
机器人学习最怕训练时效果很好,换个物体、换个场景、换个角度就崩。
所以这篇综述专门讨论了 out-of-distribution generalization,分布外泛化。
作者总结了几类重要思路。
第一,组合式建模。
把多个行为模块组合起来,应对新任务和新约束。
第二,提取更有效的观测特征。
图像、触觉、点云都很复杂。模型需要关注物体、接触、几何关系这些关键特征,减少背景、光照、相机位置等无关因素的影响。
第三,利用感知和动作之间的对称性。
比如苹果在图像里平移 10 厘米,合理抓取点也应该跟着平移。action value map 这类方法就很适合利用这种空间结构。
图6 Action Value Map 空间对称性示意图
这部分很适合普通研究生重点阅读。
很多机器人论文真正的难点,在于让模型换场景之后还能保持可用。
六、未来方向怎么看?
这篇综述最后提到几个重要方向。
第一是 长时程任务。
现在很多生成模型更适合短时程动作,复杂长任务还需要高层规划、语言模型或任务分解配合。
第二是 从视频示范中学习。
真实机器人数据很贵,互联网上有大量人类操作视频。问题在于,视频里没有机器人的真实动作标签,而且人和机器人的身体结构也不同。
第三是 从合成数据中学习。
仿真可以生成大量数据,但 sim-to-real gap 仍然是绕不开的问题。
第四是 更强泛化能力。
未来模型需要更好地结合结构先验、3D 信息和互联网知识,让机器人适应没见过的新物体、新环境和新任务。
七、论文画像
应用范围: 这篇综述覆盖机器人模仿学习、行为克隆、抓取、轨迹生成、场景安排和多模态策略学习,适用面比较宽。
复现友好度: 作为综述本身不需要复现实验,但沿着具体方法做课题时,复现门槛会因模型类型和机器人平台差异很大。
方法新颖度: 这篇属于综述论文,价值主要在系统梳理 DGM 在机器人学习中的模型类别、应用方式和泛化设计。
思维借鉴度: 非常适合作为开题和选题地图,尤其适合想做机器人学习、模仿学习、扩散策略、多模态操作的研究生。
技术完整度: 综述结构比较完整,从问题定义、模型分类、机器人应用、泛化策略到未来方向都有覆盖。
实验充分性: 这是综述论文,不以单一实验验证为主;它的充分性体现在文献覆盖、分类框架和问题归纳上。
最后总结
这篇 TRO 综述最值得记住的一点是:
机器人从示范中学习,核心在于学习复杂示范背后的动作分布。
对普通工科研究生来说,这篇文章很适合当作方向地图。
如果你想做机器人学习,但还不知道从哪里切入,可以顺着这篇综述去看几个方向:
扩散策略;
动作价值图;
轨迹生成;
6D 抓取姿态生成;
多模态示范学习;
分布外泛化。
如果只记住一句话:
好的机器人生成模型,需要在没见过的新场景里生成仍然有用的动作。
关注我,获取更多相关资讯。
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐


所有评论(0)