快速了解部分

基础信息(英文):

  1. 题目: Prediction with Action: Visual Policy Learning via Joint Denoising Process
  2. 时间年月: 2024年12月 (NeurIPS 2024)
  3. 机构名: Tsinghua University, Shanghai Qi Zhi Institute, Shanghai AI Lab, University of California, Berkeley
  4. 3个英文关键词: Diffusion Models, Visual Policy Learning, Joint Denoising

1句话通俗总结本文干了什么事情

本文提出了一种名为 PAD 的新框架,让机器人通过一个统一的“去噪”过程同时学会“预测未来画面”和“生成动作”,从而让机器人看懂物理世界并更聪明地操作物体。

研究痛点:现有研究不足 / 要解决的具体问题

现有的机器人学习方法通常将“视觉预测”(看懂物理规律)和“动作控制”(怎么动)分开处理,或者分两步进行(先预测再规划)。这导致动作无法充分利用视觉模型中蕴含的丰富物理知识,且难以从互联网上的纯视频数据(无动作数据)中直接学习。

核心方法:关键技术、模型或研究设计(简要)

核心方法是 PAD(Prediction with Action Diffuser)框架。它利用 Diffusion Transformer (DiT) 架构,将图像、机器人状态和语言指令编码成 Token,通过一个联合的去噪过程,同时预测未来的图像帧和机器人的动作序列。

深入了解部分

相比前人创新在哪里

  1. 统一联合预测:不同于以前将预测和动作分开或分两步走(先生成图再学动作),PAD 在同一个数学过程中同时处理图像和动作的生成。
  2. 多模态共训练:PAD 可以灵活地在同一个模型中混合训练“有动作的机器人数据”和“无动作的互联网视频数据”,让机器人从海量视频中学习物理常识。
  3. 架构通用性:采用了 DiT(Transformer 架构)替代传统的 U-Net,能更灵活地处理图像、深度、动作等多种模态的拼接和缺失。

解决方法/算法的通俗解释

想象一下,机器人不是直接想着“怎么动”,而是同时在脑子里“想象”未来的画面会变成什么样以及“我该怎么动”。PAD 就像给机器人装了一个“预演大脑”,它通过不断去除“噪声”来清晰地构想出未来的场景和自己的动作,这两个过程是同步发生且相互促进的。

解决方法的具体做法

  1. 编码:将当前的图像、机器人状态和语言指令编码成向量,并与代表未来的“噪声”混合。
  2. 联合去噪:使用 DiT 模型同时对未来的图像 Latent 和未来的动作向量进行去噪预测。
  3. 执行:模型预测出未来几步的画面和动作,但机器人只执行第一步动作,然后根据新看到的画面重复这个过程(闭环控制)。
  4. 训练策略:先在大规模互联网视频数据上预训练图像预测能力,再迁移到机器人数据上进行微调。

基于前人的哪些方法

Diffusion Policy:基于去噪原理生成动作的机器人控制策略。
Latent Diffusion Models / DiT:基于 Transformer 的扩散模型图像生成架构。
Image Generation Pre-training:利用大规模图像/视频数据预训练视觉理解能力的思想(如 Stable Diffusion 等原理)。

实验设置、数据、评估方式、结论

  1. 实验设置:在模拟环境 MetaWorld(50个任务)和真实世界的机械臂操作(按钮、开柜子等)中进行测试。
  2. 数据:使用了机器人演示数据(Drobot)和互联网视频数据(BridgeData-v2, Dvideo)进行混合训练。
  3. 评估方式:任务成功率(Success Rate)。
  4. 结论
    • 在 MetaWorld 上,PAD 仅用单个策略就解决了所有50个任务,成功率比之前的基线(如 Diffusion Policy, RT-1/2, GR-1)提高了 26.3%
    • 在真实世界任务中,PAD 也表现出更强的泛化能力,尤其是在未见过的新物体和新任务上,成功率比最强基线提高了 28.0%

提到的同类工作

  1. Diffusion Policy:经典的基于扩散模型的机器人动作生成方法。
  2. RT-1 / RT-2:基于 Transformer 的大规模机器人视觉语言模型。
  3. GR-1:利用自回归模型预测未来图像和动作的类似工作。
  4. SuSIE:利用预训练图像编辑模型生成目标图像,再训练策略的两阶段方法。

和本文相关性最高的3个文献

  1. Diffusion Policy (Chi et al., 2023):这是本文最直接的对比基准,PAD 在其基础上增加了视觉预测分支。
  2. Scalable Diffusion Models with Transformers (DiT) (Peebles & Xie, 2023):本文所采用的核心骨干网络架构,使得多模态联合处理成为可能。
  3. Unleashing large-scale video generative pre-training for visual robot manipulation (GR-1) (Wu et al., 2023):同样是探索视觉生成辅助机器人控制的近期工作,但采用了不同的自回归架构,是本文的重要对比对象。

我的

  1. 为什么一定要生成视频而不是只生成action:
    可以从视频中学习隐式物理知识;可以利用庞大互联网数据(只训生成视频部分的模型);生成的视频为机器人动作提供可解释性。
Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐