快速了解部分

基础信息(英文):

1.题目: A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning
2.时间: 2025.09
3.机构: Shanghai AI Lab
4.3个英文关键词: Vision-Language-Action (VLA), Real-World Reinforcement Learning (RL), Dense Reward

1句话通俗总结本文干了什么事情

本文提出了一种名为VLAC的模型,它能让机器人通过“看”和“理解”任务描述来给自己打分(奖励),从而在真实世界中通过自我尝试和犯错来学习如何完成各种复杂动作,而不需要人类为每个任务单独设计打分规则。

研究痛点:现有研究不足 / 要解决的具体问题

  1. 奖励函数稀疏且手工设计困难:真实世界强化学习通常依赖稀疏的最终成功/失败信号,或者需要为每个特定任务手工设计复杂的奖励函数(Reward Shaping),这既昂贵又缺乏通用性。
  2. 探索效率低与泛化能力弱:现有的VLA模型主要依赖模仿学习,难以处理未见过的任务或环境变化;而现有的奖励模型往往无法很好地泛化到新任务,且难以区分失败或停滞的轨迹。
  3. 缺乏统一架构:现有的方法通常将“策略”(决定怎么做)和“批评家”(评价做得怎么样)分开,导致集成困难。

核心方法:关键技术、模型或研究设计(简要)

提出了 VLAC (Vision-Language-Action-Critic) 模型:

  1. 统一模型:基于InternVL构建,同一个模型既负责生成动作(Actor),也负责评估任务进度给出奖励(Critic)。
  2. 成对进度理解(Pair-wise Progress Understanding):模型接收两张图片(前后状态)和语言指令,输出一个进度差值(Delta)作为密集奖励信号。
  3. 真实世界RL框架:结合PPO算法,利用VLAC提供的密集奖励进行策略优化,并引入分级的人机交互机制(如离线演示回放)来加速学习。

深入了解部分

相比前人创新在哪里

  1. 一体化设计:首次在一个自回归架构中统一了VLA策略和进度批评家,无需针对不同任务设计特定的奖励模型。
  2. 强大的泛化能力:通过大规模异构数据(包含人类视频和机器人数据)训练,实现了零样本(Zero-shot)和上下文学习(In-context learning)能力,能直接迁移到未见过的任务和环境中。
  3. 密集内在奖励:利用成对图像对比生成密集的进度奖励,解决了真实世界中缺乏传感器反馈和奖励稀疏的问题。

解决方法/算法的通俗解释

想象一个学开车的机器人,通常需要教练(奖励函数)时刻打分。VLAC模型相当于给机器人装了一个“懂任务的AI教练”。

  • 怎么看:AI教练同时看两张照片,一张是机器人操作前的样子,一张是操作后的样子。
  • 怎么评:AI教练结合“把碗拿起来”这个指令,判断第二张照片是不是比第一张更接近目标。如果是,就给正分(奖励);如果是乱动,就给负分(惩罚)。
  • 怎么做:机器人根据这个分数不断调整动作,分数越高动作越好,直到学会任务。

解决方法的具体做法

  1. 数据构建
    • 将视频切分为成对的图像帧(Pair-wise),计算时间差作为进度标签。
    • 混合了大规模人类视频数据(Ego4D等)、公开机器人数据(Bridge, Droid等)和VQA数据。
    • 构造了负样本(如倒退的动作、语义不匹配的描述)来增强模型对失败的识别。
  2. 模型训练
    • Critic部分:训练模型预测两帧图像间的进度差值(Delta Progress)和任务完成标志(Done Signal)。
    • Actor部分:训练模型输出具体的机械臂控制指令(Delta Pose)。
  3. RL部署
    • 在真实环境中,VLAC模型交替生成奖励和动作。
    • 使用PPO算法更新策略。
    • 引入“人机回路”:包括离线演示回放、人工重置到难点位置探索(Return and Explore)、人工引导探索(Human Guided Explore)。

基于前人的哪些方法

  1. 基础模型:基于 InternVL(一个先进的视觉语言模型)进行构建。
  2. RL算法:采用了 PPO (Proximal Policy Optimization) 算法进行策略优化。
  3. 奖励机制:借鉴了时间对比学习(Time-Contrastive)的思想,通过成对样本学习进度。

实验设置、数据、评估方式、结论

  • 数据:混合了4000+小时的人类数据、1200小时的公开机器人数据和自采数据。
  • 设置:在4个真实世界的操作任务中测试(舀米转移、铺 mats、端碗放置、桌面清扫),使用AGILE PiPER机械臂。
  • 评估
    • Critic:使用VOC(Value-Order Correlation)评估预测进度与实际时间顺序的相关性。
    • Actor:使用任务成功率(Success Rate)。
  • 结论
    • VLAC在未见过的任务上表现出强泛化能力(One-shot)。
    • 在真实世界RL中,成功率从基线的约30%提升至90%(200个回合内)。
    • 引入人工干预后,样本效率提高50%,最终可达到100%成功率。

提到的同类工作

  • RT-1 / RT-2 (Brohan et al.): 谷歌的机器人Transformer模型,通常依赖模仿学习。
  • OpenVLA (Kim et al.): 开源的VLA模型。
  • VIP / GVL (Ma et al.): 基于视觉表示学习的奖励方法(如对比学习)。
  • ReBoot / SERL (Hu et al., Luo et al.): 强调样本效率和人机回路的机器人RL框架。

和本文相关性最高的3个文献

  1. InternVL (被作为基础模型架构,是本文模型的根基)。
  2. VIP (Value-Implicit Pre-training) (Ma et al.): 本文在评估部分多次对比了此类基于视觉表示学习的奖励模型,作为主要的竞争或参考基准。
  3. SERL / ReBoot (Luo et al., Hu et al.): 本文在“人机回路”和“真实世界RL框架”设计上参考了这些工作,特别是关于如何利用人类干预加速学习的部分。

我的

主要核心点是把critic集成到一个模型,而且GT label是自动的,Reward不是人工打标签。是按照任务进度来,给2帧,如果正向进展那就是Reward,如果反向了,那就是惩罚。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐