论文题目

VLA-RFT: VISION-LANGUAGE-ACTION REINFORCEMENT FINE-TUNING WITH VERIFIED REWARDS IN
WORLD SIMULATORS

摘要

 Vision-Language-Action (VLA) models enable embodied decision-making but rely heavily on imitation learning, leading to compounding errors and poor robustness under distribution shift.
 Reinforcement learning (RL) can mitigate these issues yet typically demands costly real-world interactions or suffers from sim-to-real gaps.
 We introduce VLA-RFT, a Reinforcement Fine-Tuning framework that leverages a data-driven world model as a controllable simulator. Trained from real interaction data, the simulator predicts future visual observations conditioned on actions, allowing policy rollouts with dense, trajectory-level rewards derived from goal-achieving references.
 This design delivers an efficient and action-aligned learning signal, drastically lowering sample requirements. With fewer than 400 fine-tuning steps, VLA-RFT surpasses strong supervised baselines and achieves greater efficiency than simulator-based RL.
 Moreover, it exhibits strong robustness under perturbed conditions, sustaining stable task execution. Our results establish world-model-based RFT as a practical post-training paradigm to enhance the generalization and robustness of VLA models.

结论

 In this work, we introduced VLA-RFT, a reinforcement fine-tuning framework that uses a learned world model as a controllable simulator. This approach enables efficient and safe policy optimization, bridges imitation and reinforcement learning, and reduces real-world interaction costs.
 Experiments show strong performance and generalization with minimal fine-tuning, highlighting world-model–based RFT as a promising direction for VLA research.
 Nevertheless, several limitations remain.
 First, the verified reward is primarily based on the similarity between generated trajectories and expert demonstrations, constraining policies by dataset quality and limiting the discovery of strategies beyond expert performance.
 Second, the representational capacity of the world model remains a bottleneck; scaling to larger models trained on more diverse data could improve out-of-distribution generalization.
 Third, our framework does not explicitly integrate the world model into planning, which could enhance long-horizon reasoning.
 Finally, the reward mechanism itself could be improved—for example, by leveraging learned reward models (e.g., VLAC (Zhai et al., 2025)) to provide more task-relevant feedback. Extending the framework to a broader class of policy architectures also represents an important direction for future work.

我来详细分析这篇题为 “VLA-RFT: Vision-Language-Action Reinforcement Fine-Tuning with Verified Rewards in World Simulators” 的论文。

一、研究背景与核心问题

1.1 领域背景

Vision-Language-Action (VLA) 模型 是当前机器人学习领域的前沿方向,它通过将视觉感知、语言理解和动作控制统一在一个框架中,实现通用机器人控制。现有主流方法(如 RT-1、RT-2、OpenVLA、π0 等)主要依赖模仿学习(Imitation Learning)

1.2 核心痛点

论文指出了当前 VLA 训练的三大关键问题:

问题 具体表现
误差累积 模仿学习在分布偏移下,微小偏差会逐步将策略推向不熟悉的状态
样本效率低 基于仿真的 RL 需要数百万次交互,且存在严重的 sim-to-real 差距
真实世界训练成本高昂 直接在物理世界中训练存在安全风险和巨大的时间/经济成本

1.3 核心洞察

论文提出了一个关键观察:世界模型(World Model)可以作为数据驱动的、可控的仿真器,既能避免真实世界训练的风险,又能提供比传统仿真器更丰富的交互信号。


二、方法框架:VLA-RFT

2.1 整体架构

VLA-RFT 采用两阶段训练范式

┌─────────────────────────────────────────────────────────────┐
│  Stage I: 预训练阶段 (Pre-Training)                          │
│  ├── 世界模型 (WM): 学习环境动力学,预测未来视觉状态            │
│  └── VLA 策略: 基于模仿学习,生成稳定的动作块                  │
│                      ↓                                       │
│  Stage II: 强化微调阶段 (RFT)                                │
│  ├── VLA 生成动作序列 → 世界模型交互式推演 → 生成视觉轨迹      │
│  └── 基于验证奖励的 GRPO 优化                                 │
└─────────────────────────────────────────────────────────────┘

2.2 关键技术组件

组件 1: 世界模型 (World Model)
  • 架构: 基于 LLaMA 的自回归 Transformer(138M 参数)
  • 输入: 初始图像 + 动作序列(离散化为 token)
  • 输出: 未来 T 帧的视觉预测
  • 训练目标: 最大似然估计(MLE)

L M L E W M ( ϕ ) = − E [ log ⁡ p ϕ ( o i + 1 ∣ o i , a i ) + ∑ t = 1 T − 1 log ⁡ p ϕ ( o i + t + 1 ∣ o i : i + t , a i : i + t ) ] \mathcal{L}_{MLE}^{WM}(\phi) = -\mathbb{E}\left[\log p_\phi(o_{i+1}|o_i, a_i) + \sum_{t=1}^{T-1}\log p_\phi(o_{i+t+1}|o_{i:i+t}, a_{i:i+t})\right] LMLEWM(ϕ)=E[logpϕ(oi+1oi,ai)+t=1T1logpϕ(oi+t+1oi:i+t,ai:i+t)]

组件 2: SDE-Policy(随机微分方程策略)

为了解决流匹配(Flow Matching)作为确定性 ODE 过程无法直接获得对数似然的问题,论文创新性地引入了Sigma Net

  • Flow Head: 预测确定性流场 v θ \mathbf{v}_\theta vθ
  • Sigma Net: 预测方差 σ ψ k \sigma_\psi^k σψk,引入随机性
  • 前向欧拉离散化(K=10 步):
    μ k = a i : i + T − 1 k δ + δ ⋅ v θ ( ⋅ ) \mu_k = a_{i:i+T-1}^{k\delta} + \delta \cdot \mathbf{v}_\theta(\cdot) μk=ai:i+T1kδ+δvθ()
    a i : i + T − 1 k δ ∼ N ( μ k , Σ k ) , Σ k = ( σ ψ k ) 2 a_{i:i+T-1}^{k\delta} \sim \mathcal{N}(\mu_k, \Sigma_k), \quad \Sigma_k = (\sigma_\psi^k)^2 ai:i+T1kδN(μk,Σk),Σk=(σψk)2
组件 3: 验证奖励 (Verified Reward)

这是论文的核心创新之一。奖励由两部分组成:

R = − ∑ t = 0 T − 1 [ λ 1 ⋅ L 1 ( o ^ i + t + 1 , o i + t + 1 ) + λ l p ⋅ L L P I P S ( o ^ i + t + 1 , o i + t + 1 ) ] R = -\sum_{t=0}^{T-1}\left[\lambda_1 \cdot L_1(\hat{o}_{i+t+1}, o_{i+t+1}) + \lambda_{lp} \cdot L_{LPIPS}(\hat{o}_{i+t+1}, o_{i+t+1})\right] R=t=0T1[λ1L1(o^i+t+1,oi+t+1)+λlpLLPIPS(o^i+t+1,oi+t+1)]

奖励组件 作用
Pixel Reward (MAE/L1) 像素级重建精度
Perception Reward (LPIPS) 感知相似性,捕捉高层语义

关键设计: 策略动作和专家动作都在同一个世界模型中生成轨迹,消除了生成质量的系统性偏差。

组件 4: GRPO 优化

采用 Group Relative Policy Optimization:

  • 从同一初始状态采样 N 个 rollout
  • 组内相对优势: A d v n = R n − R ˉ g r o u p Adv_n = R_n - \bar{R}_{group} Advn=RnRˉgroup
  • 裁剪目标函数 + 辅助 MSE 损失 + 熵正则化

L G R P O V L A ( θ , ψ ) = − E [ clip ( r , 1 − ϵ , 1 + ϵ ) ⋅ A d v ] + λ m s e L M S E V L A ( θ ) − α H ( π θ , ψ ) \mathcal{L}_{GRPO}^{VLA}(\theta,\psi) = -\mathbb{E}[\text{clip}(r, 1-\epsilon, 1+\epsilon) \cdot Adv] + \lambda_{mse}\mathcal{L}_{MSE}^{VLA}(\theta) - \alpha \mathbb{H}(\pi_{\theta,\psi}) LGRPOVLA(θ,ψ)=E[clip(r,1ϵ,1+ϵ)Adv]+λmseLMSEVLA(θ)αH(πθ,ψ)


三、实验结果与分析

3.1 实验设置

  • 基准: LIBERO(4 个任务套件:Spatial, Object, Goal, Long)
  • 硬件: 4× A800 GPU
  • 对比基线: VLA-Adapter(Flow-matching 版本)

3.2 核心结果

结果 1: 样本效率的飞跃
方法 训练步数 平均成功率
Base-30k (SFT) 30K 77.5%
Base-150k (SFT) 150K 86.6%
VLA-RFT-400 400 91.1%

关键发现: 仅用 400 步 RL 微调(对比 150K 步 SFT),不仅超越了强监督基线,还将总训练量减少了 99.7%

结果 2: 分布外鲁棒性

在四种扰动设置下(物体位置、目标位置、机器人状态、组合扰动),VLA-RFT 均显著优于基线:

扰动类型 基线 (±5cm) VLA-RFT (±5cm) 提升
Object Pos 48.0% 52.5% +4.5%
Goal Pos 44.8% 51.5% +6.7%
RoboState 63.5% 67.0% +3.5%
Combined 34.0% 37.0% +3.0%

可视化分析(图 4)显示:VLA-RFT 的动作分布比 SFT 策略更宽广,表明更好的探索性和适应性。

结果 3: 奖励设计的消融实验
奖励类型 平均 SR 设计特点
Action Deviation Reward 87.7% 仅动作层面监督,无世界模型
Image Consistency Reward 87.1% 世界模型生成 vs 真实图像
Model-Based Image Consistency (Ours) 91.1% 同一世界模型内比较

结论: 世界模型不仅是"仿真器",更是公平的比较基准,消除了生成质量的系统性偏差。

3.3 真实世界验证

毛巾折叠任务(高度可变形的布料操作)上:

  • 20K SFT: 5/10 成功率
  • 80K SFT: 5/10 成功率(继续训练无提升)
  • 20K SFT + 200 RFT: 10/10 成功率

关键改进: RFT 显著减少了"抓取失败"和"过早掉落"等特定失败模式。


四、方法论的深层分析

4.1 与相关工作的对比

方法类型 代表工作 局限性 VLA-RFT 的优势
在线 RL VLA-RL, RIPT-VLA 需要真实环境交互,成本高 完全离线,安全高效
离线 RL ARFM, RWR, ReinboT 无法从自身行为学习,分布偏移敏感 世界模型提供交互式推演能力
基于世界模型的方法 DayDreamer, iVideoGPT 主要用于规划,未用于 VLA 微调 端到端优化 VLA 策略

4.2 理论贡献

  1. 验证奖励的形式化: 将世界模型同时作为动力学仿真器和奖励生成器,实现了"自洽"的奖励计算
  2. SDE-Policy 的构建: 将确定性流匹配扩展为随机过程,使 RL 中的探索-利用权衡成为可能
  3. 高效微调范式: 证明了少量 RL 步骤(400步)可以显著超越大量监督学习(150K步)

五、局限性与未来方向

论文坦诚地指出了以下局限:

局限 说明 潜在解决方向
奖励上限受限于专家数据 验证奖励基于与专家轨迹的相似性,难以超越专家 引入学习奖励模型(如 VLAC)
世界模型容量瓶颈 138M 参数可能限制复杂场景的泛化 Scaling Law:更大模型 + 更多数据
未集成规划模块 世界模型仅用于推演,未用于显式规划 结合 MPC/MCTS 等规划算法
策略架构限制 当前基于 VLA-Adapter,可扩展性待验证 适配 π0、Diffusion Policy 等

六、总结与评价

6.1 核心贡献

  1. 效率: 400 步 RL > 150K 步 SFT,样本效率提升 375 倍
  2. 性能: 在标准测试和扰动测试上均达到 SOTA
  3. 实用性: 完全离线训练,无需真实环境交互,安全可控
  4. 泛化性: 在仿真和真实世界任务上均验证有效

6.2 方法论意义

VLA-RFT 代表了一种**“世界模型即服务”(World Model as a Service)**的新范式:

  • 预训练阶段:一次性学习环境的"物理定律"
  • 微调阶段:利用世界模型进行无限次"想象"和优化
  • 部署阶段:策略可直接迁移到真实世界

这与人类学习过程高度相似:先在脑中建立世界模型,再通过想象和反思改进技能,最后在现实中执行。

6.3 影响与启发

该工作为 VLA 的后训练(Post-Training)提供了实用且可扩展的解决方案,特别是在以下场景具有巨大潜力:

  • 高风险操作(医疗手术、工业装配)
  • 高成本数据采集(太空探索、深海作业)
  • 快速适应新任务(家庭服务机器人)

论文最后呼吁:将世界模型作为 VLA 的通用后训练范式,以加速真实世界部署。这一愿景与当前 LLM 发展中"预训练 + 强化学习对齐"的成功路径高度一致,具有重要的战略意义。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐