港科大等团队提出WMPO：基于世界模型的VLA策略优化框架

香港科技大学和字节跳动Seed团队联合提出了WMPO（世界模型驱动的策略优化框架），通过像素级视频生成世界模型实现VLA（视觉-语言-动作）模型的无真实环境交互on-policy强化学习，显著提升样本效率、任务性能、泛化能力与终身学习能力，同时涌现出自修正等高级行为。

Tom Hardy

693人浏览 · 2025-12-28 17:19:25

Tom Hardy · 2025-12-28 17:19:25 发布

论文标题：WMPO: World Model-based Policy Optimization for Vision-Language-Action Models
论文链接：https://arxiv.org/pdf/2511.09515
项目主页：https://wm-po.github.io/

原文链接：港科大等团队提出WMPO：基于世界模型的VLA策略优化框架

研究背景与核心痛点

VLA模型是通用机器人操作的关键范式，但主流模仿学习范式存在固有缺陷：面对训练中未见过的分布外状态时易出错，且无法从失败中学习和自修正（figure 1a）。
强化学习虽能通过环境交互实现自改进，但直接应用于真实机器人时样本效率极低，需数百万次交互，既不切实际也存在安全风险（figure 1b）。

现有解决方案难以兼顾规模化与有效性：人类干预引导学习需持续监督，难以扩展；模拟器适配多样场景成本高；传统 latent 空间世界模型与VLA的web-scale预训练视觉特征存在天然错位，无法充分利用预训练知识。

核心框架：WMPO 整体设计

WMPO的核心逻辑是将VLA策略优化完全置于“想象”空间——基于高保真像素级世界模型生成轨迹，替代真实环境交互，同时支持更强的on-policy强化学习。整体流程遵循“想象轨迹生成→轨迹采样评估→策略更新”的迭代循环（figure 2）。

关键模块详解

生成式世界模型

核心作用是模拟机器人与环境的动态变化，生成与VLA预训练特征对齐的视觉轨迹，为策略优化提供可靠“虚拟训练场”。

结构设计：基于OpenSora的视频扩散骨干，将3D VAE替换为SDXL的2D VAE，更好保留细粒度运动细节，避免时间维度失真；扩散过程在VAE latent空间进行，优化时解码回像素空间以匹配VLA预训练习惯。
轨迹生成逻辑：给定初始c帧图像和语言指令，策略预测长度为K的动作块，世界模型基于前c帧和动作块生成下K帧；重复该过程直至生成完整轨迹（长度N）。
关键优化手段：
- 策略行为对齐：先在Open X-Embodiment大规模机器人轨迹数据集预训练，再用策略自身收集的真实轨迹微调，弥补专家演示中失败场景的缺失，让模型能精准模拟成功与失败模式。
- 长horizon生成保障：引入噪声帧条件（训练时对条件帧添加扩散噪声）提升鲁棒性，采用帧级动作控制（通过扩展AdaLN块注入动作信号和扩散时间步嵌入）解决动作-帧错位问题，实现数百帧无质量损失的轨迹生成。

轻量级奖励模型

核心作用是自动判断想象轨迹的任务成败，提供稀疏奖励信号，避免复杂奖励塑造和奖励攻击。

训练方式：以VideoMAE为编码器，搭配线性输出头，采用二分类交叉熵损失训练；正样本为成功轨迹的终端片段，负样本来自成功轨迹的非终端片段和失败轨迹的任意片段，训练时平衡正负样本比例。
推理逻辑：用滑动窗口遍历轨迹，计算每个片段的成功概率，若任一片段概率超过阈值，则判定整个轨迹成功。

On-Policy 策略优化（GRPO）

选择Group Relative Policy Optimization作为优化算法，适配稀疏奖励场景，兼顾稳定性与扩展性。

动态采样策略：从真实环境初始状态出发，生成G条想象轨迹，过滤掉全成功或全失败的轨迹组，避免梯度消失，确保训练样本的有效性。
优化目标：
$\mathcal{J}(\theta) = \mathbb{E}_{s_0 \sim \mathcal{D}, \{\tau_i\}_{i=1}^G \sim \pi_{\theta_{old}}} \left[ \frac{1}{G} \sum_{i=1}^G \frac{1}{T} \sum_{t=0}^T \min\left( r_{i,t}(\theta) \hat{A}_i, \text{clip}(r_{i,t}(\theta), 1-\epsilon_{low}, 1+\epsilon_{high}) \hat{A}_i \right) \right]$
其中 $r_{i,t}(\theta) = \frac{\pi_{\theta}(a_{i,t} | s_{i,t})}{\pi_{\theta_{old}}(a_{i,t} | s_{i,t})}$ 为新旧策略的概率比， $\hat{A}_i = \frac{R_i - \text{mean}(\{R_i\})}{\text{std}(\{R_i\})}$ 为轨迹的归一化优势值。
无KL正则化设计：减少内存消耗，同时鼓励策略探索新颖且有效的行为。

核心创新点

像素空间优先：摒弃传统 latent 空间世界模型，直接在像素空间生成轨迹，完美匹配VLA的预训练视觉特征，充分释放预训练知识的价值。
策略行为对齐：通过策略自身轨迹微调世界模型，解决专家演示与策略实际行为的分布错位问题，让“想象”更贴近真实执行。
长轨迹生成技术：噪声帧条件+帧级动作控制，突破长horizon视频生成的视觉失真和动作错位瓶颈。
无真实交互的on-policy RL：依托世界模型实现大规模轨迹采样，既规避真实环境的高成本，又享受on-policy方法的性能优势，超越主流off-policy方案。

实验验证与关键结果

模拟环境性能（Mimicgen平台）

对比GRPO、DPO等基线方法，WMPO在4个精细操作任务（Coffee_D0、StackThree_D0等）中均表现最优（table 1）。

样本效率突出：rollout预算仅128时，平均成功率47.1%，超最强基线9.8个百分点；预算提升至1280时，平均成功率达57.6%，优势扩大至15.2个百分点，证明其能高效利用额外数据。

真实环境验证（Cobot Mobile ALOHA平台）

在“方块插入杆子”任务（间隙仅5mm）中，WMPO成功率70%，显著高于基础策略（53%）和DPO（60%）；世界模型能精准预测真实轨迹的演化，即使未见过该轨迹也能捕捉核心动态（figure 7）。

涌现行为

自修正能力：面对碰撞等失败状态，能自主调整动作（如抬起方块重新对齐），而基线策略会持续错误动作直至超时（figure 3）。

高效执行：成功轨迹长度显著短于基线，避免“卡壳”现象，动作更流畅（figure 5）。

泛化能力

在空间扰动（杆子随机位置）、背景替换、纹理替换三种分布外场景中，WMPO平均成功率29.6%，优于所有基线（最高24.7%），证明其学习的是通用操作技能而非虚假视觉线索（table 2、figure 4）。

终身学习

迭代收集128条轨迹进行优化，性能持续稳定提升；而DPO训练不稳定，无法实现迭代改进，且WMPO无需人类标注，比依赖更多专家演示的基线更具扩展性（figure 6）。

结论与意义

WMPO构建了“世界模型+on-policy RL”的VLA优化新范式，核心价值在于解决了真实环境交互成本高、样本效率低的行业痛点。通过像素级世界模型与VLA预训练特征的精准对齐，以及创新的长轨迹生成和策略优化设计，实现了性能、泛化性、终身学习能力的全面提升，同时涌现出自修正等高级行为，为通用机器人操作的规模化落地提供了可行路径。未来可扩展至流基策略，适配更多动作空间类型。

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

【TextIn大模型加速器 + 火山引擎】赋能机器人行业分析与VLA研究

DAMO开发者矩阵

2025年小目标检测技术全面总结：从理论突破到工业应用

2025年小目标检测技术取得显著突破，但仍面临特征稀缺、尺度不匹配等核心挑战。研究聚焦多尺度特征融合、注意力机制和频域特征挖掘，YOLO系列和Transformer-CNN混合架构展现出优异性能。领域专用方案在遥感、无人机和医疗影像检测中表现突出。未来将向轻量化、多模态融合方向发展，但极端密集场景适配和速度-精度平衡仍是难题。该技术为自动驾驶、医疗诊断等关键领域提供了重要支持。