可对标π∗0.6的GigaBrain-0.5M*——从基于世界模型的RL中学习的 VLA：通过“预测的价值和未来状态、经验数据、人工纠正”迭代优化动作策略

v_JULY_v

328人浏览 · 2026-02-16 12:11:48

v_JULY_v · 2026-02-16 12:11:48 发布

前言

如果说上一篇文章介绍的，可对标π0.5，那么此文介绍的GigaBrain-0.5M*，便可对标π0.6

第一部分

1.1 引言与相关工作

1.1.1 引言

如原论文所说，主流 VLA 架构中仍然存在一个根本性的局限：它们在长时程动作规划中对短视观测的过于依赖，这一缺陷源于体系结构在设计上偏向于反应式控制，而非前瞻性规划

相反，在大规模视频语料库上训练的基础世界模型已经展示出在预测合理未来状态方面的非凡能力，这类预测先验为赋予 VLA 前瞻能力提供了一条途径

对此，来自的研究者提出 GigaBrain-0.5M*，这是一种通过基于世界模型的强化学习训练得到的 VLA 模型

具体而言，GigaBrain-0.5M* 在 GigaBrain-0.5M(最新的、在超过 1 万小时真实世界机器人交互数据上预训练的 VLA)基础上，受π∗0.6 中的RECAP（Intelligence et al.,2025）启发，引入 RAMP（Reinforcement leArning via world Model-conditioned Policy）

RAMP 流水线包含四个迭代阶段：

使用大规模机器人操作数据预训练世界模型，使其能够预测价值和未来状态
在世界模型所预测的价值和未来状态条件下，对策略进行微调以生成动作
将策略部署到真实环境中，在人类在环干预的情况下生成机器人的执行轨迹（rollout）数据
利用这些 rollout 数据持续训练世界模型和策略

这种迭代训练范式使系统能够实现自我提升

π∗0.6 中的RECAP和GigaBrain-0.5M*中的RAMP 这两种方法都使用额外信息作为VLA 模型的条件

然而，RECAP 仅使用稀疏优势（0 or 1）作为输入，所提供的信息增益有限
详见此π∗0.6解读一文的「1.3 基于RECAP的π∗0.6的实现、模型与系统细节」
相比之下，GigaBrain-0.5M*提出的RAMP 利用经过良好预训练的世界模型所预测的未来状态，从而带来可观的信息增益

此外，作者在理论上验证了RECAP 是RAMP 的一个特例

1.1.2 相关工作

首先，对于视觉-语言-动作模型

近年来，基础语言模型的进展催生了 VLA 模型的发展

Bjorck et al., 2025，即Gr00t n1
Black et al., 2024，即π0
Cheang et al., 2025，即Gr-3 technical report
Doshi et al., 2024，即Scaling cross-embodied learning: One policy for manipulation, navigation, locomotion and aviation
Intelligence et al., 2025，即π*0.6
Kim et al., 2024，即Openvla
Li et al., 2024，即Cogact
Liu et al., 2024，即Rdt-1b
Ni et al., 2025，即Swiftvla
O’Neill et al., 2024，即Open x-embodiment
Pertsch et al., 2025，即Fast_π0
Qu et al., 2025，即SpatialVLA
Team etal., 2025, 2024，即GigaBrain/GigaWorld
Wang et al., 2024，即Scaling proprioceptive-visual learning with heterogeneous pre-trained transformers，该研究探讨了如何利用异构Transformer结构有效融合机器人的身体感官与视觉信息

这类模型通过同时扩展模型参数规模和训练语料规模，追求更强的跨任务与跨具身形态泛化能力。此类系统通常利用冻结或微调的视觉-语言骨干网络

Alayrac et al.,2022，即Flamingo
Bai et al.,2025，即Qwen2. 5-vl technical report
Beyer et al.,2024，即Paligemma
Liu etal.,2023，即Visual instruction tuning
Marafioti et al.,2025，即Smolvlm
Peng et al.,2023，即Kosmos-2
Steiner et al.,2024，即Paligemma 2

用于处理异构感知输入并生成可执行的运动指令，其方法

要么采用自回归token化策略
要么采用通过基于流的生成范式
Lipman et al.,2022-即Flow matching for generative modeling
Liu,2022-即Rectified flow: A marginal preserving approach to optimal transport

构造的连续动作空间

尽管当代 VLA 融合了大规模跨具身数据集

Dasari et al.,2019，即Robonet: Large-scale multi-robot learning
Ebert et al.,2021，即Bridge data: Boosting generalization of robotic skills with cross-domain datasets
Khazatsky et al.,2024，即Droid: A large-scale in-the-wild robot manipulation dataset
O’Neill etal.,2024，即
Walke et al.,2023，即Bridgedata v2: A dataset for robot learning at scale

以及大量专有数据资源以增强其泛化能力，但在处理时间上具有延展性的推理方面仍存在根本性局限

具体而言，在解决长时序操作任务时，这类模型在动作生成上往往主要依赖于当前的观测输入

其次，对于用于策略模型的世界模型

近期在世界建模方面的突破

Agarwal et al.,2025，即Cosmos world foundation model platform for physical ai
Alhaija et al.,2025，即Cosmos-transfer1: Conditional world generation with adaptive multimodal control，该研究展示了如何通过文本、图像等多种模态条件生成连贯的未来视频序列
Assran et al.,2025，即V-jepa 2: Self-supervised video models enable understanding, prediction and planning，采用自监督视频模型（V-JEPA 2）实现理解、预测和规划的世界模型
Janget al.,2025，即Dreamgen: Unlocking generalization in robot learning through video world models
Jiang et al.,2025，即Galaxea open-world dataset and go dual-system vla model
Kong et al.,2024，即Hunyuanvideo: A systematic framework for large video generative models
Liao et al.,2025，即Genie envisioner: A unified world foundation platform for robotic manipulation
Wang et al.,2025，即Wan: Open and advanced large-scale video generative models

加速了在具身智能系统中采用生成数据，以弥合从仿真到现实的鸿沟(Zhu et al.,2024-即sora)

在自动驾驶中，世界模型被用来生成极端边缘案例（corner cases）数据
Gao et al.,2023,2024
Magicdrive: Street view generation with diverse 3d geometry control，提出了一种支持多样化3D几何控制的街景生成模型MagicDrive
Vista: A generalizable driving world model with high fidelity and versatile controllability，Vista通过高保真的环境模拟，为自动驾驶系统提供了丰富的长尾场景训练数据
Hu etal.,2023，即Gaia-1: A generative world model for autonomous driving，Gaia-1是自动驾驶领域的一个生成式世界模型
Ren et al.,2025，即Cosmos-drive-dreams: Scalable synthetic driving data generation with world foundation models，利用世界基础模型实现可扩展的合成驾驶数据生成
Russell et al.,2025，即Gaia-2: A controllable multi-view generative world model for autonomous driving，提出了一种可控的多视角驾驶场景生成世界模型
Wang et al.,2024，即Drivedreamer: Towards real-world-drive world models for autonomous driving，探索迈向真实驾驶能力的自动驾驶世界模型
Zhao et al.,2025，即Drivedreamer-2: Llm-enhanced world models for diverse driving video generation，通过大语言模型增强，生成多样化的驾驶视频

并构造交通情境
Ni et al.,2024,2025，即Recondreamer、Swiftvla
Zhao et al.,2024,2025，即Drivedreamer4d: World models are effective data machines for 4d driving scene representation、Recondreamer++: Harmonizing generative and reconstructive models for driving scene representation
在具身机器人场景中，诸如(Team etal.,2025-即Gigabrain-0: A world model-powered vision-language-action model)等技术利用世界模型生成的样本，这些样本覆盖纹理多样的场景
Dong et al.,2025，即Emma: Generalizing real-world robot manipulation via generative visual transfer，通过生成式视觉迁移使真实世界的机器人操作实现泛化
Liu et al.,2025，即Robotransfer: Geometry-consistent video diffusion for robotic visual policy transfer，提出几何一致的视频扩散模型用于机器人视觉策略迁移
Yuan et al.,2025，即Roboengine: Plug-and-play robot data augmentation with semantic robot segmentation and background generation，通过分割与背景生成实现即插即用的机器人数据增强

多视角渲染
Xu et al.,2025，即Egodemogen: Novel egocentric demonstration generation enables viewpoint-robust manipulation

以及以自我为中心视角的转换
Li et al.,2025，即Mimicdreamer: Aligning human and robot demonstrations for scalable vla training，对齐人类与机器人演示以扩展VLA训练规模
从而丰富 VLA 模型的训练数据

另一种不同的范式是通过世界模型预测未来的视觉轨迹
例如
DreamGen，通过视频世界模型预测轨迹来解锁机器人学习的泛化能力
ViDAR，利用基础视频扩散模型实现通用的双臂机器人操作控制

随后通过逆动力学模型（Inverse Dynamics Models，IDMs）推断可执行的运动控制命令
这类流水线的有效性在很大程度上取决于生成序列的视觉保真度和物理合理性
除了数据生成之外，新兴方法还在探索世界模型与策略学习之间更紧密的集成
诸如
Bi et al.,2025，即Motus: A unified latent action world model，提出了一种统一的潜在动作世界模型Motus
Cen et al.,2025，即Worldvla: Towards autoregressive action world model，探索面向自回归动作世界模型的WorldVLA框架
Li et al.,2026,2025，即Causal world modeling for robot control，研究用于机器人控制的因果世界建模技术
Pai et al.,2025，即mimic-video: Video-action models for generalizable robot control beyond vlas，提出超越VLA的视频-动作模型以用于通用的机器人控制
Wang et al.,2024，即Scaling proprioceptive-visual learning with heterogeneous pre-trained transformers，融合本体表征与预测型世界模型的潜表征以提高效率
等方法，将预测型世界模型的潜在表征与策略网络融合，以提高样本效率和泛化能力

更具雄心的是，诸如Kim et al.,2026
Cosmos policy: Fine-tuning video models for visuomotor control and planning，该工作证明了微调后的视频生成模型本身就可以作为高性能的闭环视觉运动控制器

等框架干脆绕过显式的策略网络，直接将世界模型的预测映射为动作序列

最后，对于面向视觉-语言-动作模型的强化学习

模仿学习策略由于分布偏移而遭受误差累积Ross et al. (2011-即A reduction of imitation learning and structured prediction to no-regret online learning，该论文提出了著名的 DAgger 算法，通过在线专家干预将模仿学习转化为在线学习问题，以解决复合误差问题)，其性能本质上受限于示范数据的质量

尽管DAgger 及其变体

Jang et al. (2022)，即Bc-z: Zero-shot task generalization with robotic imitation learning，该研究展示了如何通过大规模任务条件的模仿学习实现机器人的零样本任务泛化
Kelly et al. (2019)，Hg-dagger: Interactive imitation learning with human experts，提出了 HG-DAgger，一种人类专家仅在系统即将进入不安全状态时才介入干预的交互式学习范式

通过在线专家干预缓解了这一问题，它们仍然依赖于持续的人类监督，并且缺乏用于策略自主改进的机制

为了超越模仿学习的局限性，强化学习已被广泛用于机器人策略优化。传统方法采用基于on-policy 的算法Schulman et al. (2017-即PPO) ，或基于off-policy 的方法
Kalashnikov et al. (2018)，即QT-Opt: Scalable deep reinforcement learning for vision-based robotic manipulation，一种能够处理视觉输入的、可大规模扩展的 Q 学习框架，用于复杂的机器人操纵任务

通过与环境交互来优化策略
近期工作将这些范式扩展到VLA 模型上，通过直接策略梯度优化
Lu et al. (2025)，即Vla-rl: Towards masterful and general robotic manipulation with scalable reinforcement learning，将强化学习范式扩展到 VLA 模型，通过直接策略梯度进行优化
Tan et al. (2025)，Interactive post-training for vision-language-action models，近期通过直接策略梯度优化扩展 VLA 模型性能的工作之一

或在冻结骨干上的残差策略学习Guo et al. (2025)，即Improving vision-language-action model with online reinforcement learning，在冻结的 VLA 骨干模型上进行残差策略学习（Residual Policy Learning）的研究
然而，将策略梯度方法扩展到大规模VLA 仍然具有挑战性，原因在于训练不稳定和样本效率低下
一个新兴方向通过将动作生成条件化在价值信号上来规避显式的策略梯度计算
涵盖了基于回报条件的策略Kumaret al. (2019)，即Reward-conditioned policies
和

基于优势条件的形式化
Kuba et al. (2023);
即Advantage-conditioned diffusion: Offline rl via generalization ，利用优势条件（Advantage-conditioned）公式进行动作生成的离线强化学习方法
Wu et al. (2023)

最近，π∗0.6 Intelligence et al.(2025) 提出了RECAP 框架，表明基于优势条件的强化学习能够通过在机器人上的数据收集，使VLA 在下游任务中获得高性能

这由此激励了作者探索基于世界模型的强化学习，其中世界模型联合预测价值和未来状态，以作为丰富的策略条件

1.2 GigaBrain-0.5M*的完整方法论

在基础 VLA 模型 GigaBrain-0.5 之上，作者提出了 GigaBrain-0.5M*，这是一种增强型策略模型，集成了基于世界模型的 RL：RAMP（Reinforcement leArning via world Model-conditionedPolicy）

和原论文的介绍顺序一致，本节首先详细介绍 GigaBrain-0.5 的架构和预训练数据构成，随后给出 RAMP——这是一种训练方法论，它利用世界模型的预测，通过经验和纠正性反馈信号迭代式地优化策略行为

1.2.1 GigaBrain-0.5

GigaBrain-0.5 继承了GigaBrain-0 (Team et al., 2025) 的端到端VLA 架构

该架构旨在将视觉观测和语言指令映射为双臂机器人的动作序列

它采用mixture-of-transformers (Liang et al., 2024) 作为骨干网络，利用预训练的PaliGemma-2 (Steiner et al., 2024) 视觉-语言模型(VLM) 对多模态输入进行编码，并使用结合flow matching (Lipman et al., 2022) 的动作Diffusion Transformer (DiT)来预测动作块
为了增强推理能力，GigaBrain-0.5 生成一个Embodied Chain-of-Thought (Embodied CoT)，其由自回归子目标语言, 离散动作tokens (Pertsch et al.,2025), 以及2D 操作轨迹t1:10 组成

语言和离散tokens 通过VLM 头部进行解码，而2D 轨迹则通过轻量级GRU 解码器从可学习的tokens 中回归得到
在该版本中，深度信息和2D 轨迹被视为可选状态，使模型能够适应多样的传感器模态和任务需求

所有组件在统一目标下进行联合优化

$\mathcal{L}=\mathbb{E}_{\mathcal{D}, \tau, \epsilon}\left[-\sum_{j=1}^{n-1} M_{\mathrm{CoT}, j} \log p_{\theta}\left(x_{j+1} \mid x_{1: j}\right)+\left\|\epsilon-a_{\text {chunk }}-f_{\theta}\left(a_{\text {chunk }}^{\tau, \epsilon}\right)\right\|^{2}+\lambda\left\|\operatorname{GRU}\left(\hat{\mathbf{t}}_{1: 10}\right)-\mathbf{t}_{1: 10}\right\|^{2}\right]$

其中

$\mathcal{D}$ 是训练数据集， $M_{\mathrm{CoT}, j} \in\{0,1\}$ 是一个逐token 的掩码，指示位置 $j$ 是否属于CoT 推理流（子目标语言或离散动作）
对于扩散过程， $\tau \in[0,1]$ 是flow-matching 时间步， $\epsilon \sim \mathcal{N}(0, \mathbf{I})$ 是高斯噪声，且 $a_{\mathrm{chunk}}^{\tau, \epsilon}=\tau \cdot a_{\mathrm{chunk}}+(1-\tau) \cdot \epsilon$ 表示加噪后的动作片段
项 $\hat{\mathbf{t}}_{1: 10}$ 和 $\mathbf{t}_{1: 10}$ 分别表示预测的和真实的轨迹关键点，由超参数λ 进行平衡

值得注意的是，Knowledge Insulation (Driess et al.,2025) 从机制上防止了语言项与动作预测项之间的优化干扰

1.2.2 RAMP

在本节中，作者

首先形式化提出的 RAMP 框架，并证明 RECAP（Intelligence et al., 2025）是在该形式化下的一个特例

随后，详细介绍 RAMP 的实现，它包括四个迭代训练阶段：

世界模型预训练
策略预训练
人类在环 Rollout（HILR）数据收集
使用 Rollout 数据进行策略训练

1.2.2.1 RAMP 形式化

为了推导一个可扩展的、能够利用世界模型潜变量的训练目标，作者将KL 正则化强化学习框架扩展到增强后的状态空间 $\mathbf{S}=(\mathbf{o}, \mathbf{z}, l)$ ，其中 $z$ 表示由世界模型提取的潜在表示

作者的目标是在通过 KL 散度约束策略 π 不偏离参考策略 $\pi_{\mathrm{ref}}(\cdot \mid \mathbf{S})$ 的情况下，最大化预期回报，且借鉴正则化强化学习中的标准结果，最优策略的闭式解由（Intelligence 等人，2025 年）给出：
$\hat{\pi}(a \mid \mathbf{S}) \propto \pi_{\mathrm{ref}}(a \mid \mathbf{S}) \exp \left(\frac{A^{\pi_{\mathrm{ref}}}(\mathbf{S}, a)}{\beta}\right)$
为减轻直接估计指数优势项所带来的数值不稳定性，作者引入一个二元改进指示器 $I$ ，并假设观察到改进事件的概率 $p(I \mid a, \mathbf{S})$ 与该动作的指数优势成正比
————
通过应用贝叶斯定理，作者将这个难以处理的优势项重新表述为条件概率的比值：
$\exp \left(A^{\pi_{\mathrm{ref}}}(\mathbf{S}, a) / \beta\right) \propto \pi_{\mathrm{ref}}(a \mid I, \mathbf{S}) / \pi_{\mathrm{ref}}(a \mid \mathbf{S})$

将该比值代回最优策略方程，可以把 $\hat{\pi}$ 重新表示为无条件分布和条件改进分布的组合
因此，作者参数化一个神经网络πθ 来同时拟合这些分布，从而得到最终的训练目标，即最小化加权负对数似然

$\mathcal{L}(\theta)=\mathbb{E}_{D}\left[-\log \pi_{\theta}(a \mid \mathbf{o}, \mathbf{z}, l)-\alpha \log \pi_{\theta}\left(a \mid I, \mathbf{o}, \mathbf{z}_{t}, l\right)\right]$
其中 $I=\mathbb{1}[A(\mathbf{o}, \mathbf{z}, l, a)>\epsilon]$ 作为改进信号

这意味着，RECAP 实质上学到的是一种平均策略，在没有具体指导的情况下，它必须隐式地对所有可能的未来演化进行整合并在其间作出折中

相比之下，RAMP 通过显式地以世界模型的预测 $z$ 为条件来消除这种不确定性，将问题从对未来的大致猜测转变为针对特定物理状态的精确规划

此外，从信息论的角度来看，引入时空潜变量 $z$ 为动作生成提供了显著的信息增益
虽然RECAP 仅依赖稀疏的二进制优势信号( $I \in\{0,1\}$ ) 进行粗略的信用分配，但RAMP利用 $z$ 注入稠密的几何结构和物理动力学先验，从而显著降低动作生成的条件熵

$H(a \mid \mathbf{o}, \mathbf{z}, I) \leq H(a \mid \mathbf{o}, I)$

1.2.2.2 RAMP 的实现

RAMP 在整个训练生命周期内引入世界模型的引导，使 VLA 模型能够从经验中学习。从大规模离线预训练到基于自主 rollout 数据的多轮迭代微调，作者的方法实现了策略的逐步改进

如图 Fig.2 所示，整个流程被组织为四个循序递进的阶段：

RAMP 框架通过一个四阶段流水线运行

世界模型预训练为未来状态预测和值估计建立一个统一的表示空间

带世界模型条件的策略训练，用显式的世界模型条件来初始化 GigaBrain-0.5 策略

人类在环 Rollout（HILR）数据收集通过先进行自主执行、随后由专家纠正，生成多样且高质量的轨迹

使用 Rollout 数据的持续训练利用带标注的轨迹数据来更新策略，同时结合成功示范和纠正信号

这个紧密集成的闭环过程促进策略的持续精炼和自我改进

阶段1：世界模型预训练

初始阶段构建一个世界模型 $\mathcal{W}_{\phi}$ ，能够联合预测未来视觉状态和值估计。遵循Intelligence 等人(2025) 的方法，作者从基于完整回合成功标签中提取稀疏奖励，使得价值函数对应于期望完成步数的相反数

具体而言，奖励函数定义为：

$r_{t}=\left\{\begin{array}{ll} 0 & \text { if } t=T \text { and episode succeeds, } \\ -C_{\text {fail }} & \text { if } t=T \text { and episode fails, } \\ -1 & \text { otherwise, } \end{array}\right.$

其中 $T$ 表示该回合的终止时间步，而 $C_{\text {fail }}$ 是一个较大的正数常数，用于确保失败回合获得的累计回报显著低于成功回合

这样的稀疏奖励设计鼓励策略在优先完成任务而非取得部分进展的前提下最小化执行时间。遵循潜在帧注入策略（Kim et al., 2026），作者将价值信号嵌入为一个额外的潜在帧，在输入世界模型之前与视觉潜在状态进行拼接

该方法无需对底层的Diffusion Transformer 进行任何架构修改

具体而言，未来的视觉观测 $\left\{\mathbf{o}_{t+i}\right\}_{i \in\{12,24,36,48\}}$
首先通过一个预训练的VAE 编码为空间-时间视觉潜在变量 $\mathbf{z}_{t} \in \mathbb{R}^{H^{\prime} \times W^{\prime} \times C^{\prime}}$
同时，包括当前价值估计 $v_{t} \in \mathbb{R}$ 和本体感受状态 $\mathbf{p}_{t} \in \mathbb{R}^{d}$ 在内的标量和低维辅助信号，通过空间平铺投影 $\Psi(\cdot)$ 进行变换
该投影在空间维度上复制并广播这些低维向量，使其形状与视觉潜在变量相匹配

完整的潜在状态随后被构造为：

$\mathbf{s}_{t}=\left[\mathbf{z}_{t} ; \Psi\left(v_{t}\right) ; \Psi\left(\mathbf{p}_{t}\right)\right]$

其中 $[\cdot ; \cdot]$ 表示按通道拼接。这样的统一表征使世界模型能够在一次前向传播中，同时推理视觉动态、任务进展(通过 value 表示)以及机器人运动学

// 待更

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

水下机器人控制与路径跟踪仿真

DAMO开发者矩阵

机器人技术十年演进

机器人技术十年演进（2015-2025）呈现三大范式迁移：从"几何+规则"的可用性验证（2015-2018），到"融合+工程化"的稳定交付阶段（2019-2021），最终迈向"平台化治理+数据闭环"的规模化运营时代（2022-2025）。技术演进体现在十大主干领域：感知转向风险表征、定位升级为可治理服务、规划关注系统交通治理、控制强化安全

DAMO开发者矩阵

机器人成本控制十年演进

摘要：机器人行业成本控制历经三阶段演进（2015-2025）：从早期依赖硬件BOM降本（2015-2018），转向工程平台化降本（2019-2021），最终进入全生命周期TCO降本阶段（2022-2025）。当前竞争核心已从制造成本转向系统稳定性与运维效率，关键指标演变为人工介入率、MTTR、复发率和站点复制周期。六大降本抓手包括：降低人工介入率、控制复发率、缩短故障恢复时间、灰度发布、标准化站点