VISTA：分层操作策略的规模化世界模型

26年2月来自西安交大、北京智源、清华、新加坡国立和中科院自动化所的论文“Scaling World Model for Hierarchical Manipulation Policies”。视觉-语言-动作（VLA）模型在通用机器人操作方面展现出巨大潜力，但在分布外（OOD）场景下，尤其是在真实机器人数据有限的情况下，其泛化能力仍然较弱。为了解决泛化瓶颈问题，引入一个分层视觉-语言-动作框架V

硅谷秋水

572人浏览 · 2026-03-04 00:15:00

硅谷秋水 · 2026-03-04 00:15:00 发布

26年2月来自西安交大、北京智源、清华、新加坡国立和中科院自动化所的论文“Scaling World Model for Hierarchical Manipulation Policies”。

视觉-语言-动作（VLA）模型在通用机器人操作方面展现出巨大潜力，但在分布外（OOD）场景下，尤其是在真实机器人数据有限的情况下，其泛化能力仍然较弱。为了解决泛化瓶颈问题，引入一个分层视觉-语言-动作框架VISTA，该框架利用大规模预训练世界模型的泛化能力，实现了鲁棒且可泛化的视觉子目标任务分解（VISTA）。我们的分层框架VISTA由一个作为高层规划器的世界模型和一个作为底层执行器的VLA组成。高层世界模型首先将操作任务分解为包含目标图像的子任务序列，而底层策略则根据文本和视觉指导生成动作序列。与原始的文本目标描述相比，这些合成的目标图像为底层策略提供视觉和物理上的细节，使其能够泛化到未见过的物体和新的场景。在大规模分布外场景中验证视觉目标合成和提出的分层VLA策略，结果表明，在世界模型生成的指导下，相同结构的VLA在新场景中的性能提升14%至69%。

如图所示分层VISTA：
请添加图片描述

如图所示VISTA 概述。该框架包含两个基本模块：左图是VISTA 作为高级规划器。它将视觉目标和文本子任务视为一个统一的多模态序列，并根据全局指令和初始观察结果，自回归地生成交错的文本子任务和视觉目标。右图是GoalVLA 作为底层控制器。它以实时观察结果和生成的子目标作为输入，预测可执行的动作块。执行过程采用分层管理，子任务切换器在当前阶段完成后切换到下一阶段。
请添加图片描述

世界模型规划器

为了实现高层次的规划，引入具身世界模型（记为 W），该模型将全局指令 L 分解为可执行的里程碑（l_i，g_i）。通过将视觉目标和文本子任务视为统一的多模态序列，W 可以根据生成的历史记录自回归地预测任务的下一阶段。

a) 模型构建：采用统一的离散表示，将视觉和语言映射到共享词汇表 V 中。用 IBQ token化器 [38] 处理图像，使用 Qwen3 token化器 [1] 处理文本，两者统称为分词函数 φ。按固定顺序展平的多视图图像和文本被转换为离散的token序列 S。

这使得全局上下文 (I_0, L) 和交错里程碑 (l_i, g_i) 统一为 Transformer 的单一同质输入。基于统一的序列公式，该模型通过标准自回归建模进行训练，以学习任务序列的联合分布。优化序列 S 上的交叉熵损失 L，最大化给定前一个上下文的下一个token似然性。

让θ_W 表示模型参数。训练采用教师强制和因果注意掩码，确保第 k 步的预测仅取决于历史token u_<k。

b）子任务规划：在推理过程中，生成过程通过迭代采样以自回归方式进行，从而预测里程碑序列。从初始上下文 (φ(I_0), φ(L)) 开始，模型使用束搜索依次预测后续子任务和目标图像的token。具体来说，维护一个包含 B 个候选序列的集合（其中 B 为束宽）。在每个步骤 j，给定当前的token历史记录 S_<j = (u_1, …, u_j−1)，计算输出 logits，并用最有可能的 B 个后续tokens扩展每个候选序列。候选序列 S 的联合概率计算为其组成tokens的条件概率的乘积。

采样过程重复进行，直至为所有候选序列生成终止token。然后，选择总体概率最高的序列，并使用逆token化器 φ⁻¹ 在像素级别重建目标图像 g_i。这种方法能够生成基于初始输入的全局一致里程碑序列，从而有效降低贪婪解码中可能出现的次优token-级决策风险。在开源的 EMU3.5 [16] 检查点上进行持续训练，该检查点使用包含导航和操作的交错文本图像数据进行训练，共训练 2000 步。

目标-条件的视觉-语言-动作 (VLA)模型 GoalVLA

利用世界模型的规划能力，训练一个目标图像引导的视觉-语言-动作 (VLA) 策略 π_θ，作为用于细粒度操作的底层控制器。

a) 模型构建：在阶段 i 的每个时间步 t，策略以当前观测值 I_t、子任务指令 l_i 和对应的目标图像 g_i 作为输入，预测一个驱动机器人向里程碑移动的动作块 a。为了有效地融合视觉信息，在将输入馈入到模型主干之前，将当前观测值tokens与目标图像tokens连接起来，从而扩展输入表示。

借鉴 π0 [6] 的架构，用流匹配目标来训练策略，以生成连续的动作轨迹。定义噪声样本 z ∼ N (0, I) 与真实动作块 a 之间的线性插值 x_τ = (1 − τ)z + τ_a，其中 τ ∈ [0, 1] 表示流时间。策略预测在 (l_i , I_t , g_i ) 条件下对应的速度场 v_τ = a−z。目标是最小化期望均方误差。

b) 子任务-觉察的动作填充：动作块可能跨越子任务边界（即包含属于阶段 i+1 的步骤）。为了防止策略在没有更新目标的情况下过早执行下一阶段，对每个真实数据块中当前里程碑完成后的部分进行零填充，从而显式地教会策略在目标 g_i 满足后停止执行。

c) 随机目标图像偏移：世界模型预测的目标图像可能相对于真实的子任务终止时间提前/延迟几帧，这可能会导致阶段边界附近的执行不稳定。为了使 GoalVLA 对这种错位具有鲁棒性，在子任务 i 和 i+1 的边界周围定义一个时间重叠窗口。对于此窗口内的训练样本，随机使用 g_i 或 g_i+1 作为目标条件；当使用 g_i+1 时，还会将样本重新标记为阶段 i+1，以避免零填充。对于阶段 i 的其余样本，从终端重叠窗口中随机采样 g_i，而不是使用固定的目标帧。这种简单的增强方法使策略能够应对边界噪声，并促进平滑的阶段过渡。

数据集整理

a) 数据集来源：用来自 Open-X-Embodiment [36]、AgiBot World Beta [9] 和自己的 Mobile Aloha 数据集 [21] 这些大规模具身操作数据来训练世界模型。尽管语料库包含超过 100 万条轨迹，但标注仅包含全局指令和图像-动作对，缺少中间里程碑（l_i，g_i）。因此，引入一个自动轨迹分解流程。

b) 自动里程碑标注：该流程分为三个步骤。首先，用 Qwen3 [46] 对指令动词进行聚类，构建一个包含 50 个原子技能（例如，拾取、推动）的库。其次，利用Ramer-Douglas-Peucker (RDP)算法[17]分析运动轨迹和机械臂状态转换，通过物理状态变化检测候选里程碑边界。最后，Qwen2.5-VL 72B算法[2]合并具有相同技能的相邻片段，并生成自然语言子任务描述l_i。

该过程将120万条轨迹转换为交错的子任务和目标图像序列，涵盖14种支持多视角的实现方式，总计152亿个tokens（如图所示）。对于AgiBot，进一步将抽象任务类型细化为更细粒度的指令。
请添加图片描述

c) X-到-图像预训练数据：用由 SEED-Data-Edit [22]、Weather-Stream [53]、ShareGPT-4o-Image [11] 等构建的 150 亿个tokens的X-到-图像数据集来共同训练世界模型。

实现细节

世界模型规划器

a) 模型架构和token化：构建的世界模型总共包含 341 亿个参数，其中 312 亿个参数位于 Transformer 层，29 亿个参数位于嵌入层。token化方面，采用包含 282,926 个tokens的统一词汇表。视觉部分，用 EMU3.5 [16] 中预训练的 IBQ-token化器，其词汇量为 131,072，并将每个 16 × 16 的图像块量化为离散的tokens。具体来说，在设置中，输入图像被调整为 512 × 512 的分辨率，因此每张图像生成 1024 个视觉tokens。语言部分，用词汇量为 151,854 的 Qwen3 token化器 [1]。

b) 序列格式化：将最大序列长度设置为 16,384，每个序列都使用交错的文本和视觉tokens进行格式化。对于监督学习，仅提供指令和初始观测值，模型需要自回归地预测整个交错序列。由于一个序列最多包含 16 张图像，随机选取目标图像时间戳前后 1 秒内的时间戳进行采样，并让模型预测后续步骤。因此，序列可以从任意子任务阶段开始，并持续生成子任务和目标图像序列，直到任务完成或达到提示中要求的阶段数。这种滑动窗口式的操作不仅增加了数据集的大小和多样性，而且实现了无限闭环生成。

c) 模型训练：在训练设置中，用 Megatron-LM [39] 训练世界模型，张量并行大小设置为 8，上下文并行大小设置为 1。全局批大小为 512，学习率为 1 × 10⁻⁵。在开源的 EMU3.5 [16] 检查点上进行 2000 步的持续训练。用 128 个 Nvidia H100 GPU 对 VISTA 进行为期 2 天的后训练，采用余弦学习率调度器和线性预热。

目标条件化的 VLA- GoalVLA

a) 模型架构：采用类似于 π0 [5] 的 MoE 架构，以 PaliGemma-3B [3] 为骨干网络，并同时构建一个 0.3B 规模的动作专家模型。采用分块因果掩码，其中 VLM 模块关注自身特征，本体感觉模块（与动作模块共享权重）关注自身特征以及 VLM 模块的特征，动作模块关注所有模块；每个模块内部都是完全双向的。在每个推理步骤中，模型以六张图像作为输入，包括三张当前观测图像和三张目标图像，这些图像通过 SigLIP [52] 编码成tokens。模型还以当前子任务提示和代表机械臂末端执行器 6D 位姿的本体感觉信号作为输入。随后，执行一个 10 步的流匹配解码过程，生成一个长度为 30 步的动作块。

b) 两阶段训练设置：为 GoalVLA 采用两阶段训练范式。在第一阶段，用来自 AgiBot-Beta 数据集 [9] 的 20 万条轨迹样本，并使用标注的子任务文本和目标图像作为附加条件。该阶段包含 10 万个训练步骤，全局批大小为 512，初始学习率为 5 × 10⁻⁵。在第二阶段，用 737 条自行收集的机器人轨迹对 GoalVLA 进行微调。将全局批大小设置为 128，学习率为 2 × 10⁻⁵，训练模型 10 个 epoch（约 2 万步）。

c) 推理细节：在实际机器人部署和测试阶段，为了减轻运动误差的影响，并使模型能够更精细地调整机器人，仅执行模型推断出的动作块中 30 个步骤中的 10 个步骤。采用闭环绝对末端执行器 (EE) 位姿控制来操作机械臂。由于模型输出的是 Δ EE 位姿，基于当前读取的本体感受信号计算绝对 EE 位姿。为了获得更平滑的控制，选择第 5 步和第 10 步的绝对 EE 位姿作为执行目标路径点。

利用提出的自动分割和标注框架，将120万条轨迹分割成交错的子任务和目标图像格式，支持10种不同的实现方式和多视角生成。对于Agibot World Beta数据集，进一步利用Qwen2.5-VL 72B [2] 将抽象的任务类型细化为详细的指令，并将原始技能描述分割成更细粒度的子任务。

作为一种基本的单步生成任务，X2I生成通常涉及由文本和任意数量图像组成的任意多模态交错输入，要求模型输出单个图像作为响应。这给模型的关键能力提出很高的要求，尤其是在多模态指令跟踪、保持主体/背景一致性、遵循世界知识和规则以及控制图像风格和纹理方面。掌握这些极具挑战性的 X2I 能力将有助于模型稳健地演进到更通用的任意-到-任意 (X2X) 生成范式，从而使其发展成为一个更复杂、更强大的世界模型。为此，构建一个大规模的 X2I 数据集（包含 152 亿个 token）用于训练，以克服现有开源数据在多样性、质量和规模方面的局限性。该内部 X2I 数据集还整合多个开源数据集的部分内容，包括 SEED-Data-Edit [22]、WeatherStream [53]、PromptFix [51]、OmniGen-X2I [45]、ShareGPT-4o-Image [11]、ImgEdit [50]、OmniGen2-X2I2 [43]、MultiRef [12] 和 GPT-IMAGE-EDIT-1.5M [42]。为了提高空间理解和多视图一致性，进一步使用 mast3r [30] 去标注从同一场景拍摄的多张图像的相对位置，并构建相机视图编辑数据集。

真实世界任务和设置

对于训练数据集，收集 2 小时的抓取放置任务数据，任务包含五个物体：鸡蛋、可乐罐、苹果、牛奶桶和羊角面包。选择具有显著影响和出色性能的 π0 模型作为基线模型。为了进一步说明子任务指令的影响，修改 π0 的训练范式，将数据集中的原始指令替换为子任务，并将此变型称为 π0-subtask。

如图所示，在域内场景和域外场景 (OOD) 上评估这些方法。对于域内场景，除了基本设置外，还将干扰物和目标物替换为未见过的物体。在域内场景的每种设置下，共有 5 个任务 × 3 种场景设置（布局和未见过物体的组合）= 15 个场景。对于 OOD 场景，引入 21 个具有不同语义类型的新物体，并针对每个场景抽取 5 个物体作为样本，其中一个被选为目标物体，其余四个被选为干扰物体。因此，共有 21 个目标物体 × 3 种场景设置（桌布和布局的组合）= 63 个场景。对于每个场景，对模型进行 3 次评估并计算平均指标，因此每个策略共进行 78 个场景（15 个领域内场景 + 63 个 OOD 场景）× 每个场景 3 次部署 = 234 次部署。
请添加图片描述