Fast-WAM: Do World Action Models NeedTest-time Future Imagination? ----论文翻译

世界动作模型（WAM）作为具身控制领域中视觉 - 语言 - 动作（VLA）模型的一种极具潜力的替代方案应运而生，其核心是显式建模视觉观测在动作作用下的演变规律。现有绝大多数 WAM 均遵循范式，迭代式视频去噪过程会产生巨大的测试时延，但对于实现优秀动作性能是否真正必要，这一问题仍不明确。本文研究：WAM 在测试阶段是否需要显式未来想象，还是其性能增益主要来自训练阶段的视频建模？我们提出架构，在训练

Luu_uu_uu

27人浏览 · 2026-04-13 15:43:31

Luu_uu_uu · 2026-04-13 15:43:31 发布

摘要

世界动作模型（WAM）作为具身控制领域中视觉 - 语言 - 动作（VLA）模型的一种极具潜力的替代方案应运而生，其核心是显式建模视觉观测在动作作用下的演变规律。现有绝大多数 WAM 均遵循先想象、后执行范式，迭代式视频去噪过程会产生巨大的测试时延，但显式未来想象对于实现优秀动作性能是否真正必要，这一问题仍不明确。

本文研究：WAM 在测试阶段是否需要显式未来想象，还是其性能增益主要来自训练阶段的视频建模？我们提出Fast-WAM架构，在训练阶段保留视频协同训练，同时在测试阶段跳过未来预测环节，以此解耦训练阶段视频建模与推理阶段显式未来生成的作用。我们进一步实现了多种 Fast-WAM 变体，以对这两个因素进行对照研究。实验结果表明，Fast-WAM 与先想象、后执行的模型性能相当，而移除视频协同训练会导致性能大幅下降。在无需具身预训练的条件下，Fast-WAM 在仿真基准（LIBERO、RoboTwin）与真实世界任务中均取得了与当前最优方法可比的结果，推理延迟仅190 毫秒，速度比现有先想象、后执行的 WAM 快4 倍以上。这些结果说明：WAM 中视频预测的核心价值，可能在于训练阶段优化世界表征，而非测试阶段生成未来观测。

1 引言

构建通用具身智能体，需要策略不仅能将视觉观测映射为动作，还能推理物理世界在交互下的演变规律。这推动了 ** 世界动作模型（WAM）** 的研究热潮，该模型在统一框架中融合未来视觉预测与动作建模。与标准视觉 - 语言 - 动作（VLA）模型相比，WAM 的优势在于：对未来观测的建模有助于捕捉物理动态与任务相关的时序结构。

现有绝大多数 WAM 遵循先想象、后执行范式：先生成未来观测，再基于想象的未来预测动作。这一设计虽直观，但迭代式视频去噪会带来显著的测试时延。更核心的问题是：显式未来想象对优秀动作性能是否真的必要。WAM 的有效性可能源于两个独立因素：

训练阶段的视频预测目标，可帮助模型学习更优的物理先验与动作条件表征；
推理阶段的显式未来生成，可为动作预测提供额外预判。

现有 WAM 系统通常将这两个因素耦合在一起，难以判断哪一个是性能提升的关键。

本文重新审视这一设计选择，并提出一个核心问题：WAM 在测试阶段是否需要想象未来观测，还是其增益主要来自训练阶段学习建模未来观测？ 我们的核心思路是：将 WAM 训练所用的视频预测目标，与推理阶段的显式未来生成解耦。如果世界建模的核心价值在于训练阶段构建更优的隐式表征，那么 WAM 无需付出测试阶段合成未来视频的代价，也能保留这一增益。

基于这一思路，我们提出Fast-WAM：训练阶段保留视频协同训练，测试阶段跳过未来预测。Fast-WAM 不再使用预训练视频生成模型在推理时迭代合成未来帧，而是将预训练视频扩散 Transformer（DiT）改造为单步前向世界编码器，用于生成动作。具体而言，Fast-WAM 采用混合 Transformer（MoT）架构并共享注意力机制，由视频 DiT 与动作专家 DiT 组成。训练阶段，视频预测目标驱动视频 DiT 编码具有物理意义的运动与交互结构；推理阶段，视频 DiT 仅对观测上下文做单次前向传播，输出隐式世界表征用于动作去噪，避免显式未来视频去噪，实现高效实时控制。

为严谨研究核心问题，我们基于主流先想象、后执行的 WAM 设计，实现了对应的 Fast-WAM 变体。为简化分析，本文聚焦单动作块生成，省略外层自回归循环。如图 1 所示，现有 WAM 主要分为两类范式：

(A) 未来视频与动作通过共享注意力联合去噪；
(B) 先生成未来观测，再基于生成的未来表征预测动作。

我们同时实现了无视频协同训练的变体，作为对照实验以验证训练目标本身的作用。这些对照实验可分离测试阶段未来想象与训练阶段视频协同训练的贡献。

在仿真基准（LIBERO、RoboTwin）上的实验表明，Fast-WAM 无需任何具身预训练即可取得优异结果，数据效率突出；在真实世界机器人任务中，Fast-WAM 保持高效性能，推理延迟仅190 毫秒，比现有先想象、后执行的 WAM 快4 倍以上。更重要的是，对照实验显示：Fast-WAM 性能与先想象、后执行变体接近，而移除视频协同训练会导致性能大幅下降。这说明：WAM 中视频预测的主要价值，可能在于训练阶段优化世界表征，而非测试阶段显式生成未来观测。

本文贡献如下三点：

提出并研究 WAM 的基础问题：其性能增益主要来自训练阶段视频建模，还是推理阶段显式未来想象。
提出 Fast-WAM 架构，训练阶段保留视频协同训练，测试阶段移除未来预测，实现实时推理。
通过仿真与真实世界基准的对照实验（含有无视频协同训练的变体），证明 WAM 的大部分增益来自视频协同训练本身，而推理阶段的显式未来生成重要性远低于此前认知。

2 相关工作

视觉-语言-动作策略 具身基础模型的最新进展主要由视觉-语言-动作（VLA）策略驱动，这类策略利用大规模预训练的视觉-语言骨干网络，直接将视觉观测和语言指令映射到机器人动作[9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19]。通过从网络规模预训练中继承强大的语义先验，这些模型在物体、场景和语言指令上展现出很强的泛化能力。然而，正如近期WAM工作所指出的，标准的VLA预训练主要基于静态图像-文本数据，并没有显式建模物理世界如何在动作下演化[3, 4]。我们的工作与这一路线互补：Fast-WAM在测试时保留了类似VLA的直接策略接口，但在训练时额外引入了基于未来视觉预测的世界建模目标。

世界动作模型与基于视频的机器人策略 另一条并行研究路线通过未来视觉预测来研究机器人控制，将视频生成作为建模环境动态并推断动作的方式[8, 20, 21, 7, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31]。近期方法进一步将这一思路扩展，通过统一框架联合建模未来视频和机器人动作[6, 2, 32, 33, 1, 3, 5, 4]。我们遵循[4]的命名，将这类模型称为世界动作模型（WAMs），因为它们利用世界建模（即预测未来视觉状态）来支持下游动作预测。大多数现有WAM要么遵循“先想象后执行”范式（先生成未来视觉轨迹，再用于动作预测），要么在共享生成过程中联合建模未来视频和动作。我们的工作与这一路线关系最紧密，但焦点不同：我们并非提出另一种“先想象后执行”的WAM，而是研究WAM的性能提升主要来自训练时的视频协同训练，还是来自推理时的显式未来想象。

我们的工作还与近期那些在利用视频建模进行动作预测的同时，减少或绕过测试时显式视频合成的工作相关。VPP[34]将机器人策略条件于从视频扩散模型提取的预测视觉表示，而UVA[35]联合建模视频和动作，并在测试时跳过视频解码以实现更快推理。与这些工作相比，我们的重点是通过共享框架下的受控变体，解耦训练时视频协同训练与测试时未来想象的相对作用。

3 方法

3.1 问题形式化

我们考虑从视觉观测和语言指令进行具身策略学习。令o 表示当前观测，l表示任务指令， $a_{1:H}$ 表示时域长度为 H的动作块。标准视觉-运动策略建模条件分布

$p(a_{1:H} \mid o, l)$

它直接将当前感知上下文映射到动作序列。世界动作模型（WAMs）通过引入未来视觉观测作为中间变量来扩展这一形式化。令 $v_{1:T}$ 表示预测时域T T T内的未来视觉观测。许多现有WAM遵循“先想象后执行”分解：

$p(a_{1:H} \mid o, l) = \int p(v_{1:T} \mid o, l) \, p(a_{1:H} \mid o, l, v_{1:T}) \, dv_{1:T}$

其中模型首先预测未来观测，再将动作生成条件于想象的未来。在实践中，这通常通过在共享模型中联合去噪未来视频和动作，或先生成未来视频再将其输入逆动力学或动作预测模块来实现。部分先前WAM还会将这一形式化包裹在外层自回归 rollout 中，为简单起见和受控比较，我们在此省略。

我们的出发点是观察到WAM的有效性可能来自两个不同因素：（i）训练时使用的视频预测目标，它能促使模型学习具有物理意义的潜在表示；（ii）推理时的显式未来生成，它可能为动作预测提供额外前瞻。现有WAM形式化通常将这两个因素耦合在一起，因为同一模型既从未来视频预测中学习，又在测试时显式合成未来观测。我们设计Fast-WAM来解耦这两个因素。在训练时，它保留世界建模作为协同训练信号；在推理时，它不显式生成未来观测。相反，Fast-WAM直接从当前观测和指令预测动作：

$p_\theta(a_{1:H} \mid o, l)$

同时使用由视频协同训练塑造的潜在世界表示。从这个意义上说，Fast-WAM在测试时具有类似标准VLA策略的直接策略接口，而其表示学习仍 grounding 在WAM式的视频建模中。形式上，令z(o,l) z(o, l) z(o,l)表示视频骨干在当前上下文条件下产生的潜在世界表示。Fast-WAM使用该表示来参数化动作分布：

$p_\theta(a_{1:H} \mid o, l) = p_\theta(a_{1:H} \mid z(o, l))$

与“先想象后执行”WAM的关键区别在于， $z(o,l)$ 是通过单次前向编码通道获得，而不是在推理时显式采样或去噪未来观测 $v_{1:T}$ 。

3.2 模型架构

Fast-WAM旨在保留世界建模的训练优势，同时消除显式未来想象的推理成本。在训练期间，它联合学习动作预测和视频建模，促使视觉骨干捕获具有物理意义的运动和交互结构。在推理期间，Fast-WAM不显式生成未来观测，而是仅保留第一个观测帧的干净潜在 token，通过视频模型进行单次前向传递，并将得到的潜在世界表示用于直接动作生成。这使得Fast-WAM在测试时具有直接策略接口，同时保留了WAM式的视频监督。

架构。Fast-WAM基于Wan2.2-5B[36]的视频Diffusion Transformer（DiT）构建，该DiT作为世界建模骨干。我们还复用其预训练文本编码器和视频VAE：任务语言由内置T5编码器编码，并通过交叉注意力提供给所有token，而视觉观测则由预训练VAE映射为潜在视频token。在该骨干之上，我们引入一个动作专家DiT用于动作块生成。整个模型组织为具有视频分支和动作分支共享注意力的Mixture-of-Transformer（MoT）架构，如图2a所示。

我们将输入token组织为三组：第一个观测帧的干净潜在token（作为共享视觉锚点）；未来视频帧的噪声潜在token（仅在训练时用于视频建模）；以及由动作专家处理的动作token。所有token组都通过交叉注意力关注语言嵌入。一个结构化的注意力掩码控制这些组之间的信息流。在训练时，未来噪声视频token在视频分支内双向注意力，并可访问干净的第一帧token；动作token在动作分支内双向注意力，也可访问干净的第一帧token。关键在于，动作token不能关注未来视频token，且干净的第一帧token不关注任何其他token。这确保了视频建模和动作预测都 grounding 在同一视觉上下文，同时防止未来信息泄漏到动作分支。我们在图2b中提供了完整的训练和推理掩码。

在推理时，Fast-WAM完全移除未来视频分支：仅保留干净的第一帧潜在token，通过视频骨干单次传递，为动作专家生成潜在世界特征。由于不实例化未来噪声视频token，也不执行显式未来视频去噪，Fast-WAM的推理成本远低于标准的“先想象后执行”WAM。

训练目标。Fast-WAM使用动作token和未来视频潜在变量的联合流匹配目标进行训练。给定目标变量y （动作块 $a_{1:H}$ 或未来视频潜在 $z_{1:T}$ ），我们采样高斯噪声 $\epsilon \sim \mathcal{N}(0, I)$ 和时间步 $t \in (0, 1)$ ，构造插值样本

$y_t = (1 - t)y + t\epsilon$

模型被训练为预测对应的速度场，使用标准的流匹配目标

$\mathcal{L}_{\text{FM}}(y) = \mathbb{E}_{y_t, \epsilon, t} \left[ \|\hat{y}_t(y_t, t, o, l) - (\epsilon - y)\|_2^2 \right]$

我们分别为动作生成和视频协同训练实例化该目标。对于动作预测，我们令 $y = a_{1:H}$ ，优化 $\mathcal{L}_{\text{act}} = \mathcal{L}_{\text{FM}}(a_{1:H})$

对于视频协同训练，我们令 $y = z_{1:T}$ （其中 $z_{1:T}$ 是预训练VAE产生的未来视频帧潜在token），优化 $\mathcal{L}_{\text{vid}} = \mathcal{L}_{\text{FM}}(z_{1:T})$

总体训练目标为

$\mathcal{L} = \mathcal{L}_{\text{act}} + \lambda \mathcal{L}_{\text{vid}},$

其中 $\lambda$ 平衡动作学习和视频协同训练。

3.3 用于解耦WAM设计的受控变体

为了回答我们的核心问题——WAM的收益主要来自训练时的视频协同训练，还是来自推理时的显式未来想象——我们在共享实现框架下设计了一组受控变体。我们实例化了近期WAM中具有代表性的“先想象后执行”设计模式，同时尽量保持骨干网络、token化方式和训练配方一致。这种受控设置使我们能够将测试时未来生成的作用与视频协同训练目标本身的作用隔离开来。

如图1(A)和(B)所示，我们考虑两种代表性的“先想象后执行”变体，它们捕捉了近期WAM中的主导设计模式。第一种变体名为Fast-WAM-Joint，遵循联合生成范式，其中未来视频token和动作token在共享模型中一起去噪，从而使动作生成在整个去噪过程中始终与未来视频建模耦合[4, 6, 5]。第二种变体名为Fast-WAM-IDM，遵循“视频后动作”范式，其中未来视频token首先从当前观测和语言上下文生成，随后动作预测条件于得到的未来表示[3, 7, 8]。在这两种情况下，我们都保留了对应范式定义的推理结构，同时保留了近期WAM中使用的关键训练选择，并在共享框架内实现它们，以便与Fast-WAM进行受控比较。

我们进一步构造了一个不带视频协同训练的Fast-WAM变体。该变体保持架构和推理流程不变，仅在训练时移除视频建模目标。因此，它作为视频协同训练作用的直接对照组。总之，这些受控变体将先前WAM中通常纠缠在一起的两个因素——训练时的视频协同训练和推理时的显式未来想象——隔离开来。

4 实验

4.1 实现细节

我们使用预训练的 Wan2.2-5B [36] 作为骨干网络，包括其视频 DiT、文本编码器和视频 VAE。动作专家与视频分支采用相同架构，但隐藏维度降至 da=1024 d_a = 1024 da=1024，最终得到 1B 参数的动作专家，总模型参数量为 6B。我们将动作时域设置为 h=32 h = 32 h=32。视频帧在时间维度上进行 4× 下采样，每个动作块对应 9 个视频帧。来自多个摄像头的图像在输入 VAE 前被拼接为单张图像。

我们对视频分支和动作分支采用相同的流匹配形式化。按照 [36]，在训练和推理阶段均使用 logit-normal 分布作为 t t t 的噪声调度。在推理时采用 10 个去噪步，分类器自由引导（CFG）尺度设为 1.0。优化器采用 AdamW，学习率 1×10−4 1 \times 10^{-4} 1×10−4，权重衰减 0.01，并使用余弦退火调度，所有训练设置均一致。训练采用混合精度，梯度裁剪值为 1.0。所有延迟数据均在单张 NVIDIA RTX 5090D V2 32GB GPU 上测量。

我们通过允许视频 token 与动作 token 之间进行注意力来构建 Fast-WAM-Joint。对于 Fast-WAM-IDM，我们遵循 [3] 的做法，以概率 p=0.5 p = 0.5 p=0.5 对真实视频 token 施加噪声增强。

4.2 实验设置

我们在模拟基准 LIBERO [37] 和 RoboTwin 2.0 [38] 上评估 Fast-WAM 及其变体，同时还评估了一个真实世界操作任务。

LIBERO 我们遵循标准基准协议，在四个 LIBERO 子集（LIBERO-Spatial、LIBERO-Object、LIBERO-Goal、LIBERO-Long）上训练模型。每个子集包含 500 个演示，覆盖 10 个任务。所有模型均训练 20k 步。我们在 40 个任务上总共进行 2000 次评估试验（不同随机种子），报告每个子集的成功率。

RoboTwin 2.0 RoboTwin 2.0 是一个具有挑战性的双臂操作基准，包含 50 多个需要协调双臂控制的任务。我们遵循 [5, 3] 的多任务训练设置，在干净场景下收集的 2500 个演示与重度场景随机化下收集的 25000 个演示的混合数据集上训练模型，覆盖 50 多个任务。所有模型训练 30k 步。我们在干净和随机化设置下报告每个任务 100 次试验的平均成功率。

真实世界评估 我们在毛巾折叠任务上进行真实世界评估，这是一个长时域且极具挑战性的任务，需要策略对可变形物体的动态进行推理，如图 3 所示。我们在 Galaxea R1 Lite 平台上收集了 60 小时的遥操作演示。所有模型均训练 30k 步。我们同时报告平均成功率和平均完成时间。前者衡量策略是否能在足够时间内最终完成折叠任务，后者则反映策略是否学会了高效的执行策略，而非依赖反复试错修正。对于该任务，完成时间与成功率同等重要，用于评估策略质量。

4.3 主要结果

4.3.1 模拟基准上的整体比较

表 1 和表 2 分别总结了 RoboTwin 和 LIBERO 上的结果。总体而言，Fast-WAM 在两个基准上均达到了与最先进方法相当的性能，且未使用任何具身预训练。RoboTwin 上的每个任务详细结果列于附录表 3。

在 RoboTwin 上，Fast-WAM 达到了 91.8% 的成功率，超过了所有未使用具身预训练的基线，并与最强的预训练 WAM 保持高度竞争力。尤其是，Fast-WAM 显著优于有预训练（87.8%）和无预训练（77.3%）的 Motus [5]，以及无预训练的 LingBot-VA [3]（80.6%），同时与有预训练的 LingBot-VA（92.2%）相当。这些结果表明，Fast-WAM 无需依赖具身预训练即可恢复先前 WAM 流程的大部分收益。

在 LIBERO 上，Fast-WAM 同样展现出强大的整体性能，未使用具身预训练的情况下平均成功率达到 97.6%。它优于强大的 VLA 基线 π0.5，并与预训练 WAM 基线 LingBot-VA（98.5%）和 Motus（97.7%）保持竞争力。这些结果表明，即使未采用大多数先前 WAM 和 VLA 基线所使用的具身预训练，Fast-WAM 在各类模拟基准上仍表现一致且高效。

4.3.2 与 Fast-WAM 变体的受控比较

我们接下来将 Fast-WAM 与第 3.3 节引入的受控变体进行对比，以解耦推理时显式未来想象的作用与训练时视频协同训练的作用。在两个模拟基准上，模式完全一致：Fast-WAM 与两个“先想象后执行”变体保持相当，而移除视频协同训练导致明显更大的性能下降。

在 RoboTwin 上，Fast-WAM 达到 91.8% 成功率，与 Fast-WAM-Joint（90.6%）和 Fast-WAM-IDM（91.3%）高度相当。相反，移除视频协同训练后性能降至 83.8%，相对于所有带视频协同训练的变体产生了显著差距。该结果表明，在该基准上，保留训练时的视频建模目标远比测试时显式生成未来观测重要得多。在 LIBERO 上也呈现相同趋势：Fast-WAM 达到 97.6% 平均成功率，与 Fast-WAM-Joint（98.5%）和 Fast-WAM-IDM（98.0%）接近；而无视频协同训练的 Fast-WAM 下降至 93.5%，尤其在 Spatial 和 Long 子集上退化明显。移除视频协同训练造成的差距，明显大于 Fast-WAM 与“先想象后执行”变体之间的差距。

这一模式表明，WAM 式训练的主要收益可能较少取决于测试时未来想象是否进行或如何进行，而更多在于用于塑造世界 grounding 表示的视频预测目标本身。

4.3.3 真实世界性能与效率

我们在长时域真实世界毛巾折叠任务上进一步评估 Fast-WAM，同时报告平均成功率和平均完成时间（两者同等重要）。结果如图 4 所示。

在该任务上，预训练的 π0.5 仍是表现最强的方法，成功率最高且完成时间最短。在 Fast-WAM 系列中，整体性能相当：Fast-WAM-IDM 成功率最高，而 Fast-WAM 完成时间更优。重要的是，所有带视频协同训练的 Fast-WAM 变体均显著优于未预训练的 π0.5，表明即使没有具身预训练，WAM 式的视频协同训练也能提供强大的数据效率。

相反，移除视频协同训练在两个指标上均导致剧烈退化：Fast-WAM 无视频协同训练成功率仅为 10%，且完成时间最长。这一差距远大于 Fast-WAM 各变体自身的差异，表明视频协同训练是真实世界强性能的主导因素，而测试时未来想象的影响相对有限。

在运行效率方面，Fast-WAM 保持了极低的推理延迟（190 ms），而“先想象后执行”变体明显更慢，尤其是 Fast-WAM-IDM 达到 810 ms。这使得 Fast-WAM 成为真实世界部署更优的设计选择：在提供强大任务性能的同时，显著降低了推理成本。

5 结论

在本文中，我们重新审视了世界动作模型（WAM）中的一个基本问题：它们的性能提升主要来自测试时的显式未来想象，还是来自训练时的视频建模。为了研究这一问题，我们提出了 Fast-WAM，这是一种 WAM 架构，它在训练时保留视频协同训练，而在推理时跳过未来预测，从而能够直接从世界 grounding 的潜在表示中生成动作。在模拟基准和真实世界机器人任务上，Fast-WAM 在未使用具身预训练的情况下实现了强大的性能，同时能够实时运行。更重要的是，通过受控比较我们发现，Fast-WAM 与“先想象后执行”变体保持竞争力，而移除视频协同训练会导致大得多的性能退化。这些结果表明，视频预测在 WAM 中的主要价值可能更多在于训练时学习更好的世界表示，而非在测试时生成未来观测。未来工作的一个重要方向是研究更大规模预训练数据和模型缩放对这一设计的影响。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

客服机器人知识库多久更新一次？智能 Agent 自动爬取新问答，过期话术能否及时淘汰？

DAMO开发者矩阵

python项目实战10-网络机器人03

豆瓣的列表接口通常遵循 offset/limit 的分页逻辑，limit=20 表示每页只返回20条数据，start=0 表示从第0条数据开始取(即第一页)，start=20 表示从第20条数据开始取(即第2页)， start=40 表示从第40条数据开始取(即第3页)。要实现"加载更多"并爬取后续的电影信息，核心在于理解豆瓣分页数据的获取逻辑，也就是通过修改API接口中的 start 参数来控制