将世界模型整合到视觉-语言-动作和-导航中：综述（上）

25年12月来自中科院大学、哈工大、南开大学、华东工学院、上海交大和清华大学的论文“Integrating World Models into Vision Language Action and Navigation: A Comprehensive Survey”。世界模型是具身人工智能领域的一项变革性范式，它使智体能够通过模拟环境动态来高效学习和规划。随着视觉-语言动作和导航系统日趋复杂，集

硅谷秋水

1271人浏览 · 2025-12-28 06:04:56

硅谷秋水 · 2025-12-28 06:04:56 发布

25年12月来自中科院大学、哈工大、南开大学、华东工学院、上海交大和清华大学的论文“Integrating World Models into Vision Language Action and Navigation: A Comprehensive Survey”。

世界模型是具身人工智能领域的一项变革性范式，它使智体能够通过模拟环境动态来高效学习和规划。随着视觉-语言动作和导航系统日趋复杂，集成世界模型对于连接多模态感知、语言理解和序列决策至关重要。然而，现有的研究大多侧重于应用领域或学习范式，却忽略一个关键的架构问题：如何将世界模型以结构化的方式集成到这些系统中。为了弥补这一空白，该问提出一种以集成为中心的分类法，将研究分为三种基本架构范式：（1）模块化架构，其中世界模型和策略是独立的模块；（2）序贯架构，实现分层式的“先规划后执行”工作流程；（3）统一架构，将世界预测和动作生成融合到一个端到端的网络中。通过这一框架，系统地分析这些范式之间固有的权衡：模块化设计在可解释性方面表现出色，序列方法能够实现层级推理，而统一模型则能实现紧密的预测控制协调。基于此分析，概述有前景的研究方向，并提出有效集成世界模型的架构原则，最终目标是开发出更高效、更易解释且更具泛化能力的智体。

人类拥有卓越的、与生俱来的能力，能够无缝整合感知、认知和行动。人类通过多种感官模式感知环境，通过语言理解复杂的指令，并执行从精细操作到复杂空间导航等各种物理任务。在人工智体中复制这种深层次的具身智能，是现代人工智能领域的一项重大挑战。这一探索已凝结为具身操作和导航等关键研究领域，并重点关注其语言相关的子领域：视觉-语言-动作（VLA）[1] 和视觉-语言-导航（VLN）[2-4]。
在大语言模型（LLM）出现之前，具身指令执行系统通常将语言、感知和动作视为彼此独立的组成部分，而不是一个联合优化问题。在这些早期范式中，视觉感知和底层控制策略通常通过模仿学习进行训练[5-7]，而语言理解则通过基于规则的解析、模板匹配或直接符号化到预定义的技能库中来实现。代表性系统，例如 Tell-Me-Dave [8]，将动词短语映射到参数化的动作模板，而其他系统则基于空间描述条款[9]将指令分解为符号化的运动基元，或依赖于基于语法的合成命令[10, 11]。因此，语言理解仍然是静态的、手工设计的，并且与学习的感知-动作策略完全脱钩。虽然这些系统在有限的领域内有效，但它们从根本上缺乏超越预定义词汇表和环境图式进行泛化的能力，因此需要转向更集成化的学习框架。

为了克服这些局限性，该领域转向无模型端到端范式[1, 12–15]，这种范式学习从高维感觉输入和语言指令到低级动作的直接映射。尽管纯粹的反应式无模型方法在各种场景中都取得了成功，但它们仍然面临两个关键瓶颈。首先，由于缺乏预测未来状态的显式机制，它们难以进行长远规划和推理，常常在需要主动而非被动行为的任务中失败。其次，当将学习的行为迁移到新环境或未见过的任务配置时，它们会表现出泛化能力不足的问题。这源于模型容量的限制以及仅从数据中隐式学习动态的固有困难。这些挑战促使人们探索基于模型的方法，这些方法能够显式地对环境动态进行建模，从而实现预测推理。

世界模型的概念根植于认知科学。人类智能理论认为，人类会构建外部世界的内部心理模型，将低级感觉输入整合到结构化表征中以预测未来状态[16–18]。这些内部模型使人类不仅能够对即时刺激做出反应，还能预测后果、模拟潜在结果并据此制定规划。在计算世界模型中复制这种对人类认知至关重要的预测能力，为赋予人工智体类似的预测和推理能力提供一条充满希望的途径。

从计算角度来看，将世界模型融入策略学习可以解决被动式方法的根本局限性。具体而言，基于世界模型的范式具有四个关键优势：
(1) 样本效率：智体可以从预想的部署中学习，从而显著减少昂贵的现实世界交互；
(2) 长远推理：显式的状态转换建模支持在更长的时间范围内进行规划和决策；
(3) 安全性：可在实际执行之前，通过模型内反事实推理来评估策略，从而最大限度地降低现实世界的风险；
(4) 主动规划：通过模拟未来轨迹，智体可以从被动控制器转变为能够预见未来的主动规划者。

基于这些基本原则，世界模型的研究在机器学习和具身人工智能领域经历几个不同的发展阶段。世界模型的发展经历几个不同的阶段：早期的研究主要集中于概率状态空间模型，例如隐马尔可夫模型[19]和线性动力系统[20]，这些模型学习结构化的潜状态及其时间转移动态，为建模隐世界状态如何随时间演化提供最早的形式化方法。随后，世界模型范式的正式引入催生基于深度学习的方法，这些方法在学习的潜状态空间中运行，并显式地对潜动态进行建模，以支持长期预测和策略优化[21-23]。最近，基于海量互联网规模数据（从文本语料库[24-28]到视频数据集[29-36]）预训练的大规模模型，在推理、理解和生成方面展现出前所未有的能力，表明它们编码大量对有效世界模型至关重要的世界知识。

世界模型在具身人工智能领域的应用前景，激发强化学习、机器人和自主导航等领域的广泛研究。近期的一些综述系统地回顾相关领域的进展：一些综述全面概述通用强化学习环境下的世界模型[37, 38]，而另一些综述则从仿真环境和基准任务的角度考察具身人工智能[39, 40]。此外，也出现一些特定领域的综述，分别聚焦于视觉与语言操作[41, 42]和视觉与语言导航[43-45]。然而，这些研究主要按应用领域（例如操作与导航）或学习范式（例如基于模型的强化学习与模仿学习）对文献进行分类，忽略一个关键的架构维度：世界模型应如何与动作策略在结构上关联？这一根本性的设计选择——是保持模块化分离、建立层级结构，还是追求端到端的统一——深刻影响着样本效率、可解释性和泛化能力，但尚未被系统地作为理解该领域的组织原则进行考察。

本综述旨在填补这一空白，引入一个系统性的分类体系，该体系涵盖基于世界模型具身智体的整个设计流程。近年来，该领域的研究兴趣激增，如图展示一些代表性研究成果。为了系统地梳理这些蓬勃发展的进展，该分类体系着重关注世界模型与策略之间的架构集成。基于这种关系，识别出三种主要范式：模块化、顺序式和统一式，它们构成分析的核心。
请添加图片描述

世界模型的核心思想是构建一个能够捕捉环境动态的内部表征[113, 114]。与反应模型不同，世界模型编码时间演化以预测未来状态。形式上，世界模型被定义为从过去状态 s 和可选的未来动作 a 到未来状态的映射：

s_[t,t+k] =M^WM𝜃(s[t−h,t−1] [, a_[t,t+k] ])

其中 s 表示状态，a 表示动作。

功能视角

上面方程中包含动作后，可以区分出两种典型的模型：
无动作世界模型（想象）。这类模型仅根据历史和高级指令（例如语言）预测状态转换，无需显式的未来动作输入。在此将语言条件模型归类为这类模型，因为指令指定任务语义（做什么），而不是运动控制（如何移动）[32, 110, 115–118]。从功能上看，它们充当“想象引擎”，生成合理的结果以支持高级决策[119, 120]。
动作条件世界模型（模拟器）。这类模型明确需要未来动作序列 𝑎_[𝑡,𝑡+𝑘] 作为输入。通过学习状态和动作的因果联合动力学，它们可以作为可学习的模拟器或物理引擎[31, 121, 122]。这种表述对于评估特定控制策略的具体后果至关重要。

模型视角

世界模型通常使用生成式人工智能架构来实现，并按其状态模态进行分类：
视觉模态。大多数世界模型利用视频生成架构。基于扩散的模型（例如，Sora [33]、CogVideoX [35]）利用对压缩潜表示的迭代去噪来生成高保真动态效果 [123, 124]。自回归模型（例如，VideoGPT [125]、Emu3 [126]）将视觉和语言视为离散token来建模长程依赖关系。这两类模型都为将世界模型扩展到复杂环境奠定基础。
语言模态。这些模型基于LLM和VLM)处理文本状态 [127–130]。它们利用基础模型的推理能力[26-28]生成符号化计划、目标描述和语义状态转换，从而提供强大的跨领域泛化能力。
潜模态。诸如JEPA[131, 132]之类的方法反对像素级预测，而是通过自监督学习抽象的潜空间。这些模型专注于预测规划所需的语义特征[133-135]，优先考虑与决策相关的结构而非视觉真实性。

世界模型 (WM) 与动作策略之间的架构关系可以通过耦合强度谱来刻画。从两个主要的正交维度定义耦合强度：
(1) 梯度流 (G)：策略目标函数的梯度是否可以直接反向传播到世界模型以更新其参数，从而实现联合优化。
(2) 信息依赖性 (I)：策略的输出（动作）是否在推理阶段的单次前向传播过程中显式地依赖于世界模型的输出（预测状态）。

可以通过考虑策略的前向计算来形式化这一点。令 s_t 为当前状态，a_t 为策略生成的动作。

• 在松耦合系统中，策略在其核心计算期间独立于世界模型（WM）的预测输出运行，其输入是当前状态，该状态可以是现实世界中观察的状态，也可以是世界模型预测的状态：

          **𝑎_𝑡 = Policy(𝑠_𝑡)**

• 在紧耦合系统中，策略的行动明确依赖于世界模型预测的未来状态 𝑠ˆ_𝑡+𝑘：

          **a_t = Policy(s_t, sˆ_t+k)，其中 s^_t+k = WM(s_t)**

这两个维度的结合产生三个主要范式，按耦合强度由弱到强排序：模块化架构、顺序式架构和统一式架构，如图所示：
请添加图片描述

具身智能中世界模型构建的三种架构范式。如表所示。
请添加图片描述

除了世界模型与动作策略之间的架构融合之外，世界模型还可以直接作为策略的数据引擎和评估器，在此忽略。作为数据引擎，它可以生成大量合成数据以支持策略训练；作为评估器，它可以作为评估策略强度和能力的标准化基准。

模块化世界模型和策略。

概述

具身智体的复杂问题解决——从机器人操作到自主导航——依赖于世界表征、预测和动作执行之间结构化的交互。智体能够有目的地行动，这源于其内部模型，该模型捕捉环境的因果和时间结构，使智体能够预测其行为的后果。当智体必须在部分可观测或动态环境中运行，而仅靠被动策略不足以应对时，这种能力就显得至关重要。
请添加图片描述

在模块化架构中，这一原则通过两个相互协作但又截然不同的组件之间的功能分离来实现：世界模型（WM）和动作策略模型（PM）。
• 世界模型编码并预测环境动态，提供支持时间推理和反事实模拟的潜表征。
• 动作策略模型，反过来，利用这些预测信号来选择或生成符合任务目标和物理可行性的动作。

在这种模块化架构中，世界模型的主要职责是作为外部环境的模拟器。给定一个编码后的观测值或抽象状态表示以及一个候选的未来动作，世界模型会根据已学习的世界因果动态，预测相应的下一个状态——无论是在像素空间还是在结构化的潜空间中。这一预测过程使模型能够在内部“展开”假设的轨迹，模拟在给定动作序列下可能发生的情况。由此产生的预测结果为策略模块提供关于不同动作的可行性和长期影响的信息信号。

至关重要的是，推理和决策过程——例如选择最优行动、规划多步骤策略或使用强化或生成目标优化行为——被委托给策略组件。因此，世界模型专注于提供一个物理上可靠且时间上连贯的仿真空间，而策略则利用这种仿真反馈来执行高级推理、目标选择或控制优化。这种预测仿真和行为推理的分离构成了模块化世界模型架构的概念基础。

这种模块化设计增强可解释性，支持跨不同任务的组合式重用，并实现表示、预测和控制之间多种形式的耦合。根据世界模型在学习和决策过程中扮演的主要功能角色，模块化架构分为两类。
• 闭环迭代模拟器：世界模型为优化过程提供连续的闭环反馈，该过程迭代地改进学习策略或动作规划（图 a）。
• 开环候选评估器：世界模型执行开环评估，根据预测的未来状态对一组候选动作或轨迹进行排序（图 b）。
请添加图片描述

这两种范式代表利用已学习的世界动态互补方式。迭代模拟器强调世界模型和策略优化之间的紧密耦合，使智体能够根据预测结果的反馈不断改进其内部部署。这种方法特别适用于基于模型的强化学习，其中梯度或样本效率至关重要。相比之下，候选评估器将世界模型视为预测评分函数——用它来评估候选动作或轨迹的质量，而不直接参与策略更新。这种方法更加灵活，可以与启发式规划器、基于扩散的动作采样器或语言条件决策模块结合使用。

尽管程序上有所不同，但这两种范式都依赖于相同的基本能力：在假设行为下，生成可靠且时间上连贯的未来状态预测。主要区别在于这些预测的用途——是作为优化反馈回路，还是作为评估预言机。

关键论文

世界模型作为迭代模拟器

在第一种范式中，世界模型与策略或规划器进行动态闭环交互。世界模型充当模拟器，提供迭代反馈以指导策略的优化，该策略可以是随时间训练的策略网络，也可以是在线规划的行动序列。该范式的一般流程总结在算法 1 中。
请添加图片描述

如算法所示，该方法的核心是一个连续循环，其中策略基于世界模型的模拟结果进行改进。该范式有两个主要应用。

第一个应用是策略网络优化，其中世界模型充当可微分的训练环境。策略网络（例如 Actor-Critic 模型）完全在世界模型的“想象”中训练。为了更全面地直观理解这一范式，上图 (a) 展示其架构以及使用 DayDreamer [187] 的典型工作流程。通过想象的展开，策略参数通过反向传播梯度进行更新，从而实现高效学习。DreamerV3 [198] 和 DayDreamer 等经典示例将 Dreamer 框架扩展到物理机器人，通过基于想象的训练学习运动和操作等复杂技能。它利用学习到的潜世界模型（循环状态空间模型，RSSM）来模拟策略展开，并通过反向传播梯度在“想象-执行-更新”循环中更新策略。例如，LaDi-WM [194] 使用扩散反馈在潜特征空间中执行迭代细化。这些工作共同体现迭代模拟器范式，其中世界模型作为动态演化的预测基础，用于连续的闭环推理。 WorldGym [192] 将世界模型本身概念化为一个虚拟环境，用于通过迭代部署进行策略评估。通过将策略和世界模型以闭环方式耦合，它能够在已学习的动态范围内完全进行蒙特卡罗部署，从而无需外部交互即可高效地估计策略性能。这种迭代仿真框架符合迭代模拟器范式，其中世界模型作为真实环境的高保真替代。MoDem-V2 [191] 通过将潜动态世界模型与通过模型预测控制优化的独立策略耦合，将基于模型的强化学习扩展到真实世界中的丰富接触操作。世界模型预测未来的潜状态、奖励和价值，使策略能够在已学习的动态范围内迭代地规划动作。尽管架构上是解耦的，但这两个模块以闭环方式运行，这使得 MoDem-V2 符合迭代模拟器范式。

第二个主要应用是使用基于模型的算法进行在线动作规划。在这种设置中，诸如模型预测控制（MPC）或蒙特卡洛树搜索（MCTS）之类的规划器在推理阶段迭代地查询世界模型，以找到最优的动作序列。例如，导航世界模型（NWM）[77] 在其规划模式下，将其视频生成世界模型集成到 MPC 框架中。规划器提出动作序列，NWM 模拟其结果，并将结果作为迭代优化循环中后续方案的指导。同样，DreamWalker [76] 也采用 MCTS 进行在线规划。其规划器通过反复查询世界模型来构建搜索树，以设想不同导航选择的结果，并将模型的预测作为反馈来找到最有希望的方案。在这两种情况下，世界模型都是推理阶段闭环迭代优化过程中的关键组成部分。 V-JEPA2 [132] 通过在少量机器人交互数据上训练一个基于动作的世界模型，并将其零样本部署到新环境中，展示这种范式。该模型使用模型预测控制（MPC）进行规划，其中世界模型根据动作序列预测未来的状态表示，规划器迭代地优化动作，以最小化预测状态和目标状态之间的距离。Ctrl-World [195] 执行策略展开以生成多样化的轨迹，然后将这些轨迹输入到世界模型中。人类的偏好判断提供二元成功/失败标签，以评估世界模型生成结果的质量。随后，该策略在现实世界中执行成功的轨迹，并利用这些成功的轨迹进行自我微调，从而进一步提高性能。

此外，一些工作将世界模型用作物理世界模拟器，并应用基于模型的强化学习（RL）来改进策略。 RWM-O [190] 就是一个典型的例子，它通过在迭代部署过程中将认知不确定性估计纳入奖励惩罚，为离线环境引入不确定性-觉察的策略优化。这种闭环框架能够完全从离线真实世界数据中实现稳健的策略学习，无需物理模拟器，并通过不确定性惩罚的想象来缓解分布偏移。UniSim [196] 使用训练数据中完成步骤数作为一个代理（proxy）奖励来训练一个模型，该模型将当前观测值映射到学习的奖励信号。然后，该奖励模型被用作世界模型的奖励函数，并通过 REINFORCE 算法改进 VLA 策略。World-Env [197] 训练一个基于 VLM 的稀疏二元奖励模型，使用成功/失败标签作为视频生成模型的奖励，从而使 VLA 策略能够在世界模型中执行在线强化学习。
请添加图片描述

世界模型作为候选评估器

这种范式采用更解耦的开环交互方式，其中世界模型作为一次性评估器。通常，首先由一个独立的策略或规划器生成一批候选轨迹。然后，世界模型对每条轨迹进行前向模拟以预测其结果，之后评分函数对轨迹进行排序，以便智能体执行排名最高的轨迹。算法 2 概述这种以评估为中心的工作流程。

请添加图片描述

与迭代方法不同，该方法以开环方式使用世界模型对一组固定的计划进行评分。上图 (b) 以可视化的方式分解此候选评估过程，并突出其独特特征。IRASim 框架 [182] 通过渲染多个建议动作序列的预测视频来体现这种设计，然后由值函数或策略选择器对这些视频进行评分。
视觉-语言-导航很好地诠释这一原理。例如，NWM [77] 的排序模式仅使用其世界模型来模拟和排序由外部策略生成的完整轨迹。Ego-Vision World Model [193] 通过其学习的世界模型，在每个时间步评估 1024 个候选动作序列，并使用一个代理（surrogate）值函数对轨迹进行评分，从而为接触-丰富的类人机器人控制选择最优轨迹，以此来体现这种范式。这种开环评估使机器人能够仅根据以自我为中心的深度图像和本体感觉反馈来执行灵活的接触规划任务，例如靠墙或阻挡物体。RoboScape [189] 作为一个基于物理的世界模型，可以作为策略评估器，生成用于策略训练的合成数据，并通过预测的视频展开来评估策略质量。该模型能够精确地模拟物理动力学，使其能够有效地评估不同的机器人策略，而无需与现实世界进行交互。

洞察与未来方向

(1) 世界模型的表征空间。一个根本的设计选择在于世界模型是在视觉潜空间还是基于状态的潜空间中运行。视觉空间预测提供丰富的、语义相关的信息，但计算成本高昂，且通常难以稳定。相比之下，状态空间预测可以抽象掉感知冗余，并允许对时间动态进行紧凑建模。当潜状态已经编码从多模态感知中提取足够多的任务相关信息时，后者尤其适用。在实践中，许多现代系统将两者结合起来——学习一个连接视觉输入和低维预测状态的潜表征，从而平衡表达能力和效率。

(2) 动作描述和任务模态。动作的表征方式直接影响工作记忆 (WM) 和策略之间的交互。对于操作任务 (M)，动作通常被参数化为配置空间或末端执行器空间中的连续或离散运动指令。然而，在导航任务（N）中，动作通常可以用符号甚至语言来表达，例如“向前移动2米”或“左转”。这反映了空间导航在结构上更简单，但在高层语义上更丰富，使得基于语言的动作描述能够作为推理和控制之间简洁通用的接口。因此，未来的架构可以利用混合动作表示，通过世界模型的预测动态将符号规划和连续控制连接起来。

（3）仿真中的泛化与过拟合。作为内部模拟器，世界模型最重要的属性是其可迁移性。一个泛化良好的世界模型应该能够预测超出训练分布的合理动态，从而能够在新的或假设的场景中进行推理。然而，经验证据表明，许多现有模型倾向于过拟合它们所训练的数据流形，导致在分布偏移的情况下预测结果不稳定。改进工作记忆表征的因果基础和组合结构仍然是构建真正泛化而非记忆的模拟器的核心挑战。

(4) 两种范式的比较优势。上文介绍的两种模块化范式——迭代模拟器和候选评估器——体现互补的设计理念。迭代模拟器擅长闭环优化，其中持续的反馈能够实现策略改进和动态适应。另一方面，候选评估器更适用于一次性预测或基于排序的控制，因为它们将评估与基于梯度的更新解耦。二者之间的选择取决于任务周期、计算预算以及自适应性和效率之间的理想权衡。在未来的系统中，这两种范式可以分层组合，其中候选评估器提出高级选项，而迭代模拟器通过模拟交互对其进行细化。

。。。。。。待续。。。。。。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

抗磁、抗窄、抗微动！Captiks全身惯性动捕系统攻克车内精细动作捕捉难题

DAMO开发者矩阵

EM-Core-Agent：AI Agent 具身认知核心系统——架构白皮书 V1.0

DAMO开发者矩阵

气缸驱动并联机器人位姿控制策略【附仿真】

采用正弦扫频激励，测得-3dB带宽达到4.2Hz，比原控制器提高1.5Hz。在单轴阶跃响应测试中，稳态误差±0.12mm，调整时间0.28s，比传统PID缩短42%。并联平台轨迹跟踪正弦信号（幅值20mm，频率0.5Hz）时，最大跟踪误差1.8mm，均方根误差0.9mm。为提升系统频响，设计集成自适应架构，直接自适应项补偿参数不确定性，间接自适应项处理未建模动态。✨ 长期致力于气动并联平台、气动伺