回看世界模型 8 年进展,始终没突破的瓶颈是什么?
世界模型通过学习环境的时空结构、动态规律与不确定性,能够在“脑海中”模拟未来、推演行动后果,大幅降低真实世界交互成本,尤其适配机器人、自动驾驶、科学发现等高风险、高成本场景。当前的仿真刷分、实验室演示,只是漫长征程中的起点。那些能够突破“仿真-真实”鸿沟、兼顾效率与泛化、融合物理与因果的世界模型,才会成为通用人工智能、具身智能的真正基石。从2018年Ha与Schmidhuber提出世界模型概念,到

世界模型,是“真想象”还是“高级过拟合”?
——八年演进
目录
今年,人工智能领域的世界模型(World Models, WMs)研究迎来爆发式增长。
而热度之下,概念歧义与路径分化同样显著:视频生成模型是否等价于世界模型?基于想象的强化学习与基于物理引擎的仿真有何本质区别?不同社区对“建模世界”的理解往往各自为政,缺乏统一的参照框架。
本文基于2026年中科院联合MBZ、NTU、Oxford等顶尖高校提出的世界模型领域综述最新综述《Learning to Model the World: A Survey of World Models in Artificial Intelligence》,系统梳理世界模型的技术范式、应用落地、评测体系与核心瓶颈,揭示这一领域正在发生的结构性转型。
01 世界模型:因何成为必争之地?
世界模型的核心价值,在于让智能体不再被动响应观测,而是主动构建对世界的内部表征。
传统无模型方法(Model-Free)依赖大量实时交互,样本效率极低、泛化能力薄弱;
世界模型通过学习环境的时空结构、动态规律与不确定性,能够在“脑海中”模拟未来、推演行动后果,大幅降低真实世界交互成本,尤其适配机器人、自动驾驶、科学发现等高风险、高成本场景。
随着大规模生成模型、多模态基础模型与强化学习技术的突破,世界模型的应用边界被持续拓宽,从早期的游戏仿真,延伸至机器人操控、自动驾驶决策、生命科学模拟、GUI智能体等多元领域。

▲世界模型的三大核心阶段与关键功能
但当前研究的碎片化问题极为突出:
建模范式互不兼容、应用场景各自为战、评测标准缺乏统一,大量工作停留在“仿真环境刷分”阶段,难以支撑真实世界部署。
这也正是该综述首次提出四大范式统一分类、全场景应用梳理、全新评测指标构建的核心原因。
02 四大技术范式:世界模型的当前格局
基于建模机制与数学形式,将现有世界模型划分为四大分支,清晰界定了各自的能力边界与适用场景。
观测级生成式世界模型
核心逻辑:直接在高维空间中,从历史观测与动作预测未来视觉、语言、3D/4D观测结果。
技术路径:以自回归、扩散模型、NeRF、高斯泼溅等生成架构为核心,追求视觉保真度与语义一致性。

▲Emu3 模型结构图:统一多模态建模实现生成式世界建模
代表工作:Emu3、Wan、4D-fy、Text2Room、WonderWorld。
优势:生成效果逼真、模态覆盖全面,适合可视化仿真与内容生成。
瓶颈:长程一致性差、可控性弱、计算与重建成本极高,难以支撑实时决策。
隐空间世界模型
核心逻辑:先将高维观测编码为紧凑隐式表示,在隐空间中学习环境动态转移规律。
技术路径:基于JEPA、V-JEPA、DINO等自监督框架,聚焦隐空间动态预测与语义捕捉。

▲V-JEPA 2 模型结构图:基于互联网规模数据的联合嵌入预测训练
代表工作:V-JEPA 2、DINO-WM、MC-JEPA、seq-JEPA。
优势:计算效率高、泛化性强,兼顾模拟与规划能力,摆脱对大规模标注数据的依赖。
瓶颈:可解释性差、细粒度细节丢失,难以适配对精度要求极高的操控任务。
基于强化学习的世界模型
核心逻辑:从智能体-环境交互中学习动态模型,结合奖励预测完成规划与策略优化。
技术路径:以循环状态空间模型(RSSM)为骨干,通过“想象推演”替代真实交互。

▲DreamerV3 模型结构图:基于循环状态空间模型的环境动态学习
代表工作:Dreamer系列、TD-MPC2、REM、HarmonyDream。
优势:样本效率高、决策导向明确,完美适配连续控制任务。
瓶颈:易受分布偏移影响、误差累积严重,更适合专用规划而非通用世界建模。
以对象为中心的世界模型
核心逻辑:将环境拆解为离散对象与属性,建模对象级动态与关系依赖。
技术路径:基于Slot Attention插槽表示,实现组合式推理与可解释建模。

▲SlotFormer 算法流程:基于预训练对象中心模型的未来对象状态预测
代表工作:SlotFormer、Dyn-O、CarFormer、FOCUS。
优势:可解释性强、组合泛化能力突出,适合复杂场景的结构化理解。
瓶颈:对象跟踪可靠性不足、策略学习难度大,真实场景鲁棒性待提升。

▲基础世界模型核心定位与建模范式对比表
四大范式并非相互替代,而是各有侧重:观测级生成擅长“看”,隐空间擅长“想”,强化学习范式擅长“做”,对象中心范式擅长“解”。当前研究的主流趋势,正是四大范式的融合互补。
03 落地全景:世界模型的六大应用战场
世界模型的价值,最终要在真实场景中兑现。研究全面覆盖了当前最具潜力的六大应用领域,清晰呈现了“技术-场景”的适配关系。
机器人:从仿真操控到真实具身

▲世界模型在机器人 AI 中的核心应用
机器人是世界模型最核心的落地场景,覆盖操控、导航、策略学习、运动四大任务。
-
操控:通过隐式动作想象、控制导向规划,完成抓取、装配等接触式密集任务;
-
导航:依托生成式想象、持久记忆表征,实现长距离、动态环境的安全导航;
-
策略学习:用“想象优化”替代真实试错,降低机器人训练成本;
-
运动:建模接触动态与地形约束,提升人形机器人、四足机器人的运动鲁棒性。
核心痛点:仿真到真实的域迁移、长程操作误差累积、边缘设备实时部署。
自动驾驶:从感知预测到闭环决策
世界模型为自动驾驶提供未来场景推演、行为反事实推理、风险感知规划能力。

▲自动驾驶世界模型分类表
-
预测建模:仅通过历史观测预测交通流与场景演化,用于数据生成与预训练;
-
动作条件想象:基于自车动作模拟未来结果,评估不同驾驶行为的安全性;
-
决策闭环集成:将想象推演嵌入决策回路,直接支撑策略优化与实时控制。
代表工作:GAIA-1、Drive-WM、Think2Drive、Copilot4D。
核心痛点:极端场景泛化、多智能体交互建模、物理一致性保障。
科学发现:从数据模拟到机理探索
世界模型正在成为科学研究的“数字实验室”,覆盖社会经济、物理生物、医疗健康。

▲科学领域
-
社会系统:模拟群体行为、政策效果、金融市场动态,支撑宏观决策;
-
自然科学:建模细胞演化、分子相互作用、物理系统时空规律;
-
医疗领域:模拟肿瘤发展、超声引导、手术过程,辅助治疗规划。
核心价值:突破真实实验的成本、伦理、风险限制,加速科学假设验证。
虚拟游戏:从像素渲染到交互世界
游戏是世界模型的天然试验场,分为2D像素级、3D网格级两大方向。

▲虚拟游戏仿真
-
2D仿真:直接预测像素级未来画面,支持实时交互与无限生成;
-
3D仿真:构建几何一致、可探索的交互世界,提升沉浸感与物理真实性。
代表工作:GameNGen、HunyuanWorld、Matrix-3D。
核心痛点:长程一致性、物理规则保真、实时渲染效率。
GUI智能体:从界面操作到前瞻规划
世界模型赋予桌面、网页智能体界面动态预测、多步规划、错误修正能力。

▲GUI 智能体
-
网页智能体:模拟页面跳转与操作结果,提升复杂任务执行成功率;
-
系统智能体:建模操作系统动态,实现无执行的前瞻控制。
代表工作:WebDreamer、NeuralOS、ViMo、R-WoM。
核心痛点:界面非平稳性、部分可观测性、多步推理误差累积。
可解释与可信世界模型
面向安全关键场景,世界模型必须突破“黑箱”局限,实现可解释性、安全性、因果性。
-
可解释性:探究模型内部是否真正学习世界结构,而非单纯拟合数据;
-
可信安全:保障分布偏移、对抗扰动下的稳定性,规避决策风险。
核心方向:自进化学习、因果探测、形式化验证。
04 评测与平台:世界模型的“度量衡”困境
评测体系的缺失,是制约世界模型发展的关键短板。研究首次系统梳理了基准数据集、评测指标、仿真平台三大基础设施,并提出全新度量标准。
基准数据集
覆盖预训练与下游任务两大场景:

▲按功能分类的世界模型基准数据集
-
预训练:WebVid-10M、Panda-70M、Ego4D等大规模视频数据;
-
下游:机器人(Open X-Embodiment)、自动驾驶(NuScenes)、科学(JUMP Cell Painting)、游戏(Arcade Learning Environment)、GUI(OSWorld)。
核心评测指标
传统指标聚焦生成质量与任务成功率,难以衡量世界模型的核心能力。研究提出三大全新指标:

▲观测级生成式世界模型在 WorldScore 数据集上的性能对比
-
泛化能力G:衡量跨域分布偏移下的任务性能衰减;
-
因果推理能力C:基于反事实干预,评估模型对因果关系的理解;
-
长程一致性H:衡量多步推演中真实轨迹与想象轨迹的偏差。
仿真平台
主流平台包括Bullet、PhysX、MuJoCo、Omniverse、Isaac Gym等,支撑世界模型的训练与验证。但当前平台存在GPU加速不足、跨平台确定性差、多智能体仿真效率低等问题,导致评测结果难以复现、真实场景适配性差。

▲用于世界模型评估的物理引擎与仿真平台汇总
在WorldScore统一评测基准下,现有模型呈现明显权衡:
3D模型可控性强但动态能力为零,视频模型动态流畅但细粒度可控性弱,尚无模型实现全面均衡。
05 四大核心挑战:世界模型的破局之路
尽管技术快速迭代,世界模型仍面临四大难以回避的本质挑战,也是未来5年的核心研究方向。
科学建模:从“拟合观测”到“理解机理”
当前模型仅能拟合数据分布,生成看似合理却违背物理定律的结果。未来必须走向符号化、可验证、可解释的科学建模,将物理守恒定律、因果规则嵌入模型,让世界模型从“统计插值器”变为“机理解释器”。
长程一致性与因果推理:从“短期预测”到“可靠推演”
误差累积、关联而非因果学习,导致长程推演快速崩塌。未来需要层级时序建模、显式因果表征、反事实推理,让模型具备稳定的长期规划能力。
物理与语义接地:从“视觉逼真”到“逻辑自洽”
多数模型缺乏物理约束与语义结构,运动不合理、对象交互矛盾。需要融合物理先验、可微分仿真、符号知识图谱、对象中心表示,实现物理可信与语义一致。
真实世界泛化与可扩展性:从“仿真专用”到“通用部署”
现有模型局限于窄域任务,计算与数据成本高昂,无法边缘部署。未来需要基础世界模型、数据高效学习、参数高效微调、持续学习,实现跨环境、跨任务、跨形态的通用泛化,适配边缘设备实时推理。
06 结语
从2018年Ha与Schmidhuber提出世界模型概念,到2026年四大范式成型、全场景渗透,世界模型已经完成了从“概念提出”到“技术验证”的初级阶段。
但真正的革命才刚刚开始:世界模型的终极目标,不是生成逼真的画面,而是构建像人类一样理解世界、预测未来、理性决策的内部表征。
当前的仿真刷分、实验室演示,只是漫长征程中的起点。那些能够突破“仿真-真实”鸿沟、兼顾效率与泛化、融合物理与因果的世界模型,才会成为通用人工智能、具身智能的真正基石。
Ref
论文标题:Learning to Model the World: A Survey of World Models in Artificial Intelligenc
论文链接:https://www.techrxiv.org/doi/pdf/10.36227/techrxiv.177274570.09578608/v1
项目链接:https://github.com/JiahuaDong/Awesome-World-Models
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐
所有评论(0)