别再用二维思维看世界模型了！这篇“划时代”综述，用三维框架重塑机器人认知！

机器的 “大脑模拟器”—— 世界模型，早已成为具身智能突破的核心：自动驾驶预判路况、服务机器人完成家务，都离不开它的支撑。但当前领域术语混乱、分类缺失、标准不一，严重阻碍技术落地。

大靠山

1108人浏览 · 2025-11-24 17:18:45

大靠山 · 2025-11-24 17:18:45 发布

近期一篇综述文章《A Comprehensive Survey on World Models for Embodied AI》，首次系统性提出了 “功能 - 时序 - 空间” 的三维分类框架，统一数据集与评估标准，为整个领域提供了模型设计的方法论指导和性能评估的标准化流程。

核心创新：三维分类框架重新定义世界模型

维度一：功能导向——从专用到通用的演进路径

传统的“决策耦合型”世界模型，虽然具备“模型结构紧凑，推理效率高”的优点，但却是以牺牲跨任务的泛化能力为代价的。

换句话说，一个精通路径规划的模型，面对抓取操作时，就可能束手无策，需要针对新任务重新训练。

我们真正需要的，是AGI（通用人工智能）的“基石”——一个“全能型”的智能体。

这类模型被设计为任务无关的环境模拟器，它们的目标是提供统一且强大的环境理解能力，从而支持多种下游任务。

维度二：时序建模——自回归与全局预测的技术博弈

理解了世界模型的“功能导向”之后，我们必须正视它的核心挑战：

如何精确地进行时序建模？

这就像为AI搭建一座“时间机器”，它需要能够预测环境在下一刻乃至更远的将来会发生什么变化。

在应对这一挑战的过程中，形成了两种主要的策略，它们在“预测精度”与“计算效率”之间做出了不同的权衡：

简单来说：

如果追求精确的长期预测（如复杂规划），序列模拟推理表现更优；
如果需要高效率的实时控制，全局差分预测则具有明显优势。

这种差异不仅体现在性能指标上，更反映在模型的内部结构和工作流程上。

维度三：空间表示——从抽象到具象的多层次建模

如果说时序建模是世界模型的“时间机器”，那么空间表示就是它的“感知系统”——

它决定了模型如何“看”待和理解环境。

基于此也划分出了四种主流的表示范式，它们在抽象度和几何保真度之间进行了巧妙的平衡：

下图也提供了详细的汇总，清晰地总结了每种方法的优缺点和适用场景，是理解世界模型空间表示的指南。

技术演进：从循环网络到现代架构的变迁

架构演进的三个阶段

我们可以将世界模型的技术发展划分为三个里程碑式的阶段，每个阶段都解决了前一代架构的“痛点”，为通用智能铺平道路：

第一阶段：循环神经网络时代（打下基础）

以 RSSM（Recurrent State Space Model）为代表的早期模型，主要基于 RNN 架构。它们是世界模型的先驱，通过递归状态更新来实现时序建模。

特点：擅长处理短序列，结构清晰。

局限：在处理长序列时效果不佳，且难以充分利用现代硬件的并行计算能力。

第二阶段：Transformer和Diffusion主导（寻求突破）

随着 Transformer 架构在NLP和视觉领域的统治，世界模型也开始引入“自注意力机制”进行时序建模，极大地提升了处理复杂长序列的能力。

同时，Diffusion 模型在高质量视频生成上的成功，也迅速被吸纳进世界模型的生成能力模块中。

第三阶段：State Space Models（SSMs）的崛起（融合优势）

当前，Mamba 等 State Space Models (SSMs) 的出现，正在为世界模型打开一扇新的大门。

SSMs 旨在兼具 RNN 的递归特性（高效的序列处理）和 Transformer 的并行能力（高效的硬件计算），在长序列建模方面展现出巨大的潜力，有望成为下一代世界模型的核心骨架。

应用场景的扩展轨迹

世界模型的终极价值，在于它们在现实世界中的应用潜力。我们聚焦于三个最具代表性的应用领域，看看世界模型是如何引领技术革命的：

1. 机器人操作：从简单抓取到复杂协同

早期的世界模型主要满足于机器人完成简单的抓取和放置（Grasping and Placing）任务。

但随着架构和表示能力的升级，现在的研究热点已跃升至双臂协同操作、动态环境下的实时适应等更为复杂的任务。这要求模型不仅要理解自身动作，还要预测物体和环境的动态变化。

RoboTwin 2.0

能力演进：简单 → 复杂协同、实时适应

2. 自动驾驶：走向端到端整合的“统一大脑”

自动驾驶领域的世界模型，正经历从“模块化”到“整体化”的重大转变。传统流程是将感知、预测、规划模块独立优化。

如今，世界模型正朝着感知-预测-规划的端到端整合方向发展，目标是构建一个统一的决策大脑，以实现更低延迟和更高鲁棒性的决策。

World4Drive

技术趋势：模块化 → 端到端整合

3. 通用智能（AGI）：跨域迁移的终极探索

面向通用人工智能（AGI）的世界模型，是所有研究的终极目标。

这类模型需要具备强大的跨域迁移和零样本泛化能力。研究者们正致力于构建一个统一的世界理解框架，使其能够将虚拟环境（如仿真器）中学到的知识，高效地迁移到真实世界中，实现真正的任务无关智能。

终极目标：统一世界理解、零样本泛化

性能对比：实验数据揭示的技术现状

视觉竞争场——视频生成领域的“硬指标”

世界模型的视觉建模能力，直接决定了它能否成为一个合格的“环境模拟器”。其中基于nuScenes数据集的视频生成任务，竞争异常激烈，而衡量模型优劣的，是两个“硬指标”：视觉保真度和时序一致性。

▲在nuScenes数据集上的视频生成性能比较。©️【深蓝具身智能】编译

上表详细汇总了主流模型的性能，揭示了当前技术的两大突破口：

（1）视觉保真度（追求“真实感”）

这项指标通常由 FID (Fréchet Inception Distance) 衡量。

其中，DrivePhysica 模型以 FID 4.0 的成绩，显著领先于其他方法。

它的成功在于引入了物理约束，有效提升了生成视频的真实感和可信度，让“假”视频看起来更像“真”环境。

（2）时序一致性（告别“闪烁”）

这项指标由 FVD (Fréchet Video Distance) 衡量，它反映了视频画面在时间维度上的流畅性和连贯性。

其中，MiLA 模型表现突出，FVD 指标达到 14.9。

它采用的时序注意力机制，有效地缓解了视频生成中常见的画面闪烁（Flickering）问题，确保了时间轴上的高度连贯性。

结论：

虽然市场呈现出 “单点突破” 的格局（DrivePhysica 擅长保真度，MiLA 擅长一致性），但数据也表明：集成多种技术手段的“混合架构”模型，在各项指标上表现出更为均衡和鲁棒的性能。

从“时间”到“时空”——突破4D预测与控制瓶颈

如果说之前的技术是在解决“平面”和“时间”问题，那么现在的世界模型则将挑战升级到了 4D（三维空间 + 时间）这一更复杂的维度。

4D占据预测：从纯视觉到几何先验

Occ3D-nuScenes 数据集上的 4D 占据预测（Occupancy Prediction）任务，是评估世界模型对真实世界动态理解的最高标准。

▲在Occ3D-nuScenes基准测试上的4D占用预测性能比较。©️【深蓝具身智能】编译

上表揭示了决定预测精度的两大关键要素：

（1）输入模态的决定性影响：

使用真实占据信息作为输入的方法，比仅依赖纯视觉的方法性能显著更优。这强调了几何先验信息对世界模型进行精确空间理解的极端重要性。

（2）SOTA模型策略：

COME 模型通过有效结合时序建模和空间表示学习，在多个指标上达到当前最佳性能（SOTA）。这再次证明了时空联合优化是实现卓越表现的必由之路。

机器人控制：数据效率的里程碑

在机器人控制任务中，世界模型的进步则体现在令人振奋的效率飞跃上：

训练效率的飞跃：模型的数据效率从早期的 500万训练步数 (5M) 大幅缩减至 50万步 (500k)，实现了惊人的 10倍效率提升。

驱动因素：这一飞跃主要归功于更好的表示学习和高效的预训练策略，让世界模型能更快、更少地学习和掌握环境动态。

迈向通用——多模态融合的标准化

为了应对复杂的真实世界环境，现代世界模型正普遍采用多模态输入的标准化设计，融合了视觉、触觉、本体感受等多种信息流。这种设计是模型从单一任务走向通用智能的必要前提。

控制任务的效率提升

机器人控制任务的评估结果展现了世界模型在数据效率方面的显著进步：

训练效率的飞跃：

数据效率从早期的5M训练步数大幅降至500k。这一10倍的效率提升主要得益于更好的表示学习和预训练策略

多模态输入的标准化：

现代世界模型普遍采用多模态输入，包括视觉、触觉、本体感受等信息的融合。

世界模型技术的挑战与机遇

当下困境：世界模型的三大挑战

（1）数据和评估体系的不完善

当前，世界模型领域面临的首要挑战是：缺乏统一的大规模数据集和标准化评估指标。

现状痛点

数据集碎片化：难以进行模型间的横向对比。

评估指标偏颇：过度重视像素级保真度，却忽视了更重要的物理一致性和因果推理能力。

真实性差距：严重依赖仿真数据，与真实世界的鸿沟难以跨越。

解决方案：

社区正积极推动建立跨域统一数据集（如Embodied AI Foundation），并提出 Physics Consistency Score (PCS) 和 Causal Reasoning Accuracy (CRA) 等新的评估指标。

（2）计算效率与模型复杂度的矛盾

高质量的世界建模往往需要复杂的模型架构，但这与实时控制应用对推理速度和能耗的严格要求形成了尖锐的矛盾。

核心难题：

高分辨率表示带来的内存占用和推理延迟；移动机器人等场景的能耗考量。

技术路线：

业界正广泛应用模型压缩、知识蒸馏，并探索 MobileViT、EfficientNet 等轻量化架构，力求在精度-效率权衡空间中找到最优解。

MobileViT

（3）建模策略的根本性难题

自回归预测与全局预测的权衡，是世界模型设计中始终绕不开的核心难题。

如何在有限资源下准确预测长时序动态变化、如何统一建模多尺度时序耦合，以及如何有效量化和传播预测中的不确定性。

展望未来：世界模型的三大发展方向

面对上述挑战，未来的研究方向也已清晰地浮现，它们将共同推动世界模型迈向通用智能：

混合架构的技术融合：

不再非此即彼，未来的模型将结合自回归和全局预测的优势，实现分层时序建模和适应性策略切换。

评估体系的根本性变革：

评估的重心将从像素级指标彻底转向物理一致性检验和因果推理测试，确保模型是真正理解世界，而非仅仅拟合图像。

数据资源的生态建设：

建立支持大规模预训练的数据生态，包括利用物理仿真器生成合成数据，并建立标准化的真实数据采集流程，为通用世界模型提供坚实的“营养基”。

总结

World Model，作为具身智能的“内部模拟器”和“时空大脑”，正在以前所未有的速度从实验室走向真实世界。

本综述提出的三维分类框架，不仅为当前技术发展提供了清晰的脉络，更为未来的研究指明了道路。

未来的世界模型将不仅仅是技术工具，更是连接虚拟与现实、感知与行动、当下与未来的重要桥梁。在这个充满机遇和挑战的时代，让我们共同见证，AI如何真正具备类人世界的理解能力！

如何高效转型Al大模型领域？

作为一名在一线互联网行业奋斗多年的老兵，我深知持续学习和进步的重要性，尤其是在复杂且深入的Al大模型开发领域。为什么精准学习如此关键？

系统的技术路线图：帮助你从入门到精通，明确所需掌握的知识点。
高效有序的学习路径：避免无效学习，节省时间，提升效率。
完整的知识体系：建立系统的知识框架，为职业发展打下坚实基础。

AI大模型从业者的核心竞争力

持续学习能力：Al技术日新月异，保持学习是关键。
跨领域思维：Al大模型需要结合业务场景，具备跨领域思考能力的从业者更受欢迎。
解决问题的能力：AI大模型的应用需要解决实际问题，你的编程经验将大放异彩。

以前总有人问我说：老师能不能帮我预测预测将来的风口在哪里？

现在没什么可说了，一定是Al；我们国家已经提出来：算力即国力！

未来已来，大模型在未来必然走向人类的生活中，无论你是前端，后端还是数据分析，都可以在这个领域上来，我还是那句话，在大语言AI模型时代，只要你有想法，你就有结果！只要你愿意去学习，你就能卷动的过别人！

现在，你需要的只是一份清晰的转型计划和一群志同道合的伙伴。作为一名热心肠的互联网老兵，我决定把宝贵的AI知识分享给大家。至于能学习到多少就看你的学习毅力和能力了。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

AI五大门派的底牌、命门与终极赌局

作为一个面向Web的动态3D高斯泼溅（3DGS）渲染器，Spark与当前最流行的Web3D框架Three.js集成，并基于Web GL2运行，因此只要有浏览器，无论是桌面端、iOS、Android，还是VR设备，都可以使用。比如Skild AI，它的核心产品“Skild Brain”，作为统一的机器人基础模型，其目标是让同一个“大脑”能够控制任何形态的机器人，无论是四足机器人、人形机器人还是桌面机