被滥用的“世界模型”：李飞飞万字长文厘清渲染、模拟与规划的底层逻辑

m0_68114149

365人浏览 · 2026-06-04 16:48:36

m0_68114149 · 2026-06-04 16:48:36 发布

原文链接如下：https://substack.com/app-link/post?publication_id=6635554&post_id=200386248&utm_source=post-email-title&utm_campaign=email-post-title&isFreemail=true&r=5557kd&token=eyJ1c2VyX2lkIjozMTA5NzIwNDUsInBvc3RfaWQiOjIwMDM4NjI0OCwiaWF0IjoxNzgwNTA4NjQ4LCJleHAiOjE3ODMxMDA2NDgsImlzcyI6InB1Yi02NjM1NTU0Iiwic3ViIjoicG9zdC1yZWFjdGlvbiJ9.oxsIibT4qJO8sNakY29dHyaVhsX6z8uoAA2TEvRxZug

“世界是所有发生的事物。”——路德维希·维特根斯坦，《逻辑哲学论》，1921年

“世界不是由文字组成的。”

这是人工智能顶尖学者李飞飞（Dr. Fei-Fei Li）在近期发表的长文中的开篇第一句话。在过去两三年里，大语言模型（LLM）的爆发赋予了机器对概念、词汇和逻辑推理的非凡掌控力，让它们学会了如何完美地“谈论”这个世界。然而，无论是虚拟还是现实的物理世界，都在一个截然不同的基底上运行。

语言模型学习的是文本的统计结构，但要真正理解光线如何落在表面上，或者物体如何遵循牛顿定律对力做出反应，我们需要的是另一种力量——世界模型（World Models）。

如今，“世界模型”已经成为AI领域最火热、但也最被严重滥用的术语。能生成绝美但不符合物理规律的视频大模型、能生成文字游戏的语言模型，以及忠实模拟燃烧的物理引擎，全都在使用同一个名字。在AI行业急需精确性来指引未来的当下，李飞飞和她的World Labs（世界实验室）团队决定正本清源，为我们揭开“世界模型”的底层逻辑。

认知世界的底层逻辑：感知-行动循环

要真正弄懂什么是世界模型，我们不需要被各种高深的模型架构所迷惑，只需回到一个几十年前经典的强化学习理论：部分可观察马尔可夫决策过程（POMDP）。

我们可以用一个简单的“感知-行动循环”来理解AI是如何与世界互动的，这个循环包含四个核心要素：

智能体（Agent）： 可以是人类、机器人或者软件系统。
行动（Action）： 智能体做出的动作或反应。
状态（State）： 物理世界底层的真实情况。这包含了每一刻世界上所有物体的位置、速度和属性。它是完整的现实，但身在其中的智能体永远无法直接且全知全能地看到它。
观察（Observation）： 智能体通过“眼睛”（如视网膜上的光子、传感器的读数、视频中的像素）看到的现实的局部切片。

新的观察会引导新的行动，循环往复。如今市面上所有被称为“世界模型”的技术，实际上都只是这个循环的不同投影，它们各自负责输出这个循环中的不同部分。

基于此，李飞飞将当下的世界模型划分为三大“门派”。

核心干货：世界模型的三大功能门派

第一派：渲染器（Renderers）—— 只为“人类眼睛”负责

渲染器以供人类眼睛观看的像素形式输出“观察”，最重要的品质是视觉逼真度。 目前的文生视频模型，以及谷歌的 Genie 3 等交互系统，本质上都是渲染器。它们就像是技术高超的“画家”，能够根据指令生成绚丽的画面，但它们对三维物理结构没有真正明确的理解。李飞飞用了一个极其精准的比喻：渲染器生成的无人机航拍城市镜头可能从上方看起来完美无缺，但如果你试着在下方生成的城市里开车，建筑物就会分崩离析。 它们懂“看起来像什么”，但不懂“实际上是什么”。

第二派：规划器（Planners）—— 决定“下一步做什么”

规划器以观察为输入，闭环输出“行动”。 如果渲染器是画家，规划器就是“驾驶员”。给定一个画面和一个目标，它负责决定智能体接下来该做什么。这正是目前发展迅猛的机器人学习（Robotic Learning）领域最关心的方向。 “能规划的机器人才是能工作的机器人。” 但现实是骨感的，虽然现在的机器人演示视频看起来很惊艳，但几乎所有的系统都局限于高度受限的实验室环境中，任务时间极短、面对的物体极少。规划器要真正走出实验室进入复杂的厨房、仓库和手术室，仍有一道巨大的鸿沟。

第三派：模拟器（Simulators）—— 最被忽视的“决定性枢纽”

模拟器输出“状态”：一种在几何、物理或动力学上忠实的底层世界表示。 在三大门派中，渲染器商业化最成熟，规划器最吸引眼球，而模拟器受到的公众关注最少，却最具决定性影响。 模拟器就像是“建筑工程师”。渲染器只求好看，而模拟器要求严格遵守几何法则和牛顿定律。李飞飞指出，模拟是连接视觉（渲染）与行动（规划）的桥梁。 如果语言是世界的抽象，像素是投影，那么几何、物理和动力学就是世界本身。一个掌握了模拟的模型，既能把理解转化为给人看的绝美像素，又能为机器人的行动提供物理预测。这也是当前最难啃的硬骨头：带物理标注的三维数据极其稀缺，且多物理模拟（如流体、布料、刚体的交互）的计算成本高昂。

走向统一：AI空间智能的终局

这三个类别虽然现在壁垒分明，但它们的边界正在迅速消失。

因为不论是渲染世界、模拟世界还是在世界中行动，所需的底层物理知识是相通的。一个真正理解了“杯子放在桌子上”的模型，应该既能从任何角度渲染这个杯子，也能模拟杯子被推时发生的物理碰撞，更能规划出一只机械手去拿起它。这三类功能，最终只是同一种底层理解的三个投影。

行业的逻辑终点，是一个**“统一的世界模型”（Unified World Model）**。它将是一个单一的基础大模型，能够根据下游使用者的需求，在渲染逼真视图、生成物理结构、规划动作序列之间自由切换。

这一进程已经开始。比如 World Labs 推出的首个模型 Marble，就已经打破了渲染器和模拟器之间的界限，能从单一模型中同时输出用于视觉观看的“高斯泼溅（Gaussian splats）”以及物理引擎可以直接操作的“碰撞网格（collision meshes）”。

从20世纪80年代末以来，整个AI领域就在下注：一个足够丰富的世界模型，就是任何智能体观察世界、构建世界并在其中行动所需要的全部。随着三大技术的融合，这个宏大的赌注正在重塑机器智能与其所居住的物理世界之间的关系，这也正是“空间智能（Spatial Intelligence）”的漫长发展轨迹。

正如李飞飞在文末所感叹的那样： “语言为机器提供了一种谈论那个世界的方式。而世界模型将是机器最终理解、想象、推理并真正与之互动的途径。”

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

AI Agnet

AI Agent。Agent 和普通聊天机器人有什么区别？Workflow 和 Agentic Workflow 是什么？Tool、Function Calling、Plugin、Skill 又有什么不同？RAG 算不算记忆？MCP 和 A2A 分别是干什么的？一个 Agent 不够，为什么还要搞多智能体？这些名词单独看都不难，难的是它们经常混在一起出现。所以这篇文章不讲太复杂的理论，而是尽量用通