从像素复刻到行动控制:具身世界模型的底层逻辑探索
今年以来,世界模型正在成为 AI 领域最受关注的方向之一。通用世界模型的生成能力在飞速演进:从几秒的场景补全到更长时间的连续视频生成,分辨率越来越高,动态细节越来越逼真。在许多通用生成模型的评估中,行业也逐渐形成了一条重要标尺:生成画面越接近真实像素,模型越容易被认为具备更强的世界模拟能力。

但在每天和真机打交道、盯着机器人落地成本的我们看来,这里存在一个容易被忽视的方向差异。能高清复刻世界的通用世界模型,并不必然等于能支撑机器人行动的具身世界模型。二者共享部分底层技术基础,但进入 Physical AI 之后,最终评价标准和部署约束会发生明显变化。
这并不是否定通用生成式世界模型的价值。恰恰相反,高质量的视频生成模型提供了重要的视觉先验、时序建模能力和数据生成能力。关键在于,当这类模型进入机器人系统时,评价标准必须从“生成得像不像”进一步转向“是否服务行动、是否降低风险、是否能在部署约束下被及时调用”。
我们可以从一个最朴素的机器人任务说起:伸手拿起桌上的一只水杯。如果按通用世界模型的逻辑,做好这件事意味着要生成足够真实的未来画面。桌面的木纹肌理、杯身的光影反射、窗外云层的流动轨迹,细节越丰富越好。
但对一台真实执行动作的机器人来说,这些像素级的细节绝大多数都是无关信息。它不需要预测桌面花纹的每一处的细节,不需要还原无关物体的运动,更不必耗费算力去生成未来 10 秒里所有的视觉细节。
真正决定任务成败的,是另一组信息:水杯的空间位置、与重量和表面摩擦相关的可观测线索,最优抓取点在哪里,手指接触后的滑动风险,不同动作角度对应的不同结果,当前任务的推进进度,以及潜在的失败边界。
这组信息体量不大,却足以支撑机器人的决策、控制与风险判断。我们将其定义为「控制充分状态」。这也是我们理解具身世界模型最核心的第一性原理。
具身世界模型不应追求做物理世界的“全量复印机”。真实世界的信息量是无限的,机器人既不可能、也完全没必要模拟完整的世界。它的核心使命,是在有限的观察能力、计算资源与试错成本约束下,提取并持续维护那些足以支撑行动决策的核心信息,让机器人尽可能少犯昂贵的错误。
换句话说,具身世界模型的本质,可以理解为一套以控制充分状态为核心、以降低行动代价为设计原则的未来推演系统。它不应以视觉逼真度为唯一标尺,而应以“能否帮机器人做对动作、避开风险、降低长期部署成本”为重要评判标准。像素只是表象,控制才是根本。
在这篇文章里,我们会系统拆解具身世界模型的底层逻辑,也会完整分享开悟世界模型围绕这一核心目标做出的初步技术设计与实践思考。
降低行动代价,是具身世界模型的重要设计目标和验证标准
在强化学习与决策理论的学术语境中,理解具身智能的一个重要框架是后悔最小化(Regret Minimization)。机器人每一步行动的收益损失,都会累积为长期的“后悔值”;系统的长期目标,是让这个累积代价尽可能降低。而当我们把这套理论落到真实机器人的产业落地场景,我们更愿意用一个更直白、更具体感的词来表述它:行动代价最小化。
很多通用生成式世界模型的优化目标非常清晰:降低视频重建误差,提升像素逼真度和细节丰富度。但当模型进入具身智能场景,这条评价标尺就不再是我们追求的目标了。
对真实运行的机器人而言,失败从来不是训练集上一个抽象的 loss 数值,而是物理世界里触手可及的真实成本:机械臂碰撞带来的硬件损坏、抓取滑落导致的任务中断、人工接管消耗的人力与时间、误判引发的安全风险…… 每一次错误行动,都对应着真金白银的代价。
这就带来了一个重要的判断转向。评价一具身世界模型的优劣,不应只按“生成了多少真实像素”排序,而应进一步看“每一比特内部状态,能够减少多少真实的行动代价”。世界模型中真正有价值的信息,不只是让画面更精致的视觉细节,更是能帮机器人规避失败、降低损耗的决策信息。
换句话说,具身世界模型追求的不是单纯最大化预测信息量,而是尽可能最大化代价削减信息量。
这正是开悟世界模型采用“理解—生成—预测”原生一体化架构的核心原因。我们没有把语义理解、视觉生成、动作预测简单做成三个松耦合的独立模块,靠平台级拼接来实现功能叠加,而是打造一套内生统一的世界模型主干,将三类能力尽可能维护在同一个共享世界状态中。
这套架构设计不只是工程层面的整合,更是面向“降低行动代价”的底层目标的一次初步的系统化尝试。它尝试把视觉特征、语义知识、物理规律、动作序列与任务进度,压缩进一个更接近“控制充分状态”的内部表示里。机器人不需要记住完整世界的所有像素细节,只需要尽量留存对未来行动成败、风险边界真正有用的核心信息,用尽可能少的信息承载,支撑尽可能可靠的决策。
这套优化逻辑可以拆解为四个核心维度:
第一是历史压缩。模型不会盲目记忆所有输入的视觉信息,而是主动过滤冗余内容,只保留与任务相关的世界历史,从源头降低信息负载;
第二是控制信息留存。内部状态需要尽可能覆盖未来任务进度、失败事件、收益回报、虚实偏差等核心要素,确保信息能够服务于动作决策;
第三是计算成本约束。推理延迟、显存占用、通信开销与能耗都是硬性指标。对 Physical AI 而言,无法在目标任务的决策周期内提供有用结果的世界模型,很难真正进入机器人闭环;
第四是真实风险锚定。所有状态预测都必须纳入风险权重,错误预测带来的安全风险、部署损耗,本身就是行动代价的核心组成部分。
很多人会把低延迟、低显存当成单纯的工程优化指标,但对于具身来说并非如此。开悟世界模型提出的部署感知协同设计(Deployment-Aware Co-design),本质上是在单位时间、单位显存、单位通信成本的约束下,尽可能提升可削减行动代价的信息吞吐。低延迟不是锦上添花的性能亮点,而是世界模型进入机器人闭环的重要前提。如果机器人的动作已经执行,风险预判却还没完成计算,再精准的模型也很难帮它规避损失。
我们始终认为,通用世界模型与具身世界模型真正的分水岭,从来不是生成的未来画面够不够真实,而是模型沉淀出的内在表征,能不能真正帮机器人少犯高成本的错误。
多动作分支推演,具身世界模型需具备平行世界交互推演能力
如果说“行动代价最小化”重新定义了具身世界模型的优化目标,那么「反事实闭包(counterfactual closure)」则决定了具身世界模型能否从“旁观世界”走向“服务行动”。在面向产业的语境中,我们可以把这个偏学术的概念,具象化为更易感知的平行世界交互推演能力。
如果一个生成式世界模型只以被动视频续写为目标,它就更接近“单线程的世界重现器”。给它一帧当前画面,它更容易沿着训练数据里见过的自然演化规律,往下生成一条可能的未来路径。它能预测“接下来世界会自然变成什么样”,却很难回答“如果我做出不同动作,世界会分别变成什么样”。这样的模型哪怕画面再逼真,也很难支撑机器人主动干预世界的决策。
真实机器人需要的,恰恰是在同一个当前状态下,比较多种动作各自对应的未来走向,就像在内部快速模拟出多条平行世界线,对比哪条路径成功率更高、风险更低、代价更小。这种“同一初始状态下,能够支持多动作分支后果推演”的能力,就是学术语境中的反事实闭包,也是我们所说的平行世界交互推演能力。
开悟世界模型的预测部分正是为了构建这套平行世界的推演能力而设计的,为后续的多动作分支推演构建了合理的基础。我们没有把“机器人动作”当成从外部规划器输入的独立指令,而是将其视为世界物理演化的自然延伸,让环境动态与机器人动作在同一个框架下联合建模。
在具体实现上,我们用 Video DiT(视频扩散模型)负责未来视觉令牌的生成,用Action DiT(动作扩散模型)预测未来动作令牌,并通过混合注意力机制将二者统一建模。训练阶段,视觉演化与动作序列联合学习,让动作预测天然继承视频生成学到的时空物理先验;到了真实部署的推理阶段,甚至可以直接关闭未来视频生成分支,只保留动作预测通路。毕竟对机器人闭环控制而言,核心是知道“该做什么动作”,而非“生成一段高清视频给自己看”。
这套设计为平行世界推演提供了模型侧基础:同一起始状态下,系统有机会预测不同动作可能带来的不同后果;动作被视为世界演化的内生部分而非简单外部输入;部署时可按需裁剪视觉输出以降低推理成本;动作决策也可以继承世界生成阶段学到的时空物理先验。
当然,这仍然需要保持清晰的技术边界。当前设计说明 Kairos 具备支持多动作分支后果建模的架构基础,但真正的反事实准确性,还需要在同一初始状态下执行不同真实动作,并将模型预测与真实机器人结果逐一对照验证。
顺着这个逻辑往下推演,具身世界模型的基本研究单位,从来不是视频帧,也不是文本令牌,而是可干预变量。桌子的位置、杯子的重量、手指的接触点、表面摩擦力、任务当前进度、失败的边界条件…… 这些能被动作改变、能决定任务成败的变量,才是具身智能真正需要关注的核心。我们看到的视频画面,本质上只是这些核心变量投射出的视觉表象。
也正因如此,行业里的世界模型逐渐分化为四类:第一类是表征式世界模型,主打抽象化推演世界;第二类是生成式世界模型,像素级复现世界;第三类交互式世界模型,主打三维交互模拟世界;第四类是理解-生成-预测一体化世界模型,主打生成、物理、认知,实现具身本体自由操控。
产业落地真正需要的,毫无疑问是第四类。而开悟世界模型正是我们在第四类具身世界模型方向上,做出的一次系统化、全栈式的技术探索,将语义理解、视觉生成与动作预测统一到一个共享的控制充分状态中,使其不仅能够生成世界、预测世界,更能够支撑机器人在闭环环境中的行动决策。
破解泛化困境,动作后果建模是具身模型的核心底气
泛化能力始终是衡量 AI 模型价值的核心标尺。但在具身智能领域,我们需要重新审视那套传统的泛化评价体系。
经典监督学习的泛化,建立在独立同分布(i.i.d.)的基础之上。训练数据与测试数据来自同一个概率分布,模型只要学好数据间的统计相关性,就能在同类新样本上取得稳定效果。图像识别、自然语言处理等领域的规模化落地,本质上都依托于这套泛化逻辑。
但机器人的真实部署,是对这个前提的挑战。机器人不是被动接收信息的观察者,它一旦执行动作,就会主动改变环境,数据分布也会随之发生偏移。训练时模型看到的是环境自然变化的观察分布,部署时面对的却是被自身动作干预后的全新分布。这就是干预分布偏移,也是部分 VLA 模型跨场景泛化能力不足的重要原因之一。它们在训练数据中主要学到的是“观察与动作的相关性”,但真实落地更需要的是“动作与结果的因果性”。
相关性与因果性,一词之差,却会带来很大的能力差异。只掌握相关性的模型,本质上更接近“看样学样”,容易照搬过往见过的经验,环境稍有变化、物体稍有不同就暴露脆弱性。
更好地掌握动作与结果之间因果关系的模型,才更有机会理解“做什么会导致什么”,并在面对新场景、新物体时,基于物理规律与行动逻辑做出更稳健的判断。对具身世界模型而言,动作后果建模不是锦上添花的高级能力,而是支撑机器人走出实验室、走进真实复杂场景的关键底层能力。
要实现从相关性到动作后果建模的跨越,靠盲目堆砌数据是不够的。无序混合不同来源的数据,模型可能学到大量虚假关联。真正有效的路径,是按照干预强度循序渐进地构建认知,让模型从认识世界的自然规律,逐步过渡到掌握“行动改变世界”的规律。
开悟世界模型采用的跨具身课程学习(Cross-Embodiment Curriculum),正是基于这一逻辑设计。我们没有把开放世界视频、人类示教数据、机器人交互数据平铺混合投喂给模型,而是搭建了一套三级渐进式的信息路径,由浅入深地为动作后果建模建立基础:
第一层是开放世界视频数据,对应无干预的自然状态。模型从中学习通用的物理规律、物体动态与环境演化逻辑,建立对世界运行底层规则的先验认知。也就是理解“没有外力干预的时候,世界本来是怎么运转的”。这是整个动作后果建模体系的基础。
第二层是人类行为交互数据,对应有意图的人为干预。模型从中学习任务组织方式、目标导向的行为模式,理解带有目的的行动会如何改变环境状态,完成“动作意图—环境变化”的语义绑定,对齐人类的行为逻辑与任务范式。
第三层是机器人真机交互数据,对应本体化的动作干预。模型从中学习机器人自身的动作约束、感知—动作对齐关系、执行误差边界,把抽象的行动因果规律,锚定到具体机器人的本体动作空间中,完成从“知道怎么做”到“我能怎么做”的落地校准。
具体地说,单纯开放世界视频只能告诉模型“世界通常怎么自然演化”,比如物体会下落、碰撞会改变轨迹、液体会流动,但它很难告诉模型“机器人这样抓会不会滑落”。单纯机器人数据虽然最接近 action-outcome,但规模小、场景窄、容易过拟合到某个本体或任务。人类行为数据在中间起桥梁作用:它提供目标、意图、任务分解、工具使用、失败恢复等结构,让模型先理解“有意图的行动如何改变环境”,再通过机器人数据学习“具体机器人动作如何改变环境”。这样的学习方式有助于学习动作与结果的因果性,是因为它把世界模型的训练从“看世界如何变化”推进到“看有意图的行为如何改变世界”,再推进到“机器人自己的动作如何改变世界”。因此,课程学习的价值不是三类数据相加,而是把被动物理、意图行为和机器人本体动作放进一个递进的信息路径。
这套分层递进的设计,核心价值不是用了更多数据,而是把不同来源的数据按干预强度有序组织起来,让模型的认知从被动观察分布,逐步过渡到主动行动分布,建立对动作—结果关系更稳定的建模能力。
从统计学习的目标来看,这也意味着具身世界模型的优化方向发生了重要转变。我们不再只追求最小化训练集上的动作拟合误差,而是更关心在真实环境分布下,动作干预带来的长期行动代价。
这种转变带来的更深层价值,是让机器人的部署风险从“未知的黑箱”逐步变成“可评估的变量”。如果一个世界模型能够更好地进行动作后果建模,它就可以在真实执行前对不同动作的成功率、风险度做出估计。它让具身智能的落地,从高成本试错,逐步变成可量化、可管控的系统工程。
打造受多时间尺度记忆启发的体系,解锁具身世界模型长时任务能力
谈及长时世界模型,行业最普遍的认知误区,就是把它简单等同于“拉长上下文窗口”。似乎只要能记住更多历史 token、能回看更久之前的画面,模型的长时能力就越强。但对于真正要落地到实体机器人的具身世界模型而言,这个方向从底层就偏离了核心。
具身智能的长时任务,关键从来不是“看过多少历史画面”,而是在连续不断的观测、动作执行与真实反馈循环中,持续维护好一个对控制充分的内部状态。它不需要完整保留每一刻的视觉像素细节,只需要牢牢记住那些会影响后续动作选择、风险判断和任务推进的核心信息。
而这些控制相关的信息,天然分布在截然不同的时间尺度上:
毫秒到秒级,是接触、滑动、碰撞等瞬间交互的手眼协调控制;
秒到分钟级,是子任务进度、物体位置、工具状态的中程维护;
分钟到小时级,是全局任务计划、环境变化、用户偏好的长期统筹;
小时到天级,还有场景规律、失败历史、个体化经验的沉淀。
单一扁平的记忆结构,很难同时兼顾极致的响应速度、精准的状态跟踪和稳定的长期记忆。
神经科学的研究成果为我们提供了极具价值的启发。经典的互补学习系统理论(Complementary Learning Systems)指出,人类大脑并非依靠单一结构完成所有记忆与决策,而是通过多套功能各异的神经环路协同工作。新皮层缓慢沉淀通用的语义、物理与空间常识,形成稳定的底层认知;海马体快速编码具体场景、事件经历与近期交互,负责情景记忆的存取;小脑构建短时前向预测模型,调控运动细节与误差校正。
这套多环路协同的机制,让人脑既能毫秒级响应即时环境变化,又能稳定积累长期知识,还能精准控制躯体动作。这也给我们的具身世界模型设计指明了方向。
一个真正可落地的长时具身世界模型,不宜依赖单一记忆结构,而应借鉴多环路协同的思想,让不同时间尺度的控制信息各归其位、协同运转。
开悟世界模型的混合时序记忆(Hybrid Temporal Memory),正是受这套多时间尺度机制启发的一种工程实现,也是我们在长时具身模型上的关键设计之一。我们没有用统一的注意力结构处理所有时序信息,而是将时间结构拆解为三层,分别承担不同的控制尺度:
第一层是SWA(局部窗口注意力),可以类比为短时前向预测通路,它聚焦局部动态与即时相关信息;
第二层是DSWA(扩展窗口注意力),可以类比为情景记忆串联通路,它负责中程交互管理;
第三层是GLA(全局门控注意力),可以类比为长期全局记忆通路,它作为持久化的全局状态载体,通过门控增量更新机制,GLA 可以选择性地积累、更新与遗忘长时状态,既支持延迟物理效应、多阶段运动等长时依赖,又避免了全量时序注意力带来的平方级算力成本。在特定假设下,收缩性的门控更新机制有助于约束全局记忆误差的累积,为长时状态维护提供理论支持。
很多人会把混合线性时序注意力简单理解为一种提升效率的工程优化,在我们看来远不止于此。它本质上是对具身世界中多时间尺度控制状态的结构化压缩,是我们用工程手段借鉴多时间尺度预测系统的第一步。
它的价值从来不是“能记住更长的 token 序列”,而是让模型在有限的计算资源下,持续维护控制充分的内部世界状态,为长周期的机器人闭环任务提供更稳定的决策支撑。
重新定义数据价值,控制信息密度是具身世界模型的核心燃料
聊到 AI 模型的能力边界,大家最常说的一句话就是 “数据规模决定上限”。对具身世界模型而言,数据的价值不只由体量决定,而由它能消除多少关键不确定性决定。这是我们整套数据体系设计最底层的判断。
信息论告诉我们,信息的本质是消除不确定性。一段数据价值高低,关键看它能不能帮模型搞清楚那些最影响任务成败的核心问题。现实中,一个小时的普通行走视频,能提供的有效控制信息可能远不如30秒高质量的失败恢复数据。因为后者精准触达了系统最需要学习的边界,什么时候会失败、为什么会失败、失败了该怎么修正。这些信息,在海量普通成功样本里是找不到的。
基于此,我们正在构建面向具身智能的控制信息密度(Control Information Density, CID)价值标尺,用来重新衡量每一段数据的真实价值。简单来说,一段数据的控制信息密度,等于它能为动作后果、失败边界、安全风险三类核心参数消除的不确定性,除以采集它所付出的成本与潜在风险。需要强调的是,CID 在当前阶段更是一套数据选择原则和采集方向,而不是已经完全自动化、完全精确的单一分数。
按照这个标尺,数据价值从高到低呈现出重要的排序:近边界的失败与恢复数据 > 近边界成功数据 > 接触数据 > 普通成功数据 > 普通观察视频。近边界失败数据揭示当前策略、表征或预测模型在任务临界区域内在哪里、为何崩坏;恢复数据展示系统如何从错误状态回归可行状态;近边界成功数据则包括勉强成功、险些失败和轻微失稳但最终成功的样本,用于刻画系统在接近失败或安全临界点时仍能维持成功的条件;接触数据承载摩擦、力、形变、支撑、滑动、碰撞、抓取稳定性等富物理细节。越往下,单位采集成本所能消除的核心控制不确定性越小,但作为底层物理先验与任务范式底座仍不可或缺。
需要强调的是,控制信息密度不是否定数据规模,而是给规模一个方向。规模负责覆盖更广泛的物体、场景和物理现象,信息密度则决定这些数据是否真正触达控制、失败和安全边界。没有规模,模型缺少通用物理先验;没有信息密度,规模又容易变成低效冗余。
这个大致排序补充并修正了传统模仿学习中对成功示教数据的单一依赖。过去大家习惯采集大量成功示教,让模型照着复刻动作轨迹;但对真实部署的机器人来说,最致命的问题往往不是“正常情况下怎么做”,而是“什么时候会出错、出错了怎么办、安全边界在哪里”。只依赖成功轨迹的模型,在分布外场景中更容易暴露脆弱性;而更充分理解失败边界的模型,才更有机会在真实开放场景里稳得住、兜得住。
当前行业很多 Ego 数据方案解决了"有没有数据"的问题,但还需要继续回答更核心的一问:这段数据,到底能不能减少机器人对动作后果、接触动力学、失败边界和安全风险的不确定性?如果答案是否定的,再大的数据量,其边际价值也会下降。
开悟世界模型从一开始就搭建了规模化数据工程底座。前端覆盖镜头检测、帧筛选、语义标注等全流程预处理,后端通过分布式调度、CPU 并发解码、零拷贝流处理、流水线重叠、两级批处理等技术优化,在我们的端到端实测中实现了超过30 倍的吞吐提升。这套能力的目标,是规模化地筛选、结构化、沉淀高控制信息密度的有效经验。
在此基础上,我们正在构建一套分层的高控制信息密度数据体系,让 Ego 数据与真机、仿真数据深度对齐,定向采集最能消除核心不确定性的数据。
失败数据:抓取滑落、物体碰撞、遮挡误判、任务中断等失效场景,帮模型精准定位失败边界;
恢复数据:失败后的重抓、重规划、人工纠错等过程,让模型学会从错误中回归正轨;
边界数据:临界成功、临界失败的极限样本,比如"差一点就滑落"的瞬间,细化模型的风险判断粒度;
接触数据:触觉、力觉、摩擦特性、柔性物体形变、工具交互等物理交互信息,构建模型的物理直觉;
普通成功数据:标准任务轨迹,作为基础行为范式的底座;
普通观察视频:开放世界海量素材,提供通用物理先验。
与此同时,数据模态也在从单一视觉向多模态物理经验延伸。深度信息、3D 几何、力觉触觉、物体属性、接触关系、失败日志、恢复路径…… 多模态融合是世界模型建立“物理直觉”的重要前提之一。只有尽可能捕捉力的传递、接触的稳定度、失败的演化征兆,模型才能更好把握动作作用的底层规律,而不是停留在像素层面的表层模仿。
在我们的认知里,数据采集正在从模型训练的前置辅助环节,变成决定具身世界模型能力上限、任务执行精度、开放场景鲁棒性的核心基础设施。
也因此,本文讨论的很多能力,应该被理解为通往真实闭环能力的系统性路径,而不是已经完成的终局证明。开悟世界模型目前更适合被表述为:在物理合理性、指令对齐、动作预测、长时一致性和部署可用性上提供了初步代理证据;真正的闭环行动代价降低,还需要在真实机器人任务中持续验证。
回到开篇的核心问题:什么样的世界模型,才是真正支撑实体机器人落地的世界模型?
我们的判断是:它不应是沉迷像素复刻的“世界复印机”,而应是以控制充分状态为核心、以降低行动代价为目标的行动决策底座。从追求视觉逼真到锚定行动代价,从单路径旁观演化到多分支平行推演,从相关性统计拟合到动作后果建模,从堆叠长上下文到构建多尺度记忆体系,从比拼数据规模到追求控制信息密度,这些系统性转向,共同定义了具身世界模型的一条更完整路线,也划出了它与通用生成式世界模型的重要差异。
我们始终认为,开悟世界模型是这条道路上的一次系统化探索,却远非终点。未来具身世界模型还将在开放场景中持续迭代,在精细交互中不断校准。真正决定这条路线能否成立的,还需要在真实机器人任务中进一步验证:想象 rollout 是否与真实 rollout 高度相关,模型是否能提前预测失败,是否能过滤不安全动作,是否能帮助机器人从失败中恢复,以及是否能带来可重复的任务成功率和泛化能力提升。而一切的起点,都始于这个根本判断:具身世界模型的使命,从来不是完整复制世界,而是精准支撑行动。
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐


所有评论(0)