北大×NVIDIA让机器人世界模型有了“物理感”：视频生成登顶，闭环规划成功率提升50%

xwz小王子

48人浏览 · 2026-06-30 20:55:02

xwz小王子 · 2026-06-30 20:55:02 发布

一句话讲清楚👉🏻 PhysisForcing 把机器人视频生成里的“物理是否说得通”拆成轨迹连续和关系一致两件事，只在机械臂、物体、接触点等关键区域施加训练监督，让世界模型生成的视频更像真实动作，也更能帮机器人做决策。

论文标题：PhysisForcing: Physics Reinforced World Simulator for Robotic Manipulation
论文链接：https://arxiv.org/abs/2606.28128
Github 链接：https://github.com/dagroup-pku/PhysisForcing
项目链接：https://dagroup-pku.github.io/PhysisForcing.github.io/

机器人世界模型真正难的地方在于：画面精致还不够，动作之后的结果必须守住基本物理规则。

比如机械臂夹住杯子，下一帧杯子突然漂开；夹爪推动苹果，苹果却像贴在桌面上一动不动；机器人把物体放到架子上，物体形状在中途变形。对普通视频生成来说，这些可能只是局部瑕疵。对机器人来说，它们会直接污染训练信号：模型学到的动作后果变成了一段不可靠的视觉幻觉。

PhysisForcing 盯上的就是这个问题。它没有重新设计一个机器人专用的大模型，也没有在推理时外挂物理引擎。论文提出的是一个训练框架：在微调视频扩散模型时，把监督集中到最容易出物理错误的区域，并同时约束两类信号。

一类是像素级轨迹，让点的运动连续、接触合理；另一类是语义级关系，让机械臂、物体、场景之间的相对关系随动作一起变化。最后得到的模型在多个机器人视频生成基准上刷新最好成绩，作为世界模型接入动作规划时，闭环成功率也从 16.0% 提到 24.0%。

PhysisForcing 的整体效果：同一个训练框架既改善机器人视频生成，也能提升后续策略学习和世界模型规划。

问题不在“会不会生成视频”，而在“视频能不能当世界”

过去一年，视频生成模型已经很会“拍”机器人了。 Sora 、 Veo 、 Wan 、 HunyuanVideo 这类通用视频模型能生成细节丰富的画面， Cosmos 、 DreamGen 、 Vidar 等机器人世界模型则更贴近具身场景。

可机器人操作有一个特殊要求：视频必须能表达动作造成的物理后果。

拿“夹爪把红苹果移动到木质平台第二层”这个任务来说，模型不能只生成一个“像机器人实验室”的视频。它必须保持苹果形状稳定，夹爪和苹果之间有接触，苹果的轨迹要连贯，最后还要真的落在指定平台上。只要其中一环断掉，这段视频就很难作为世界模拟器使用。

论文把常见失败分成两类：

■局部动态错误。典型表现是夹爪轨迹断裂、物体穿模、反重力漂浮、运动突然跳变。

■全局关系错误。典型表现是机械臂已经接触物体，物体却没有跟着动；或者物体被抓住后又和夹爪分离。

这两类错误对应两个层次。点的运动要连续，这是像素级问题；物体和机械臂的互动要合理，这是语义关系问题。只靠重建损失或普通微调，很容易把背景、桌面、静止物体和接触区域混在一起优化，真正有物理信息的部分反而被稀释。

PhysisForcing 的判断很直接：机器人操作里的物理线索高度集中，主要在机械臂、被操作物体、接触区域和移动部分。训练时应该把力气花在这些地方。

先找“物理信息区域”

PhysisForcing 的第一步，是从参考视频中找出哪些位置最值得监督。

论文使用点跟踪器获取视频中每个查询点的时序轨迹。给定视频，可以得到轨迹集合。其中表示第个点在第帧的位置。

每个点的运动强度定义为：

如果只看，背景抖动、无关运动也可能被选中。论文又引入第一帧深度图，用深度给前景区域更高权重：

这里是数值稳定项。同时考虑了“动得多”和“更像前景”，比单纯运动幅度更适合抓住机械臂和物体接触区域。

接着，模型用平均分作为自适应阈值，得到轨迹级物理掩码：

被选中的轨迹再投影回每一帧，形成时空物理掩码。这张掩码后面会同时服务于像素级和语义级监督。

方法框架：先定位物理信息区域，再在 DiT 中间层同时加入轨迹对齐和关系对齐。

这样做绕开了显式建模“力”“摩擦”“接触力”的难题。模型只需要从视频里找出动得明显、又更靠近前景的区域，训练信号就会自然集中到夹爪、物体和接触点附近。

第一层监督：让点沿着合理轨迹走

物理错误最容易被肉眼看出来的部分，是轨迹断裂。

夹爪本来向右移动，下一帧突然出现在左边；物体被夹住后应该跟着动，却在中途原地停住。这些问题都可以转化为点轨迹是否连续。

PhysisForcing 在视频生成模型的中间 DiT 层取隐藏特征，经过轻量 MLP 后得到特征图。第一帧特征作为查询，其余帧作为键：

对第一帧中的查询点，模型计算它和第帧所有空间位置的相似度：

再通过空间 Softmax 和坐标期望，得到预测位置：

最后，用参考视频中 CoTracker3 提取的轨迹作为目标，在物理掩码覆盖的区域计算均方误差：

这相当于告诉 DiT 中间层：你内部表示出的点运动，应该和真实机器人视频里的点轨迹对齐。尤其是夹爪、物体、接触区域，不允许随便跳。

我的理解是，这个设计比直接在像素上加重建损失更细。像素重建容易奖励“画得像”，但轨迹对齐奖励的是“动得对”。对机器人视频来说，后者才是世界模型的底线。

第二层监督：让物体关系跟着动作变

只有轨迹还不够。

一个视频可以做到局部点运动平滑，但全局关系仍然不对。比如夹爪和杯子各自动得很顺，可两者之间没有保持“抓取后耦合”的关系；或者推动物体时，接触点动了，物体主体却没有发生相应位移。

PhysisForcing 用冻结的视频理解编码器来提供语义级关系目标。它不要求 DiT 去复制编码器的每个绝对特征，而是对齐物理信息区域内 token 之间的相似度矩阵。

给定输入视频，冻结编码器输出目标表示， DiT 中间层经过 MLP 后得到：

然后用物理掩码选择一批时空 token ：

对任意两个 token ，分别计算 DiT 侧和编码器侧的余弦关系：

语义级物理损失是两张关系矩阵的平均绝对差：

这一步关注一批关键 token 之间的相似关系有没有保持住，单个 token 本身像不像反倒退到次要位置。抓取、推动、放置，本质上都是关系变化。机械臂和物体什么时候靠近，什么时候绑定，什么时候分离，往往比单个像素更能描述操作是否合理。

训练总目标也很清楚：

是标准 flow matching 损失，和分别控制两类物理损失权重。辅助模型只在训练时使用，推理时全部丢掉，所以不会增加生成视频的额外推理成本。

训练设置：三类视频骨干都能接入

论文没有只在一个小模型上验证。 PhysisForcing 被加到三类视频骨干上：

■Wan2.2-I2V-A14B ：图像到视频 MoE 扩散 Transformer ，训练时主要微调高噪声专家。

■Wan2.2-TI2V-5B ：文本/图像到视频统一扩散 Transformer ，直接微调整个 denoiser 。

■Cosmos3-Nano ：约 16B 参数的视频模型，按官方图像到视频后训练设置使用 LoRA 微调。

训练数据来自 RoVid-X 的大规模机器人视频集合。原始数据约 400 万段机器人视频，论文经过运动分数、任务去重、图文对齐等过滤，保留约 50 万段高质量 clip 。

辅助感知模型也来自现成工具： CoTracker3 负责参考点轨迹， Depth-Anything-V2 提供第一帧相对深度， V-JEPA 2 作为冻结视频理解编码器提供关系结构。它们都只用于训练目标提取，部署时不进入推理链路。

这让 PhysisForcing 更像一个“训练配方”，而不是一个绑定特定架构的新世界模型。只要底层是 DiT 式视频生成骨干，中间层能读出时空特征，就有机会套上这一套物理对齐目标。

生成效果： R-Bench 、 PAI-Bench 、 EZS-Bench 都涨

实验覆盖三个机器人视频生成基准。简单说， R-Bench 看任务和机器人形态覆盖面， PAI-Bench 更强调真实机器人图像提示下的物理语义， EZS-Bench 则故意测试训练外组合。三者合起来，能把“画得好”和“真的懂交互”区分开。

R-Bench 包含 650 组图文提示，覆盖操作、空间关系、多实体协作、长程规划、视觉推理，以及单臂、双臂、四足、人形等机器人形态。 PAI-Bench 取机器人领域子集，共 174 组真实机器人图像提示。 EZS-Bench 则强调训练无关的零样本组合，一共 196 个未见过的机器人、任务和场景组合。

论文原表很宽，不适合手机阅读。把关键结果压缩后，大致是下面这样：

基准	对比对象	PhysisForcing	变化
R-Bench	Wan A14B base 50.7	PF-Wan 62.0	+22.3%
R-Bench	Cosmos base 58.4	PF-Cosmos 63.8	+9.2%
PAI-Bench	Cosmos ft 84.03	PF-Cosmos 85.17	第一
EZS-Bench	Cosmos ft 80.29	PF-Cosmos 81.08	第一

R-Bench 上， PF-Cosmos 平均分达到 63.8 ，超过商业模型 Wan2.6 的 60.7 ，也超过机器人专用基线 Abot-PhysWorld 的 52.9 。 PF-Wan 达到 62.0 ，在 Wan2.2-I2V-A14B 基础上相对提升 22.3%，相比普通微调也有 7.1%的提升。

PAI-Bench 机器人子集上， PF-Cosmos 整体平均 85.17 ，超过 Abot-PhysWorld 的 84.91 。 Domain Score 达到 93.26 ，这个分数更直接衡量机器人交互的物理语义合理性，而不是单纯画质。

EZS-Bench 上， PF-Cosmos 整体平均 81.08 ，同样排在最高。这个基准强调训练外组合，对“只记住训练分布”的方法不太友好。它能在这里涨，说明物理关系监督除了拟合已有机器人视频，也带来了一点跨场景泛化能力。

PAI-Bench 机器人领域结果： PhysisForcing 在质量和领域指标上保持领先。

EZS-Bench 零样本结果：面对未见过的机器人、任务和场景组合， PF-Cosmos 仍取得最高整体分。

视觉对比：错误通常出在接触瞬间

论文展示的定性结果很有代表性。同样的输入图和指令下，强视频模型往往能生成好看的机器人画面，但接触处容易露馅。

比如“把红苹果移动到木质平台第二层”，有些模型会让苹果变形，有些会让苹果在没有稳定接触的情况下移动，有些能完成大致动作但最终位置不对。 PhysisForcing 的版本更倾向于保持夹爪和物体的接触关系，物体形状也更稳定。

与多种强视频生成模型的定性对比：绿色行是 PhysisForcing 训练后的模型，主要改善接触、位移和物体形状稳定性。

论文附录里还有更多横向案例。它们覆盖单臂、双臂、人形机器人和不同任务，常见失败包括状态漂移、接触断裂、物体变形、目标位置错误。 PhysisForcing 并没有让模型突然具备完美物理模拟能力，但它明显减少了最影响机器人任务的那类错误。

更多对比案例：同一提示下， PhysisForcing 更容易保持动作前后状态一致。

不同模型在接触丰富任务上的生成差异，问题集中在抓取、推动和放置阶段。

跨任务定性结果： PhysisForcing 对物体状态和机器人动作的耦合更稳定。

不只生成视频，还能帮机器人做策略

如果世界模型只是为了“看起来合理”，意义还有限。论文进一步把 PhysisForcing 训练后的 Wan2.2-TI2V-5B 接入 Fast-WAM ，用作世界动作模型的视频骨干，在 RoboTwin 2.0 上评估策略成功率。

平均成功率从 68.2%升到 72.8%。其中接触密集的任务提升最大：

任务	基线	加入 PF	变化
放空杯	41.5%	63.0%	+21.5
按订书机	49.0%	60.0%	+11.0
拿滚筒	58.5%	63.0%	+4.5
平均	68.2%	72.8%	+4.6

也有任务下降，比如 shake_bottle 从 97.5%降到 94.5%， stack_bowls_two 从 69.5%降到 63.0%。这点值得单独看：物理对齐并不是无条件提升所有动作，它对接触强、轨迹容易断的任务帮助更明显；对已经很高分或需要更长程规划的任务，收益可能被其他瓶颈限制。

WorldArena 动作规划协议下，世界模型要预测未来视频，再由共享逆动力学模型解码出动作并执行。这里 PhysisForcing 把闭环成功率从 16.0%拉到 24.0%，超过 WoW 的 20.5%。相对提升是 50%。

模型	任务 1	任务 2	平均
WoW	20.0%	21.0%	20.5%
Wan2.2-5B	12.0%	20.0%	16.0%
+ PF	22.0%	26.0%	24.0%

这组结果把生成质量和机器人执行结果接了起来：视频里的接触关系更稳定，规划器选出的动作也更容易成功。如果一个世界模型能更可靠地预测接触后的状态，规划器就更可能避开漂亮但错误的未来画面。

消融实验：两种物理损失缺一块都弱

论文做了三组值得看的消融。

第一组看两个损失是否互补。在 Wan2.2-TI2V-5B 上，普通微调 R-Bench 平均 44.8 。只加像素轨迹损失升到 47.2 ，只加语义关系损失升到 46.2 ，两者一起是 47.5 。在更大的 Wan2.2-I2V-A14B 上，普通微调 57.9 ，两者一起达到 62.0 。

设置	TI2V-5B	A14B
普通微调	44.8	57.9
只加轨迹	47.2	60.7
只加关系	46.2	60.0
两者结合	47.5	62.0

轨迹损失单独更强，因为轨迹断裂是机器人视频里最常见、最直接的局部失败；关系损失更像补上全局互动，比如抓住后保持耦合、推动后物体真的位移。两者服务的错误类型不同，所以组合起来最好。

第二组看“只监督物理信息区域”是否必要。对所有 token 均匀施加两类损失，平均分从 44.8 升到 46.0 ；只在物理信息区域监督，则升到 47.5 。背景和静止区域并非完全无用，但它们会稀释接触处的训练信号。

第三组看对齐施加在 DiT 哪一层。 Wan2.2-TI2V-5B 在 PAI-Bench 上，层 10 得 83.9 ，层 15 得 85.2 ，层 20 得 84.1 ，层 25 得 83.2 。中间层最好，因为早期层偏外观，晚期层已经更贴近噪声预测输出，中间层更适合承载运动和关系结构。

训练过程与损失消融：轨迹损失和关系损失在训练中持续互补。

Wan 骨干上的定性消融：加入 PhysisForcing 后，物体变形和接触断裂减少。

Cosmos 骨干上的定性消融：相同骨干经过物理对齐后，动作结果更稳定。

这篇工作的真正价值：把“物理感”变成可训练信号

机器人世界模型这条路，过去经常卡在一个矛盾里。

纯视频生成模型扩展性强，数据多，画面好，但它未必理解物理后果。显式物理模拟器更可靠，却成本高、覆盖有限，也很难直接适配开放世界视觉场景。 PhysisForcing 走的是中间路线：不显式模拟力学方程，改用视频中的可观察物理线索构造训练目标。

我更愿意把它看成一个训练目标设计上的提醒：机器人视频里真正值钱的像素，其实只占画面的一小部分。

第一，世界模型的训练目标要从“重建未来帧”走向“重建因果关系”。机器人任务里的未来帧不是普通视频帧，它承载动作后果。一个物体被推之后是否移动，一个杯子被夹住后是否跟着夹爪走，这些关系比背景纹理更重要。

第二，物理监督不一定要覆盖整帧。对机器人操作来说， 95%的画面可能是桌面、墙面、背景，真正决定任务成败的区域很小。区域聚焦能让训练预算花在更有用的地方。

第三，视频理解模型可以反过来教视频生成模型。 V-JEPA 2 这类自监督编码器不是机器人模型，但它捕捉到的 token 关系可以作为“物体如何相互关联”的度量空间。生成模型不需要复制它的表示，只要学会类似的关系结构。

论文没有把工作做成一个复杂的推理时系统，也符合这个取舍。推理时越轻，越容易接入现有视频生成和机器人规划链路；训练时把物理约束打进中间表示，部署时仍然保持普通视频模型的速度和接口。

仍然有限：它不是万能物理引擎

论文也明确写了局限。 PhysisForcing 是一个微调框架，会继承底层视频骨干的能力上限。如果基础模型本身缺少长程时序推理、复杂物体知识或精细世界常识，物理对齐只能改善一部分问题。

另外，它用到的物理目标来自点跟踪、深度估计和冻结视频编码器。这些工具本身也会出错。比如透明物体、强遮挡、快速运动、复杂柔性物体，都可能让轨迹和深度信号不稳定。

还有一个现实问题：当前指标仍然大量依赖多模态模型评判。 R-Bench 、 PAI-Bench 、 EZS-Bench 都努力和人工偏好对齐，但机器人世界模型最终要落到真实硬件。视频看起来更物理，不等于真实机器人一定能安全执行。

我会把 PhysisForcing 看成一个很实用的阶段性方案：它没有解决“让 AI 完全理解物理世界”这个大问题，但抓住了机器人视频生成里最要命的接触和关系错误，并给出了可复用的训练方法。

写在最后

具身智能需要的世界模型，要能预测动作之后真实世界会怎样变化；一段看起来真实的视频，只有在动作后果也可信时，才适合放进机器人决策链路。

PhysisForcing 的贡献就在这里：它把轨迹连续、接触一致、物体关系这些过去很难直接写进损失函数的东西，拆成可训练的像素级和语义级对齐信号。实验结果也给了一个清楚的方向：当视频模型更懂物理，机器人策略确实能从中受益。

后续如果视频基础模型继续变强，类似的物理对齐方法仍有用武之地：它负责把训练注意力压到最容易影响机器人决策的接触和关系上，并不需要重新发明世界知识。对机器人来说，这或许比单纯追求更高清、更长的视频更重要。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

使用概率图路径规划的机器人路径规划研究Octave（Matlab代码实现）

针对复杂未知环境下传统机器人路径规划算法适应性差、避障稳定性弱、全局搜索效率低的问题，本文开展基于概率图的机器人路径规划方法研究。概率图路径规划依托概率路线图建模思想，通过环境随机采样、节点连通性构建、最优路径检索的核心逻辑，摆脱了传统算法对环境精准建模的依赖，具备强环境适配性与高运算效率。本文系统阐述概率图路径规划的核心理论、运行机制与技术优势，基于Octave仿真平台搭建多场景机器人运动规划仿