VLA 模型说到底就是缺乏对物理世界的理解！英伟达给出了解决方案～

DreamZero 的核心价值不仅在于性能突破，更在于重构了机器人学习的技术范式——从 “依赖重复演示的特化学习” 转向 “学习物理规律的通用化学习”。其通过世界动作模型（WAM）实现了三大跨越：**泛化能力：**零样本应对未见过的任务与环境，平均性能超 SOTA VLA 模型 2×；**数据效率：**多样化非重复数据即可训练，跨模态迁移仅需 10-20 分钟纯视频数据；**部署实用性：**38×

Tom Hardy

655人浏览 · 2026-02-27 16:41:57

Tom Hardy · 2026-02-27 16:41:57 发布

在机器人从 “专项工具” 迈向 “通用助手” 的赛道上，传统视觉-语言-动作（VLA）模型始终受困于 “只会模仿、不会推理” 的瓶颈——能执行训练过的动作，却无法应对未见过的任务与环境。NVIDIA 推出的 DreamZero 框架，创新性地构建了 “世界动作模型（WAM）”，通过视频扩散模型的预训练优势，实现了 “预测未来视频 + 生成对应动作” 的端到端协同，在零样本泛化、跨机器人适配、实时部署三大核心维度实现突破，为通用型机器人操作提供了全新技术路径。

原文链接：VLA 模型说到底就是缺乏对物理世界的理解！英伟达给出了解决方案～

痛点直击：传统 VLA 模型的三大能力短板

现有 VLA 模型虽能衔接视觉语义与机器人动作，但距离真实世界的复杂需求仍有显著差距，核心痛点集中在三方面：

痛点类型	具体表现	核心影响
泛化能力局限	依赖大量重复演示数据，仅能在语义层面泛化（如识别不同物体），无法应对全新动作技能（如系鞋带）与未知环境	难以适配开放世界场景，每类任务都需单独收集数据
数据效率低下	复杂动作需专家级重复演示，异质化、非重复性数据难以被有效利用，数据收集成本极高	规模化落地受限，无法快速覆盖多场景任务需求
实时性不足	大参数模型推理延迟高，视频扩散类模型的迭代去噪过程进一步加剧 latency，难以满足闭环控制需求	动态环境中易卡顿，硬件损耗风险高，无法实现灵巧操作

这些问题的本质是：VLA 模型缺乏对物理世界动力学的理解，仅建立 “视觉-动作” 的直接映射，而非 “理解场景-预测结果-规划动作” 的完整逻辑链。

硬核拆解：DreamZero 的四大核心创新

DreamZero 围绕 “架构-数据-优化-迁移” 形成全链路突破，每个模块都精准破解传统方案短板，其整体框架实现了从 “模仿学习” 到 “预测学习” 的范式转变。其核心突破在于重构了机器人决策的范式，通过 “预测未来视觉状态 + 对齐动作序列” 的双目标设计，让模型具备物理世界理解能力，而非单纯的动作模仿。

核心架构：三输入-双输出的端到端联合预测范式

DreamZero 摒弃了 VLA 模型 “视觉-动作” 的直接映射逻辑，构建了以 “世界建模” 为核心的 WAM 架构，实现动作与视觉未来的深度绑定：

输入模态融合：同时接收三类关键信息，形成完整的决策上下文：

视觉上下文：当前及历史图像经 VAE 编码为 latent 特征，保留空间细节与时序关联；

语言指令：通过文本编码器解析自然语言意图（如 “解鞋带”“握手”），生成语义嵌入；

本体感知状态（Proprioception）：机器人关节姿态、夹爪开合度等物理状态数据，确保动作符合运动学约束。
联合预测目标：通过自回归扩散 Transformer（DiT）骨干网络，同步输出两部分核心结果，公式表达为：

$\underbrace{\pi_0\left(\mathbf{o}_{l:l+H}, \mathbf{a}_{l:l+H} \mid \mathbf{o}_{0:l}, \mathbf{c}, \mathbf{q}_l\right)}_{\text{DREAMZERO}} = \underbrace{\pi_0\left(\mathbf{o}_{l:l+H} \mid \mathbf{o}_{0:l}, \mathbf{c}, \mathbf{q}_l\right)}_{\text{video prediction}} \underbrace{\pi_0\left(\mathbf{a}_{l:l+H} \mid \mathbf{o}_{0:l+H}, \mathbf{q}_l\right)}_{\text{IDM}}$

其中：

前半部分 $\pi_0\left(\mathbf{o}_{l:l+H} \mid \mathbf{o}_{0:l}, \mathbf{c}, \mathbf{q}_l\right)$ 为视频预测分支，基于历史视觉、语言指令和本体状态，生成未来 H 帧的环境演变视频，本质是 “视觉规划”；
后半部分 $\pi_0\left(\mathbf{a}_{l:l+H} \mid \mathbf{o}_{0:l+H}, \mathbf{q}_l\right)$ 为逆动力学（IDM）动作分支，根据预测的未来视频，反推实现该视觉结果所需的连续动作序列。

两分支共享骨干网络参数，确保动作与视觉结果在物理时空上完全对齐——例如预测 “握手” 的未来视频后，动作分支会生成符合人体工学的手臂抬起、握持、上下摆动序列。

自回归（AR）设计优势：相比双向扩散架构，自回归模式通过 KV 缓存机制支持任意长度的上下文输入，保留原生帧率（避免视频下采样导致的动作错位），同时让模型能利用历史视觉信息修正决策，动作更平滑。此外，AR 架构仅对视频模态进行自回归建模，避免了动作预测的误差累积，提升闭环控制稳定性。

训练目标：流匹配与教师强制的双优化策略

为实现视频与动作的精准对齐及高效收敛，DreamZero 设计了针对性的训练目标：

流匹配（Flow Matching）损失：替代传统扩散模型的 DDPM 损失，统一视频与动作的去噪时序，通过学习 “从噪声到真实样本” 的连续流场，加速训练收敛并提升生成质量。具体而言，模型需预测视频 latent 和动作序列的联合速度向量 $v^k=[z_1^k−z_0^k,a_1^k−a_0^k]$ ，其中 $z_0^k$ 、 $a_0^k$ 为随机噪声， $z_1^k$ 、 $a_1^k$ 为清洁样本，损失函数定义为：

$\mathcal{L}(\theta) = \mathbb{E}_{\mathbf{z}, \mathbf{a}, \{t_k\}} \left[ \frac{1}{K} \sum_{k=1}^K w(t_k) \left\| \mathbf{u}_\theta\left( [\mathbf{z}_{t_k}^k, \mathbf{a}_{t_k}^k]; \mathcal{C}_k, \mathbf{c}, \mathbf{q}_k, t_k \right) - \mathbf{v}^k \right\|^2 \right]$

其中 $w(t_k)$ 为时序权重函数，确保不同去噪阶段的训练稳定性。

教师强制（Teacher Forcing）策略：训练时用清洁的历史数据（前序视频帧 + 动作）引导当前 chunk 的去噪过程，避免模型在训练初期因噪声累积导致的预测偏差，提升视频-动作对齐精度。

实时性优化：三级加速策略实现38×推理提速

视频扩散模型的迭代去噪过程天然存在高延迟问题，DreamZero 通过 “算法-系统-实现” 三级优化，将单动作 chunk 推理延迟从 5.7s 降至 150ms，支持 7Hz 实时闭环控制：

算法级（DreamZero-Flash）

解耦视频与动作的去噪时序，视频端偏向高噪声状态（Beta (7,1) 分布， $\mathbb{E}[t_k^{video}]=0.125$ ），动作端保持均匀噪声分布。

扩散步数从 4 减至 1，速度提升 2.33×，任务进度仅下降 9%。

系统级

CFG 并行：双 GPU 分别执行条件 / 无条件推理，单步延迟降低 47%；

DiT 缓存：复用方向一致的速度向量，有效 DiT 步数从 16 减至 4；

系统级优化累计提升 5.4×（GB200 平台）。

实现级

Torch Compile + CUDA Graphs：算子融合，消除 CPU 开销；

NVFP4 量化：权重 / 激活量化为 NVFP4，敏感操作（QKV、Softmax）保留 FP8；

内核优化：cuDNN 后端加速注意力计算，调度器操作迁移至 GPU。

H100 平台速度提升 16.6×，GB200 平台最终实现 38× 提速。

动作平滑补充：生成的动作 chunk 经 2× 上采样、Savitzky-Golay 滤波（窗口大小 21，多项式 3 阶）、下采样处理，抑制高频噪声，避免机械臂卡顿或抖动。

数据策略：多样化优先，打破重复演示依赖

DreamZero 颠覆了传统机器人学习对 “结构化重复数据” 的依赖，证明异质化、非重复性数据更能提升泛化能力：

数据构建原则：采集 500 小时跨 22 类真实环境（家庭、餐厅、超市、办公室等）的遥操作数据，每个 episode 平均包含 42 个子任务，涵盖双臂操作、移动导航、工具使用等场景，优先保证 “任务多样性” 而非 “单任务重复次数”；
数据质量控制：通过 3D 一致性验证过滤异常样本——将关节 6D 姿态经相机参数投影至图像平面，计算重投影误差，剔除物理上不合理的轨迹；
数据效率优势：模型通过视频预测学习物理规律（如物体重力、碰撞逻辑），从多样化场景中提炼通用技能（如 “抓取-移动-放置” 的底层逻辑），无需针对单个任务重复采集数据。

实验分析：多维度验证核心能力与技术优势

DreamZero 在 AgiBot G1 双臂机器人、Franka 单臂机器人上完成全面验证，核心围绕 “泛化能力、数据效率、跨机器人迁移、实时性” 四大维度展开，实验设计严谨，对比基线涵盖当前 SOTA VLA 模型（GR00T N1.6、 $\pi_{0.5}$ ）。

核心实验设计：变量控制与基准设定

实验平台：

实机：AgiBot G1（移动双臂机器人）、Franka（单臂机器人）；

基线模型：GR00T N1.6、 $\pi_{0.5}$ ，均设置 “从 scratch 训练”（仅用与 DreamZero 相同的 500 小时数据）和 “预训练初始化”（基于数千小时跨机器人数据预训练）两种配置，确保公平对比；

评估标准：任务进度（0-1.0 分，基于部分完成度打分）、成功率、推理延迟、动作平滑度。

关键变量定义：
- 见过的任务（Seen Tasks）：动作模式与训练数据一致，仅物体 / 环境变化（如训练折叠红衬衫，测试折叠黑衬衫）；
- 未见过的任务（Unseen Tasks）：动作模式未出现在训练数据中（如解鞋带、握手、熨烫）；
- 跨模态迁移：仅使用其他机器人（YAM）或人类的纯视频数据（无动作标注）进行迁移；
- 少样本形态适配：仅用 30 分钟 “玩耍数据”（无任务标注，随机交互）适配新机器人（YAM）。

核心实验结果与深度分析

Q1：WAM 能否从多样化非重复数据中高效学习？

实验设置：在 “见过的任务 + 未知环境 + 未知物体” 场景下，对比 DreamZero 与 VLA 模型的任务进度。
结果：DreamZero 平均任务进度达 62.2%（AgiBot G1 平台），是最佳预训练 VLA 基线（27.4%）的 2.2 倍；Franka 平台上，仅训练 DROID 数据集的 DreamZero 同样超越基于多机器人数据预训练的 VLA 模型。
分析：VLA 模型依赖 “视觉-动作” 直接映射，需大量重复数据才能学习稳定关联，而 DreamZero 通过视频预测学习物理规律，从多样化数据中提炼通用技能，即使面对未知物体 / 环境，也能基于物理常识规划动作。

Q2：WAM 对未见过的任务是否具备零样本泛化能力？

实验设置：评估 10 类训练中未出现的任务（解鞋带、握手、熨烫、绘画等），对比模型零样本表现。
结果：DreamZero 平均任务进度达 39.5%（AgiBot G1），其中 “从人体模型取帽” 成功率 85.7%，“握手” 成功率 59.2%；而从 scratch 训练的 VLA 模型任务进度不足 1%，预训练 VLA 基线仅 16.3%。
定性分析：VLA 模型常陷入 “抓取执念”—— 无论指令是 “握手” 还是 “熨烫”，均尝试抓取物体，体现出对任务语义的理解不足；而 DreamZero 能根据指令生成对应的视觉规划，再执行匹配动作（如 “握手” 时手臂自然抬起、握持、摆动），展现出真正的任务理解能力。

Q3：后训练后能否保留环境泛化能力？

实验设置：针对衣物折叠（33 小时）、水果打包（12 小时）、餐桌清理（40 小时）三类任务进行后训练，在未知环境中评估任务进度。
结果：DreamZero 在三类任务中均匹配或超越 VLA 基线，水果打包任务表现尤为突出，平均任务进度超 VLA 基线 10%。
分析：VLA 模型后训练易过拟合，无法适应评估环境的桌子高度、物体位置变化；而 DreamZero 后训练仅优化任务相关细节，保留了视频预测带来的物理规律认知，因此仍能泛化到未知环境。

Q4：跨模态迁移与少样本形态适配效果如何？

跨模态迁移（Robot-to-Robot/Human-to-Robot）：
- 实验设置：仅使用 10-20 分钟纯视频数据（无动作标注），分别来自 YAM 机器人（20 分钟）或人类第一视角（12 分钟），与 AgiBot 预训练数据 1:1 混合微调。
- 结果：机器人跨模态迁移后任务进度从 38.3% 提升至 55.4%，人类跨模态迁移提升至 54.3%，相对提升均超 42%。

分析：WAM 仅需视觉信息即可学习任务动力学（如 “折叠” 的动作逻辑），无需动作标注，突破了 VLA 模型对 “同形态动作数据” 的依赖，为利用海量人类视频数据提供了可能。
少样本形态适配：

实验设置：预训练于 AgiBot G1 的模型，仅用 30 分钟 YAM 机器人 “玩耍数据”（55 条轨迹，11 类任务）进行后训练，评估语言跟随与未知物体操作能力。
结果：模型能准确执行 “将南瓜放入橙子”“把泰迪熊捡起” 等指令，即使面对训练中未见过的物体（南瓜、杯面、纸袋），仍保持 tight 视频-动作对齐。
分析：适配效率源于两方面：

AgiBot 与 YAM 均为双臂平行夹爪，形态相似；

WAM 学习的是 “视觉未来→动作” 映射，而非直接的 “观测→动作” 映射，只需少量数据调整形态相关参数即可适配。

Q5：模型规模、数据多样性、架构对性能的影响（消融实验）

DreamZero 通过消融实验验证了关键设计的必要性：

数据多样性：14B 模型在多样化数据上的任务进度（50%）显著高于重复数据（33%），证明 WAM 需通过多样场景学习物理规律，重复数据无法提供足够的状态覆盖；
模型规模：14B 模型（50%）远超 5B 模型（21%）， smaller 模型易出现视觉幻觉（如预测不存在的物体运动），进而导致动作错误；而 VLA 模型即使扩大至 14B 规模，仍无法从多样化数据中学习（任务进度 0%），证明架构差异是核心瓶颈；
架构选择：自回归（AR）与双向（BD）架构任务进度均为 50%，但 AR 模型动作更平滑，推理速度快 3-4×，且无 FPS 失真问题，更适合闭环控制。

失败案例分析与改进方向

主要失败场景：模型失败多源于视频预测错误，而非动作提取错误。例如 “用马克笔在白板画画” 任务中，视频预测分支误生成 “传递马克笔” 的画面，动作分支便执行传递动作而非画画；“烤可颂” 任务中，视频预测未包含 “打开烤箱” 步骤，导致机器人直接手持面包靠近烤箱。

改进启示：失败案例验证了 “视频生成质量=策略性能” 的核心逻辑，未来可通过提升视频扩散模型的长时域一致性、强化语言-视觉对齐精度，进一步降低失败率。

总结：开启机器人通用智能的 “预测时代”

DreamZero 的核心价值不仅在于性能突破，更在于重构了机器人学习的技术范式——从 “依赖重复演示的特化学习” 转向 “学习物理规律的通用化学习”。其通过世界动作模型（WAM）实现了三大跨越：

**泛化能力：**零样本应对未见过的任务与环境，平均性能超 SOTA VLA 模型 2×；

**数据效率：**多样化非重复数据即可训练，跨模态迁移仅需 10-20 分钟纯视频数据；

**部署实用性：**38× 推理提速实现 7Hz 实时控制，少样本适配新机器人仅需 30 分钟数据。

尽管目前在亚厘米级高精度任务（如钥匙插入）、超长时间域规划（如复杂装配）上仍有优化空间，但 DreamZero 已证明：视频预训练的物理动力学知识，是破解机器人 “泛化难、数据贵、部署慢” 三大痛点的关键。未来通过融合大规模人类日常视频数据、优化长时域推理能力、轻量化模型适配边缘设备，有望加速机器人在家庭服务、工业柔性生产、医疗辅助等场景的规模化应用。

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

DreamZero技术解析：当世界模型成为机器人“物理大脑”

DAMO开发者矩阵

硬实时·强生态：鸿道Intewell硬实时操作系统

DAMO开发者矩阵

【随手记】Covariant’s Brain Service和gRPC谷歌远程过程调用

高性能：HTTP/2 + Protobuf，高吞吐量、低延迟实时双向通信：机器人和 Brain Service 可持续交换数据支持流式数据：感知数据和动作指令都是连续流跨语言系统支持：简化分布式开发正是 gRPC 的这些特性，使得 Covariant 的机器人系统能够像“智能团队”一样高效协作，实现真正的工业自动化智能。