用于机器人控制的因果世界建模
26年1月来自蚂蚁Robbyant的论文“Causal World Modeling for Robot Control”。这项工作强调,视频世界建模与视觉语言预训练相结合,为机器人学习建立一个全新且独立的基础。直观地说,视频世界模型能够通过理解动作和视觉动态之间的因果关系来“想象”近期未来。受此启发,LingBot-VA,一个自回归扩散框架,可以同时学习帧预测和策略执行。模型包含三个精心设计的结
26年1月来自蚂蚁Robbyant的论文“Causal World Modeling for Robot Control”。
这项工作强调,视频世界建模与视觉语言预训练相结合,为机器人学习建立一个全新且独立的基础。直观地说,视频世界模型能够通过理解动作和视觉动态之间的因果关系来“想象”近期未来。受此启发,LingBot-VA,一个自回归扩散框架,可以同时学习帧预测和策略执行。模型包含三个精心设计的结构:(1)一个共享的潜空间,整合视觉和动作tokens,由 Transformer 混合模型(MoT)驱动;(2)一个闭环展开机制,允许持续获取环境反馈和真实观测数据;(3)一个异步推理流水线,并行化动作预测和运动执行,以支持高效控制。在仿真基准测试和真实场景中评估模型,结果表明,该模型在长时程操作、训练后数据效率以及对新配置的强大泛化能力方面都展现出显著优势。
如图所示LingBot-VA。(1) 预训练:LingBot-VA 在各种真实场景视频和机器人动作数据上进行预训练,使其能够很好地泛化到不同场景和物体上。(2) 全面评估:在真实世界任务(长时域、可变形体和精确操作)和仿真基准测试中进行广泛的实验,显著优于包括 π0.5 在内的现有最佳方法。(3) 多功能性:除了策略学习之外,模型还支持从机器人视频中进行视觉动力学预测和逆动力学推断。(4) 涌现特性:因果世界建模方法展现出长程时间记忆和强大的少样本适应能力。
介绍如下基础知识。
流匹配
流匹配 [46, 50, 74] 是一种连续时间生成建模框架,它通过连续流学习将简单的源分布(例如高斯噪声)转换为目标数据分布。给定一个数据样本 x_1 和一个噪声样本 ε ∼ N (0, I ),流匹配定义一个时间相关的向量场 v_s,该向量场描述了粒子从 ε 流向 x_1 的瞬时速度。
轨迹 x(s) 根据一个常微分方程 (ODE) 演化,其中 s ∈ [0, 1] 表示流时间。该模型通过最小化一个目标 L_FM 来训练预测该向量场,其中 ẋ(s) 是沿插值路径的真实速度,通常定义为 x(s) = (1 − s)ε + sx_1,因此 ẋ(s) = x_1 − ε。在推理阶段,通过求解从 s = 0 到 s = 1 所学习的常微分方程来生成样本 x_1。
基于条件流匹配的视频生成
近期的视频生成模型 [23, 35, 54, 78] 利用流匹配技术,根据文本或图像生成条件视频。这些模型在预训练视频自编码器的潜空间中运行,其中视觉观测被编码为潜表示 z_t = E(o_t),编码器为 E(例如,来自视频扩散模型)。
给定条件信号 c(文本提示或初始图像),流匹配模型通过预测向量场来学习生成潜视频帧序列 z = {z_1 , . . . , z_T}。
其中 s ∈ [0, 1] 表示流程时间,z(s) 表示流程步骤 s 时的潜视频。生成过程从噪声 z(0) = ε ∼ N(0,I) 开始,并对学习的向量场进行积分,得到最终的潜视频 z(1),然后将其解码到像素空间。这种双向生成框架能够根据文本描述或种子图像进行灵活合成。
问题陈述与方法概述
将机器人操作视为部分可观测性下的序列决策问题。在每个时间步 t,智体接收视觉观测值 o_t ∈ O 并执行动作 a_t ∈ A,该动作会引起底层物理世界的转换,并产生下一个观测值 o_t+1。
视觉-语言-动作 (VLA) 策略。大多数现有的 VLA 策略通过对机器人演示数据的模仿学习,学习从观测历史到动作的直接反应式映射:
a_t ∼ π_θ(· | o_t)
虽然这种端到端的方法已经取得令人瞩目的成果,但它存在一个根本性的耦合问题:模型必须从成对的观测值和动作的单个监督信号中同时学习视觉场景理解、物理动力学和运动控制。这种耦合导致样本效率低下和泛化能力有限,因为在没有显式动力学建模的情况下,模型难以将视觉推理与动作预测分离。
提出的方法。与直接学习动作分布的VLA策略不同,采用世界建模视角:不学习π(a_t | o_t),而是预测视觉世界的演化方式,然后基于这些预测推断动作。该方法分两个阶段进行:
(阶段1)视觉动力学预测:o_t+1 ∼ p_θ(· | o_≤t),
(阶段2)逆动力学:a_t ∼ g_ψ(·|o_t, o_t+1)。
阶段1学习根据观察历史预测未来的视觉观察结果。阶段2使用逆动力学模型从期望的视觉转换中解码动作。这种分解使得阶段1能够利用大规模视频数据来学习物理先验,而阶段2只需要机器人演示即可将视觉预测转化为可执行的动作。
方法概述。如图展示框架的细节。方法包含三个关键组件:1)自回归视频动作世界建模,描述如何在潜空间中对视觉动态进行建模,并从预测的状态转换中解码动作——这是方法核心;2)LingBot-VA:统一架构与训练,用于视频动作预训练的统一模型,包括架构设计和训练目标——这是具体实现;3)实时部署与异步推理,介绍部署策略,该策略通过并行预测和执行实现实时控制——这是实际应用。
自回归视频-动作世界建模
以往的视频世界模型要么侧重于开放式的视频预测[54],要么学习动作条件化的交互式环境[13, 56],主要用于游戏或仿真领域,但这些模型可能无法直接应用于精确的机器人操作。为了利用视频数据中丰富的视觉动态先验信息进行机器人操作,提出一种统一的视频-动作世界建模框架,该框架在一个自回归过程中联合建模视觉观察和机器人动作。与以往将视频预测与动作推断解耦[16, 27]或依赖于片段内双向扩散[96]的方法不同,方法将视频和动作统一在一个因果自回归框架中,通过KV缓存实现持久记忆,并无缝集成实时观察结果。
基于自回归建模的世界动力学。近年来,机器人领域的世界模型通常采用双向视频生成方法[4, 20, 24, 42]或学习交互式模拟器[85],但这些方法在闭环控制方面存在根本性的局限性。一次性生成整个长序列的开环方法计算成本极高,且无法整合实时反馈进行纠错。基于块的扩散方法按顺序生成视频片段[22, 96]存在两个关键问题:(1) 由于每个块都是独立生成的,无法访问完整的历史记录,因此缺乏跨块的持久记忆,导致时间上的不一致性以及长期的漂移;(2) 每个块内的双向注意机制违反因果关系,阻碍执行过程中与实时观测的无缝集成。
然而,物理世界本质上是因果的和自回归的:当前状态仅取决于过去,无法在未来发生之前对其进行观测。这一基本特性促使提出自回归世界建模方法,该方法相比基于块的扩散方法,在机器人控制方面具有三个关键优势:(1)持久记忆:通过因果注意机制和KV缓存显式地对完整的观测历史进行条件化,该模型能够在整个轨迹中保持长期上下文和时间一致性,避免了基于块的方法中常见的“失忆”问题;(2)因果一致性:单向依赖结构自然地契合闭环执行,新的观测数据可以无缝地融入其中;(3)高效性:分块预测并在每个块内进行并行生成,平衡了计算效率和自回归的灵活性,从而实现了高频控制和实时纠错。
其形式化为一个自回归过程:在每个步骤中,世界模型使用条件流匹配预测下一个包含 K 个视频帧的片段:
o_t+1:t+K ∼ p_θ(· | o_≤t),
其中,每个片段内的token通过双向注意机制并行生成,同时保持片段间的因果结构。这种分块式方法平衡生成效率和自回归的灵活性,从而实现闭环校正。
视频动作状态编码。由于原始视觉数据的高维度和冗余性,直接对像素级视频观测进行操作在计算上是难以承受的。利用因果视频 VAE [78] 将视觉观测压缩成紧凑的潜token z_t = E(o_t | o_<t),其中 N 是经过视频 VAE 处理后的空间token数量。通过对先前潜状态进行条件化,编码器在顺序处理观测的同时保持时间一致性,这与自回归世界建模框架自然契合。为了将机器人动作与视觉tokens对齐,通过轻量级多层感知器 (MLP) φ(·) 将动作向量投影到token嵌入 a_t 上,其中 D 是视频token在分割后的维度,从而实现视觉token和动作 token的统一交错,这与之前的研究方法 [5, 22] 一致。
潜视频状态转换。虽然标准视频生成模型仅基于视觉历史预测未来帧,但机器人操作需要考虑机器人的物理状态及其与环境的交互。在部署过程中,机器人的状态通过持续交互而演变:每个动作都会改变机器人的配置(例如,夹爪位置、关节角度),进而影响场景的演变。
在许多操作场景中,动作编码绝对姿态信息(例如,末端执行器在世界坐标系中的姿态),因此动作历史 a_t 有效地捕捉机器人配置的轨迹。因此,基于动作历史的条件化可以提供机器人如何移动以及如何与物体交互的知识,这与先前基于动作条件化的视频/世界模型一致[22, 85, 96]。将自回归公式扩展到同时基于观测历史和动作历史的条件化:
z_t+1:t+K ∼ p_θ(· | z_≤t, a_<t),
其中 z_t 是潜视觉状态,a_t 是动作token。这使得世界模型能够基于实体状态进行预测,确保预测的观察结果反映机器人与场景的物理交互。
用于动作解码的逆动力学。一旦世界模型预测未来的视觉状态,就利用这些预测来规划动作。并非直接从当前观察结果预测动作,而是采用逆动力学模型,通过对期望的未来观察结果进行条件化来推断动作,从而使策略能够推理出哪些动作会导致期望的视觉结果。
然而,仅仅基于当前状态和下一个状态 (z_t, z_t+1) 进行条件化,不足以进行准确的动作预测。动作历史 a_t 编码了实体的状态轨迹,用于确定可行的动作,而观察历史 z_t 则为多步交互提供时间上下文(例如,物体是否先前被抓取过)。因此,将逆动力学表述为:
a_t:t+K−1 ∼ g_ψ(· | zˆ_t+1:t+K, z_≤t, a_<t),
其中,逆动力学模型 g_ψ 的输入包括推断的预测视觉状态块 zˆ_t+1:t+K、观测历史 z_≤t 和动作历史 a_<t。这与近期基于 IDM 的策略 [1, 20, 22, 55, 72] 相呼应,这些策略利用未来目标来推断可行的动作,同时保持与具身动力学的一致性。
LingBot-VA:统一架构与训练
架构。为了联合建模视频和动作生成,利用双流扩散transformer架构,该架构执行条件流匹配以进行自回归预测。模型由两个并行的transformer骨干组成:一个视频流,由 Wan2.2-5B(一个维度为 d_v 的大规模预训练视频生成模型 [78])初始化;以及一个深度相同但宽度显著更小的动作流 d_a ≪ d_v。这种非对称设计源于以下观察:动作分布本质上比视觉数据更简单,因此只需更少的参数即可有效建模,同时保持对视觉动态的表达能力。
视频稀疏化。视频帧表现出显著的时间冗余,尤其是在场景逐渐演变的机器人操作中。通过将帧的时间下采样因子 τ = 4 来稀疏化视频序列,从而减少视觉token并提高效率 [5]。由于动作的演化频率高于视觉变化,将下采样的视频token与动作token按时间顺序交错排列:对于每个视频帧 o_t,关联 τ 个连续的动作 {a_t,1, a_t,2, …, a_t,τ},形成一个统一的序列 [z_t, a_t,1, a_t,2, …, a_t,τ, z_t+1, …] 用于联合建模。这种设计意味着预测 K 个视频帧对应于生成 τ*K 个动作,从而在保持高效视频生成的同时实现高频控制。
混合 Transformer 模块。为了在保留模态特定特征空间的同时实现交互,采用混合 Transformer (MOT) 架构 [5, 19, 43],其中视频和动作token在每一层分别由独立的 Transformer 模块处理,然后通过跨模态注意机制进行融合 [5]。在每一层,视频流和动作流分别使用独立的QKV投影矩阵计算Q矩阵、K矩阵和V矩阵,从而为每个模态维护不同的特征空间。为了对齐跨模态融合的维度,动作token首先通过线性层投影到视频维度,参与联合自注意机制,然后通过残差连接投影回其原始维度,以保留动作特定的表示。这种MOT设计允许视频和动作通过注意机制相互影响,同时保持独立的参数化,从而防止模态特定特征表示之间的干扰。对于动作解码,最终的动作流输出通过线性投影头映射到低维动作向量。
动作网络初始化。动作流的正确初始化对于训练的稳定性和收敛性至关重要。从头开始训练动作网络会导致优化不稳定和收敛缓慢,因为动作token的输出分布最初与视频分布存在显著差异,从而破坏联合注意机制。为了解决这个问题,首先根据动作维度对预训练的视频权重进行插值,以此初始化动作网络权重,然后应用缩放因子 α = (d_v/d_a)0.5 来保持输出方差,其中 d_v 和 d_a 分别是视频和动作的维度。这种初始化策略确保动作token的初始输出分布与视频token的输出分布相当,从而稳定早期训练并加速收敛。
可变块大小训练。为了实现灵活部署,在训练过程中从预定义的范围内随机抽取块大小 K。通过使用可变块大小(例如,K ∈ [1, 8])进行训练,模型可以学习在不同的时间范围内生成一致的预测。在推理阶段,这可以自由选择块大小来平衡计算效率和规划范围——较大的块大小可以减少自回归步骤的数量,但需要更长的单步计算时间;而较小的块大小则可以实现更频繁的闭环校正。在实验中,用 K = 4 进行部署,这是一个比较实际的折衷方案。
教师强制方法用于统一的视频动作训练。将视觉动态预测和逆动力学都表述为自回归建模问题,其中每个预测都基于观测和动作的历史。这种统一的自回归模型使得训练策略更加自然:可以将交错的视频动作序列视为一个统一的序列,并使用标准的下一个token预测来训练模型,这类似于自然语言处理中的语言建模 [75]。
具体来说,给定一个包含交错token的片段,训练模型以预测序列中每个token在给定所有先前 token条件下的后续位置。这是通过教师强制实现的:在训练过程中,用数据集中的真实token作为预测后续token的上下文,而不是模型生成的预测。因果依赖结构通过注意掩码(如图所示)来强制执行——每个token只能关注在时间序列中更早出现的token。
重要的是,教师强制特别适用于机器人操作:与纯生成模型导致的训练集-测试集分布不匹配不同,机器人策略在部署过程中自然地检索真实世界的观测结果,与训练机制直接匹配。这种方法具有两个关键优势:(1)将视频和动作预测统一到一个训练目标下,实现对世界动态和动作推理的端到端学习;(2)通过并行处理片段并结合因果注意掩码,可以在一次前向传播中高效地优化所有时间步长的两个组件。
噪声历史增强。推理过程中的主要瓶颈仍然是视频token的生成——视频token的数量远大于动作token的数量,而且每个视频token都需要通过流匹配过程进行多次去噪。为了解决这个问题,在训练过程中引入一种噪声增强策略,使得在测试时可以进行部分去噪。关键在于,动作预测并不需要完全去噪的视频表示;逆动力学模型可以学习从部分噪声的视频状态中提取与动作相关的信息。具体来说,在训练过程中,按照与流匹配相同的插值方案,随机地用噪声增强视频历史 z_≤t。这种增强训练动作解码器,使其能够从部分噪声的视频表示中预测动作。
在推理阶段,这可以显著提高速度:不再需要对 s = 0 到 s = 1 的视频token进行全去噪,而只需要去噪到 s = 0.5,从而在保持动作预测质量的同时,将视频生成的去噪步骤减少一半。
训练目标。用上述带噪声历史数据增强方法,结合流匹配技术,联合优化视频和动作。对于视频token z_t,动力学损失函数 L_dyn 监督基于(可能带噪声的)历史数据的速度场预测。对于动作token a_t,逆动力学损失 L_inv 来自于当前和下一个观测值。完整的目标函数为 L = L_dyn + λL_inv。
实时部署与异步推理
用于高效自回归推理的KV缓存。自回归模型自然地实现推理过程中的KV缓存加速。由于每个预测步骤都依赖于观测和动作的历史,缓存先前tokens的KV对,以避免冗余计算。在每个自回归步骤中,只有新token(当前观测和预测动作)需要完整的注意计算,而缓存的历史token则可以重用。算法 1 描述使用KV缓存的完整推理过程。
异步预测与执行。尽管KV缓存和部分去噪提高效率,但自回归预测仍然存在不可忽略的延迟,这可能会违反实时控制的要求。为了解决这个问题,引入一种异步推理策略,将动作预测与执行流水线化,有效地隐藏预测延迟。如图展示同步推理和异步推理之间的区别:(下图A)传统的同步流水线会因计算阻塞而导致延迟,而异步流水线则不会。
关键在于将计算与执行重叠(上图 B):当机器人执行当前动作块 a_t 时,模型会同时根据最新的真实观测值 z_t−1(在执行 a_t−1 之后接收到)预测下一个动作块 a_t+1。为简便起见,用 z_t 表示潜观测值(忽略视频 VAE 压缩),而不是用 o_t。丢弃时间戳 t − 1 之前的所有历史数据,并使用帽子符号 ˆ 标记预测的视觉内容。因此,模型的活动上下文仅限于已执行的动作块 a_t−1、最近的真实观测值 z_t−1、当前正在执行的动作 a_t 及其对应的视觉预测 zˆ_t。一种简单的自回归实现(上图 B-1)是将这些token存储到 KV 缓存中并预测 zˆ_t+1。然而,这种设计经常导致开环性能下降和轨迹漂移。由于视频生成模型本质上倾向于时间平滑性,它往往会“延续”想象中的视频 zˆ_t,而忽略真实观测值 z_t−1 提供的关键物理反馈,最终导致模型失去对环境的反应能力。
为了缓解这个问题,在推理流程中引入一个基于前向动力学模型 (FDM) 的步骤(上图 B-2)。不再依赖过时的预测,而是执行一次前向动力学过程:模型使用最近的反馈 z_t−1,并“想象”在应用动作 a_t 后产生的视觉状态 z_t。通过缓存这个基于反馈的预测,而不是过时的预测,强制模型在预测 z_t+1 之前重新与环境反馈对齐。这种设计将异步算法增强为一个鲁棒的闭环系统,使机器人能够有效地感知并响应现实世界的变化。
算法 2 将此异步流程形式化。在训练后阶段,还引入一个前向动力学预测损失 L_fdm。

数据集整理与预处理
聚合现有的公开机器人操作数据集,整理出一个大规模的训练语料库。所有数据集都经过预处理,以确保数据格式和标注质量的一致性,并按数据集划分为90%的训练集和10%的验证集,以便监测训练动态。
统一动作表示。为了实现跨具身泛化,定义一个通用动作接口,以适应不同的数据集。用双臂表示,其中每个机械臂都由末端执行器姿态(EEF)和关节角度来表征。末端执行器姿态由XYZ坐标和一个旋转四元数(7维)组成。对于关节角度,支持单臂具身最多7个自由度;如果机器人的关节维度少于7个,将缺失的维度填充为零,以保持统一的7维表示。每个机械臂还有一个夹爪动作维度。因此,双臂系统的总动作维度为:每条手臂 7 个 EEF + 7 个关节 + 1 个夹爪,共计 (7 + 7 + 1) × 2 = 30 个维度。
训练数据构成。汇总来自六个数据源的数据,涵盖不同的具身模型、环境和任务类别:
• Agibot [2]:包含来自移动机械臂的各种操作任务的大规模数据集。
• RoboMind [80]:多具身模型操作演示。
• InternData-A1 [73]:用于仿真到实战迁移的大规模仿真数据集。
• OXE [53]:多具身模型数据集;用 OpenVLA 子集。
• UMI 数据 [18, 45, 48, 51, 60, 91]:通过通用操作接口 (UMI) 收集的人体演示数据集,不包括 DexUMI。
• RoboCOIN [83]:跨具身双手动机器人数据。
训练语料库总共包含约 16,000 小时的机器人操作数据,涵盖各种任务和环境,包括内部收集的演示数据。
实现与训练细节
实现细节。用 Wan2.2-5B 作为视频流的骨干网络,其隐层维度 d_v = 3072,并包含 30 个 Transformer 层。动作流与视频流共享相同的深度,但使用更小的隐层维度 d_a = 768(缩小 4 倍),从而增加约 3.5 亿个参数,使模型总参数量达到 53 亿。两个数据流均采用 RoPE 位置编码,并通过MoT 架构连接。采用 Wan2.2 因果 VAE 进行token化,压缩比为 4 × 16 × 16(时间 × 高度 × 宽度),并结合 patchify 操作进一步将空间维度降低 2 倍。编码后的视图沿宽度方向拼接,最终每帧得到 N = 192 个空间tokens。动作编码器 φ 和解码器均采用隐层维度为 256 的单层 MLP 实现。用从训练集计算出的逐维度分位数归一化统计量对动作进行归一化。任务指令使用冻结的 T5 文本编码器 [59] 进行编码,并通过交叉注意机制注入。训练过程中,块大小 K 从 [1, 4] 中随机采样。
推理过程中,视频token使用 3-步欧拉求解器(积分至 s = 0.6),动作token使用 10 步欧拉求解器(积分至 s = 1.0)。视频无分类器引导(CFG)的尺度设置为 5.0,动作无分类器引导(CFG)的尺度设置为 1.0。训练过程中,以概率 p = 0.5 和 s_aug ∼ Uniform[0.5, 1.0] 应用噪声增强。遵循 LLM 实践,用注意掩码将多个片段打包成长序列(最多 10K 个 token)。
预训练详情。在精心整理的数据集上对 LingBot-VA 进行预训练,该数据集包含 1.4T 个 token。用 AdamW 优化器,峰值学习率为 1 × 10⁻⁴,权重衰减为 0.01,并采用余弦退火策略和线性预热。训练在 bfloat16 混合精度下进行,梯度裁剪值为 2.0。应用无分类器引导(CFG),文本 dropout 率为 0.1。逆动力学损失权重 λ 设置为 1。数据集在所有来源上均匀采样,以确保均衡学习。用验证集上的流匹配损失来监控收敛情况。对视频模型使用均匀信噪比采样器。视频模型和动作模型均采用均匀信噪比采样器。
后训练细节。虽然预训练模型对已见实例展现出零样本泛化能力,但适应新的机器人平台仍需少量特定任务数据。仅需 50 个演示数据即可进行有效的后训练部署。用 1 × 10⁻⁵ 的较低学习率,并训练 3000 步,从而获得稳健的性能。或者,使用 1 × 10⁻⁴ 的较高学习率和 1000 步训练也能获得合理的结果,尽管略逊一筹,但在计算资源有限的情况下,这是一种更快的适应方案。
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐


所有评论(0)