首个开源扩散VLA：Unified DVLA！实现SOTA性能+4倍加速

Tom Hardy

618人浏览 · 2025-12-22 22:24:28

Tom Hardy · 2025-12-22 22:24:28 发布

Diffusion Large Language Model (DLLM)是大模型圈近期最火的topic之一，对于VLA来说，我们的motivation是充分利用dllm在生成理解一体化方面天然的优势，将未来帧生成和动作预测统一在一个框架内。

原文链接：首个开源扩散VLA：Unified DVLA！实现SOTA性能+4倍加速

对于生成理解一体化的Unified VLA模型，我们关注的核心问题是如何实现图像生成和动作预测的相互裨益，针对这个问题我们提出了联合离散去噪过程Joint Discrete Denoising Diffusion Process (JD3P)，即我们将不同模态的去噪过程统一在同一个去噪轨迹中，通过hybrid attention让动作在去噪过程内持续受益于图像的去噪过程。为了在推理阶段充分发挥dllm的优势，我们设计了前缀KV Cache和基于置信度的decoding机制，在提升推理速度的同时保证动作质量。最后，作为第一个全面开源的Diffusion VLA在达到SOTA-level性能的同时相比自回归模型实现了四倍的加速，我们在主流benchmark (CALVIN, LIBERO, SIMPLER) 上进行了全面的评测提供了完整的训练、测试代码以及模型权重。

UD-VLA架构

图 1：UD-VLA架构

1) Unified Tokenization

我们把 text / image / action 用emu3 tokenzier/VQ tokenizer/FAST tokenizer离散化为 tokens，并拼成一条单一多模态序列。并用特殊token/and/标记不同模态

序列结构：
[text tokens ; current image tokens ; future image tokens ; action tokens]

2) Hybrid Attention Mechanism

我们保持不同模态之间和文本模态内因果，视觉模态以及动作模态内保持双向。这样做的目的是让动作在去噪过程内持续受益于图像的去噪过程

3）Joint Discrete Denoising Diffusion Process (JD3P)

动作与图像在同一个去噪步骤中并行生成。设未来图像 token 为 $\mathbf{v}_0$ ，动作 token 为 $\mathbf{a}_0$ ，其联合序列为：

$$
\mathbf{v}_0,\ \mathbf{a}_0

\bigl(v_{0,1},\dots,v_{0,L_v},\ a_{0,1},\dots,a_{0,L_a}\bigr).
$$

我们加入一个掩码 token $\mathrm{M}$ 。在步骤 $t$ 的加噪转移为：

$$
\mathbf{Q}t,\mathbf{e}{t,r}

(1-\beta_t),\mathbf{e}{t,r}
+
\beta_t,\mathbf{e}{\mathrm{M}}.
$$

去噪过程可分解为：

$p_\theta(\mathbf{v}_{t-1},\mathbf{a}_{t-1}\mid \mathbf{v}_t,\mathbf{a}_t,\mathbf{c}) \;=\; p_\theta(\mathbf{v}_{t-1}\mid \mathbf{v}_t,\mathbf{c})\; p_\theta(\mathbf{a}_{t-1}\mid \mathbf{v}_t,\mathbf{a}_t,\mathbf{c}).$

我们采用 单步掩码预测 目标，仅对 被掩码的位置 计算交叉熵：

$\mathcal{L}_{\text{CE}}(\theta) = - \beta \sum_{j}^{L_v} \log p_\theta^{(v)}\!\big(v_{0,j}\mid \mathbf{v}_t,\mathbf{c}\big)\, \mathbf{1}\{v_{t,j}=\mathrm{M}\} \;-\; \sum_{i}^{L_a} \log p_\theta^{(a)}\!\big(a_{0,i}\mid \mathbf{v}_t,\mathbf{a}_t,\mathbf{c}\big)\, \mathbf{1}\{a_{t,i}=\mathrm{M}\}.$

4）训练 (Training)

阶段 (i). 在大规模视频数据集上进行后训练，注入未来图像生成能力。
$[\;\text{text tokens}\;;\;\text{current image tokens}\;;\;\text{future image tokens}\;].$
阶段 (ii). 共同优化图像和动作生成；将自回归解码重构为扩散过程（JD3P），通过移位操作预测下一个 token。
$[\;\text{text tokens}\;;\;\text{current tokens}\;;\;\text{future image tokens}\;\text{action tokens}].$

推理 (Inference)

并行解码与自适应掩码
初始化 $\mathbf{v}_T$ 和 $\mathbf{a}_T$ 的所有位置为 <MASK>，并进行少量迭代。

前缀 KV 缓存与预填充
复用前缀token的kv缓存和预填充 <BOI>、<EOI>、<BOA> 以引导去噪。

基于置信度的解码
使用通过置信度对掩码位置进行排序：
$q_{t-1,r}=\max_{\ell}\begin{cases} p_\theta(\ell \mid \mathbf v_t,\mathbf u), & r\in\{1,\ldots,L_v\},\\[6pt] p_\theta(\ell \mid \mathbf v_t,\mathbf a_t,\mathbf u), & r\in\{L_v+1,\ldots,L_v+L_a\}. \end{cases}$

通过温度化的 Gumbel 采样更新前 $(1-\rho_t)|M_t|$ 个条目：
$v_{t-1,j},a_{t-1,i}=\arg\max_{y}\Big[\tfrac{1}{\kappa_t}\log p_\theta(y \mid \mathbf v_t,\mathbf a_t,\mathbf u)+\eta_c\Big],\; \eta_c\sim \mathrm{Gumbel}(0,1).$

实验

仿真实验

视觉cot生成

真机实验

最后

我们在Diffusion VLA方向上长期的尝试，在今年三月就探索了Parallel VLA的一种形式PD-VLA（uniform的迭代形式），它通过并行且多次迭代输出action，可以视作diffusion VLA的最早期探索，基于PD-VLA，我们进一步探索了Diffusion VLA的推理加速，通过一致性蒸馏的方式将基于OpenVLA的模型速度提升了四倍。得益于dllm的发展，Unified Diffusion VLA探索了多模态的生成理解统一的关键问题，我们希望他不仅可以作为好的开源VLA基座，也可以作为团队在diffusion VLA一系列研究上的最新结果提供给大家真正的insights。