RDT2：探索UMI数据在零样本跨具身泛化中的扩展极限

26年2月来自清华的论文“RDT2: Exploring the Scaling Limit of UMI Data Towards Zero-Shot Cross-Embodiment Generalization”。视觉-语言-动作 (VLA) 模型在通用机器人领域展现出巨大潜力，但目前仍面临数据匮乏、架构效率低下以及无法跨不同硬件平台泛化等问题。RDT2，是一个基于 70 亿参数 VLM 的

硅谷秋水

710人浏览 · 2026-02-15 00:15:00

硅谷秋水 · 2026-02-15 00:15:00 发布

26年2月来自清华的论文“RDT2: Exploring the Scaling Limit of UMI Data Towards Zero-Shot Cross-Embodiment Generalization”。

视觉-语言-动作 (VLA) 模型在通用机器人领域展现出巨大潜力，但目前仍面临数据匮乏、架构效率低下以及无法跨不同硬件平台泛化等问题。RDT2，是一个基于 70 亿参数 VLM 的机器人基础模型，旨在支持在新型机器人上进行零样本部署，以完成开放词汇任务。为了实现这一目标，用增强型、与机器人本体无关的通用操作接口 (UMI) 设备收集开源机器人数据集——涵盖不同机器人系列的超过 10,000 小时的演示数据。本文方法采用一种三阶段训练方案，通过残差矢量量化 (RVQ)、流匹配（FM）和蒸馏技术，将离散的语言知识与连续的控制相结合，从而实现实时推理。因此，RDT2能够同时对未见过的物体、场景、指令乃至机器人平台进行零样本泛化。此外，它在灵巧性强、视野范围长且动态的下游任务（例如打乒乓球）中也优于最先进的基线模型。

机器人数据金字塔。机器人学习的数据格局可以被概念化为一个金字塔（Bjorck，2025）。金字塔顶端是远程操作数据，这些数据通过虚拟现实（VR）（Khazatsky，2024；Cheng，2024；Chen，2025a）或主从机械臂（Zhao，2023；Fu，2024；Aldaco，2024）等系统收集，具有最高的保真度，但获取成本也最高。其数据采集通常局限于结构化的实验室环境（Walke et al., 2023; Fang et al., 2023; Khazatsky et al., 2024; O’Neill et al., 2024; Wu et al., 2024），导致训练数据与实际应用之间存在分布上的差距。处于中间位置的是仿真数据（Wang et al., 2023; Li et al., 2023; Mu et al., 2024; Chen et al., 2025b）；它成本低廉且可扩展，但存在显著的仿真与实际应用之间的差距，如何生成多样化、交互式和逼真的场景仍然是一个尚未解决的问题（Nasiriany et al., 2024; Ren et al., 2024; Zhang et al., 2025）。其基础是庞大的互联网视频库（Ye et al., 2024; Yang et al., 2025; Luo et al., 2025; Feng et al., 2025）。尽管数据量丰富，但这些数据结构混乱且噪声较大，最重要的是，缺乏监督策略训练所需的明确动作标签（McCarthy et al., 2025）。

在自然语言处理和计算机视觉领域，已有充分研究表明，增加数据集的规模和多样性可以提高模型的泛化能力（Kaplan et al., 2020; Zhai et al., 2022）。然而，目前将这一原则应用于远程操控机器人领域尚不切实际。机器人硬件的高昂成本使得并行数据采集，进而大规模数据收集，变得极其昂贵。此外，这些系统缺乏便携性，导致数据采集主要局限于实验室或工厂环境，严重限制所采集数据的多样性和实际应用价值。硬件异构性加剧数据匮乏的问题，因为在一个机器人平台上采集的数据通常与其他平台不兼容，从而形成孤立且无法互操作的数据集。
根据先前的研究（Chen et al., 2022; Chi et al., 2023），人类数据展现出显著的多模态性，因此需要学习动作分布而非确定性映射的模型。这就需要在离散和连续动作表示之间做出选择，二者各有优缺点。离散方法与预训练的虚拟逻辑模型（VLM）的概率输出自然契合，但存在量化误差和自回归采样效率低下的问题。相反，扩散模型等连续方法虽然采样效率更高，但训练收敛速度较慢（Pertsch et al., 2025），并且存在破坏VLM内部离散知识的风险（Deng et al., 2025）。因此，一个关键的挑战是如何综合两种范式的优势。此外，机器人任务对实时性能的要求使得大规模VLA的有效部署成为一个巨大的障碍。

本文RDT2是一个用于机器人零样本部署的基础模型之一，能够处理开放词汇任务。RDT2基于预训练的7B级向量学习模型Qwen2.5-VL（Bai，2025）构建，并配备专门的动作头和三阶段训练策略，用于从大规模机器人数据中学习。为了快速收敛，在第一阶段，用残差向量量化（RVQ）（Van Den Oord，2017；Esser，2021；Lee，2022）将连续的机器人动作编码为离散的tokens，然后通过最小化交叉熵损失来训练VLM。这也能避免在预训练过程中破坏以离散概率形式存储的知识。在第二阶段，为了提高表达能力和效率，采用动作专家模型来建模连续概率，并使用流匹配损失对其进行训练。在第三阶段，提出一种简单而有效的蒸馏损失，并将动作专家模型蒸馏成一个单步生成器，从而实现了超快的推理速度。

为了应对数据规模挑战，采用 UMI（Chi，2024），这是一个可移植的框架，能够实现可扩展的、实际环境中的数据采集。UMI 使用带有视觉和跟踪器的手持设备记录 6 自由度末端执行器的姿态和夹爪的宽度。当安装物理特性一致的夹爪时，从 UMI 数据中学习的策略可以部署到不同的机械臂上，因为视觉和结构上的差异在不同装置之间被最小化。如图展示从设计到部署的 UMI 解决方案。
请添加图片描述

UMI 的重新设计。然而，原始的 UMI 硬件缺乏大规模实际环境数据采集所需的可靠性。为了解决这个问题，对整个系统进行重新设计（图 a），以最大限度地提高结构刚度，确保无漂移的红外跟踪，并增强在复杂环境中的操作灵活性。如表所示。这些改进解决关键的姿态不一致和可达性限制问题，显著提高数据保真度。
请添加图片描述

如图所示数据采集和部署的硬件配置：
请添加图片描述

大规模 UMI 数据集。得益于这些硬件进步，我整理迄今为止最大的开源 UMI 数据集之一，包含超过 10,000 小时的操作数据，涵盖 100 多个家庭。数据集完全在自然环境中采集，涵盖广泛的非结构化环境和复杂的人类行为，为通用策略学习提供强大的基础。

如图所示：在家庭环境中，定义50多项任务，涵盖各种日常操作活动，例如拾取和放置、倾倒、擦拭、摇晃、搅拌和整理。
请添加图片描述

在每次记录过程中，数据收集员都会收到一份简要说明（如表所示），并使用家中常见的物品完成任务。
请添加图片描述

本文引入RDT2，这是一个VLA模型，其训练流程如图所示，分为三个阶段。在第一阶段用RVQ将连续动作空间离散化为tokens，并通过标准的交叉熵损失函数训练VLM骨干网络。随后，在第二阶段冻结VLM骨干网络，并训练一个基于扩散的动作专家，利用流匹配损失函数生成连续动作。这种混合方法结合离散化和扩散的优势，有效地解决建模多模态动作分布的挑战。最后，为了解决机器人任务的实时性难题，第三阶段将多步动作专家简化为一个高效的单步生成器，从而使大规模VLA模型能够快速推理。
请添加图片描述

第一阶段

如前所述，扩散模型在视觉语言动作（VLA）训练中存在两个主要问题：收敛速度慢以及预训练视觉语言模型（VLM）中离散概率知识的退化。为了缓解这些问题，选择在扩散训练之前，先使用交叉熵损失对VLM主干网络进行预训练，这与其原始训练目标一致。这有助于有效地保留模型宝贵的预训练知识，并使其受益于在训练过程中添加的视觉语言数据。实验证实，与从一开始就直接使用扩散损失进行训练相比，这种离散化的预训练阶段显著加快了VLA模型的收敛速度。

为了便于交叉熵训练，采用 RVQ（Van Den Oord，2017；Esser，2021；Lee，2022）进行离散化，因为它具有很高的压缩效率。

为了缓解臭名昭著的码本崩溃问题，在RVQ训练过程中采取多项措施，包括降低码本维度（Yu，2021）、用余弦相似度代替欧氏距离（Yu，2021）、通过指数移动平均（EMA）平滑码本更新（Razavi，2019）以及每隔固定周期重启不活跃的码本条目（Zeghidour，2021）。在相同的量化误差水平下，这样RVQ可以将动作块压缩成更少的tokens，从而显著加快大型VLA的收敛速度。

选择7B Qwen2.5-VL（Bai，2025）作为VLA骨干网，利用其在大规模视觉语言语料库上的广泛预训练。将各种模态投影到一个统一的潜空间进行学习：视觉和语言通过 Qwen 编码器进行投影，动作通过 RVQ 模型进行投影。保留词汇表中出现频率最低的 1024 个词条来表示这些动作tokens。VLA 模型在UMI 数据集和一小部分视觉-语言数据的复合数据集上进行了 12.8 万次迭代的训练，训练目标为下一个token预测。

第二阶段

为了提高推理效率，超越自回归模型，引入第二阶段的训练。在这一阶段，冻结第一阶段预训练的 VLA 主干模型，并训练一个专门的动作专家模型。该专家模型是RDT-1B（Liu，2024）的4亿参数变型，它通过将多头注意力机制（MHA）（Vaswani，2017）替换为分组查询注意机制（GQA）（Ainslie，2023）来优化速度。它通过扩散过程生成连续动作，该过程以冻结的VLA骨干网络编码的自然语言和图像表示为条件。具体而言，该动作专家利用交叉注意机制来融合VLA骨干网络每一层的潜特征。动作专家由流匹配损失（Lipman，2022）监督。
此外，由于模型主干 VLA(·) 在积分过程中保持不变，仅计算一次。在实验中，随机初始化动作专家，并在 UMI 数据集上对其进行 66K 次迭代训练，同时冻结 VLA 骨干网络（在第一阶段训练）。

第三阶段

动作生成过程需要对每个动作块进行五次连续的前向传播，这会带来相当大的推理开销。这种延迟对于动态性要求高的任务（例如乒乓球）来说是一个实际的瓶颈。为了克服这一限制，采用扩散蒸馏（Salimans & Ho, 2022; Chen et al., 2023）将第二阶段中训练的专家策略转换为单步生成器。技术显著降低模型延迟，使大规模 VLA 能够实现比规模小得多的模型快得多的推理速度。

扩散蒸馏。对于高动态性任务，用定义的回归目标，将动作专家蒸馏为具有参数 θ′ 的单步生成器。参数θ 已在第二阶段预训练并在此阶段保持不变，模型主干VLA(·) 也保持不变，而 θ′ 可训练，其初始值由 θ 初始化。与以往的蒸馏方法不同，生成过程 F(·) 在训练过程中实时计算，而不是在数据准备阶段预生成。这种方法在可接受的计算开销下具有显著优势。生成低维动作非常高效（只需几个集成步骤），生成低维动作非常高效（只需几个集成步骤），这与需要数百个步骤的图像或视频生成形成鲜明对比。同时，它还显著降低蒸馏策略过拟合预生成数据的风险，而过拟合是基于回归的蒸馏方法中常见的陷阱。

训练详情如下。

平台和数据管道

用 PyTorch（链接至 PyTorch 代码库）和 DeepSpeed（链接至 DeepSpeed 代码库）来实现训练框架，以支持高效的分布式训练。基础设施的核心组件是使用高吞吐量的 WebDataset（链接至 WebDataset 代码库）流式传输。将所有数据集转换为 POSIX tar 分片，并利用重采样模式，从而实现无周期限制的无限数据流传输。训练过程中，用 wds.RandomMix 动态混合来自异构数据源的数据，从而可以实时调整不同数据集的采样权重。

第一阶段：VQ 预训练

在第一阶段，将 Qwen2.5-VL 骨干网络与机器人领域进行对齐。该模型使用标准的交叉熵目标函数进行训练，以预测离散化的动作token。
为了确保稳健的视觉表示，应用一套全面的图像增强技术。利用标准的颜色抖动（亮度、对比度、饱和度、色调）以及一系列随机图像损坏，包括高斯/拉普拉斯噪声注入、运动模糊和JPEG压缩伪影。

训练过程中，采用余弦学习率调度器，并在最后8000次迭代中采用指数衰减进行退火处理。

第二阶段：连续动作专家

在第二阶段，冻结VQA骨干网络，并使用条件流匹配（CFM）优化RDT动作专家。

训练配置。在训练过程中，用Logistic正态分布（μ = 0，σ = 1）而非均匀分布对时间步长t进行采样。这在经验上将训练资源集中在流轨迹中最复杂的区域（t ≈ 0.5）。为了监控收敛情况，每2500步使用完整的多步积分在预留的验证集上评估模型。报告动作均方误差 (MSE)、末端执行器位置均方误差 (MSE)、旋转测地线误差和夹爪宽度均方误差 (MSE)，并基于聚合验证误差选择检查点。

第三阶段：单步蒸馏

为了实现高频推理，将第二阶段的策略蒸馏为一个单步生成器。将第二阶段的模型冻结为教师模型，并训练一个学生模型副本，使其在一次前向传播中回归教师模型的多步输出。学生模型以 t = 0 为条件，并最小化其预测速度与教师模型有效轨迹之间的均方误差 (MSE)。

实现细节。

将 RDT2 与两个基线模型进行比较：π0.5 和 π0-FAST（Black ，2024；Pertsch ，2025；Intelligence ，2025）。用官方 OpenPI 代码库实现这两个基线模型（OpenPI 代码库链接）。为了确保公平比较，没有修改架构，仅修改配置文件和检查点路径。

对于 π0.5，用标准的基于流公式。在配备 8 个 GPU 的单个节点上训练该模型 20,000 步，每个 GPU 的批大小为 32。配置遵循官方 π0.5 设置，采用离散状态输入、24 维动作范围和 32 维动作空间。用 Gemma-300M 权重初始化动作专家，并使用 Gemma-2B 初始化语言骨干。训练使用 bfloat16 精度、AdamW 优化器和 1.0 的梯度裁剪。

对于 π0-FAST，按照标准的 FAST 流程，使用与策略相同的 RVQ 动作数据集训练 FAST token化器。训练完成后，固定token化器并将其用于策略训练。在配备 8 个 GPU 的单个节点上训练策略 30,000 步，每个 GPU 的批大小为 32。其他优化器和调度器设置与 π0.5 相同。对每个基线模型进行训练，直至每个任务稳定收敛。

零样本配置。在零样本实验中，直接评估预训练模型在未见过的任务上的泛化能力，无需任何后续更新。用从第一阶段（RDT2-VQ 变体，在 UMI 数据集上训练 12.8 万步）或第二阶段（RDT2-FM 变体，动作专家模型，在 UMI 数据集上训练 6.6 万步）获得的模型权重，这些权重均仅在大规模 UMI 数据集上训练。此设置不涉及任何特定任务的数据，因此可以仅基于模型的预训练知识来评估其处理新指令、对象和场景的能力。

微调配置。所有微调实验均从第一阶段的检查点初始化，该检查点在 UMI 数据集上预训练了 12.8 万步。视觉语言骨干网络保持不变。考虑了两个变型：RDT2-FM 和 RDT2-UltraFast。针对每个下游任务分别对这两个变型进行微调。

• RDT2-FM：用流匹配目标函数对该变型进行微调。在配备 8 个 GPU 的单节点上训练 5 万步，全局批大小为 96。超参数与第二阶段训练一致。
• RDT2-UltraFast：为了获得该变型，首先使用微调后的 RDT2-FM 模型。然后，执行一致性蒸馏，将其转换为单步生成器。蒸馏持续 2 万步，使用相同的硬件（1 个节点，8 个 GPU）和批大小（96）。