论文阅读“X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model“
论文阅读"X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model"
论文标题
X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model
摘要
Successful generalist Vision-Language-Action (VLA) models rely on effective training across diverse robotic platforms with large-scale, cross-embodiment, heterogeneous datasets.
To facilitate and leverage the heterogeneity in rich, diverse robotic data sources, we propose a novel Soft Prompt approach with minimally added parameters, by infusing prompt learning concepts into cross-embodiment robot learning and introducing separate sets of learnable embeddings for each distinct data source.
These embeddings serve as embodiment-specific prompts, which in unity empower VLA models with effective exploitation of varying cross-embodiment features.
Our new X-VLA, a neat flow-matching-based VLA architecture, relies exclusively on soft-prompted standard Transformer encoders, enjoying both scalability and simplicity.
Evaluated across 6 simulations as well as 3 real-world robots, our 0.9B instantiation-X-VLA-0.9B simultaneously achieves SOTA performance over a sweep of benchmarks, demonstrating superior results on a wide axes of capabilities, from flexible dexterity to quick adaptation across embodiments, environments, and tasks.
结论
In this paper, we introduce X-VLA, a generalist Vision-Language-Action framework capable of operating across heterogeneous robotic platforms.
Through a carefully designed training pipeline, adaptation methods, and enhanced data processing, our largest model X-VLA-0.9B achieves SOTA performance across a broad spectrum of benchmarks, setting new records with substantial gains over hundreds of evaluation setups.
Remarkably, even with minimal tunable parameters, X-VLA-0.9B delivers results competitive with fully finetuned SOTA models.
Importantly, empowered by Soft Prompt mechanism, X-VLA exhibits scalable training trends along all three axes, including model size, data diversity, and data volume without signs of saturation even at our largest test configuration (0.9B parameters, 290K episodes, 7 data sources).
This highlights its potential for further scaling to larger models and datasets, paving the way toward more powerful VLA models. Limitations and future works are discussed in Appendix N.
我来详细分析这篇关于X-VLA的论文。这是一篇关于跨具身(cross-embodiment)视觉-语言-动作(VLA)模型的研究论文。
论文核心概述
X-VLA 是一个基于**软提示(Soft Prompt)**的跨具身视觉-语言-动作模型,旨在解决机器人学习中多平台、异构数据的训练难题。论文由清华大学AIR研究院和上海人工智能实验室等机构的研究人员完成。
1. 研究背景与动机
1.1 核心问题
构建通用机器人智能体需要:
- 灵活遵循任意人类指令
- 在不同环境和不同具身(embodiment)平台上灵巧操作
1.2 关键挑战:异构性(Heterogeneity)
现有VLA模型面临的主要障碍:
| 异构维度 | 具体表现 |
|---|---|
| 动作空间 | 不同机器人的关节配置、控制接口不同 |
| 视觉输入 | 相机数量、位置、视角差异(如头部视角vs手腕视角) |
| 硬件配置 | 单臂/双臂、不同机械臂品牌(Franka、UR5、Agibot等) |
| 任务分布 | 不同数据集的收集策略和任务目标差异 |
现有方法的局限:大多数方法仅通过为不同具身分配不同的动作解码头来处理异构性,忽略了观察输入、相机设置等关键异构来源。
2. 核心方法:软提示学习(Soft Prompt Learning)
2.1 方法对比(见图2)
论文对比了四种处理异构性的策略:
| 方法 | 机制 | 局限 |
|---|---|---|
| (a) 域特定动作投影 | 为每个数据集分配独立的输出投影层 | 仅在最后阶段处理异构,早期特征融合缺乏具身感知 |
| (b) HPT风格投影 | 在输入端添加域特定的投影层对齐观察 | 破坏预训练VLM的表示,训练不稳定 |
| © 语言提示 | 用自然语言描述硬件配置 | 需要人工设计模板,难以扩展 |
| (d) 软提示(本文) | 可学习的嵌入向量,自动编码硬件配置 | ✅ 保留预训练表示,无需人工设计,训练稳定 |
2.2 软提示机制详解
数学形式:
- 为每个数据源 iii 分配一组可学习的嵌入 pi∈Rkp_i \in \mathbb{R}^kpi∈Rk
- 这些嵌入通过端到端训练自动学习编码底层硬件配置:pi≈Φ(hi)p_i \approx \Phi(h_i)pi≈Φ(hi)
- 其中 Φ:H→Rk\Phi: \mathcal{H} \to \mathbb{R}^kΦ:H→Rk 是从硬件配置到提示空间的隐式映射
关键优势:
- 早期注入:软提示在动作生成的早期阶段注入,引导骨干网络进行具身感知学习
- 参数高效:仅增加极少参数(约0.04%的总参数量)
- 保留预训练知识:不修改VLM权重,避免灾难性遗忘
3. X-VLA架构设计
3.1 整体架构(见图10)
输入流:
├── 高维观察流(High-dimensional)
│ ├── 主视角图像 + 语言指令 → 预训练VLM编码器(Florence-Large)
│ └── 辅助视角(如手腕相机)→ 共享ViT视觉编码器
│
├── 低维状态-动作流(Low-dimensional)
│ ├── 本体感知状态(关节位置、末端执行器位姿)
│ ├── 噪声动作块(Flow-matching采样)
│ └── 时间嵌入 → 轻量级线性投影
│
└── 软提示(Soft Prompt)
└── 根据数据集ID从提示库中查询
↓ 融合后输入标准Transformer编码器(24层,隐藏维度1024)
输出:动作块(Action Chunk)
3.2 关键设计决策
设计1:双流编码器分离
- 主视角+语言 → 完整VLM(保留高级语义推理能力)
- 手腕视角 → 仅视觉编码器(避免快速变化的近距离视觉干扰语言推理)
设计2:Flow-matching动作生成
- 不直接预测动作,而是学习速度场 νθ(At,o,t)\nu_\theta(A^t, o, t)νθ(At,o,t)
- 从噪声 A0∼N(0,I)A^0 \sim \mathcal{N}(0,I)A0∼N(0,I) 迭代细化到目标动作
- 使用最优传输(OT)路径训练,损失函数:
LBCFM(θ)=Et∼U(0,1), (o,A)∼D[∥νθ(At,o,t)−(A−A0)∥2]\mathcal{L}_{BC}^{FM}(\theta) = \mathbb{E}_{t\sim\mathcal{U}(0,1),\;(o,A)\sim\mathcal{D}}\left[\|\nu_\theta(A^t,o,t) - (A-A^0)\|^2\right]LBCFM(θ)=Et∼U(0,1),(o,A)∼D[∥νθ(At,o,t)−(A−A0)∥2]
4. 训练流程
4.1 两阶段训练策略
| 阶段 | 目标 | 具体做法 |
|---|---|---|
| Phase I: 预训练 | 学习具身无关的通用策略 | 在29万条异构数据上联合优化骨干网络+软提示 |
| Phase II: 域适应 | 快速适应新具身 | 1) 提示预热:冻结骨干,仅优化新软提示 2) 联合适应:解冻骨干,联合优化 |
4.2 数据混合策略(见图3)
预训练数据组成:
- AGIBOT-beta: 141K episodes (48.8%) - 30Hz,头部/手腕视角
- Droid (左右视角): 各45K episodes (15.8% each) - 15Hz
- RoboMind-Franka: 19K episodes (6.7%) - 30Hz,顶部视角
- RoboMind-UR5: 25K episodes (8.7%) - 30Hz,顶部视角
- RoboMind-Agilex: 11K episodes (3.7%) - 30Hz,头部/手腕视角
- RoboMind-Dual-Franka: 2K episodes (0.8%) - 30Hz,双臂
关键技巧:
- 跨域+跨轨迹的混合采样(非简单的轮询)
- 动作对齐:统一为末端执行器位姿(XYZ位置+6D旋转+夹爪状态)
- 时间下采样:生成30个锚点概括未来4秒的意图轨迹
5. 实验结果
5.1 规模实验(Scaling Laws)
图5展示了X-VLA在三个维度上的可扩展性:
| 维度 | 发现 |
|---|---|
| 模型规模 | 从768维/6层到1024维/24层,预测误差持续下降(未饱和) |
| 数据源数量 | 从2个增加到7个数据源,误差从0.039降至0.032 |
| 数据规模 | 从0到25万条数据,误差从0.047降至0.032 |
结论:即使在最大配置(0.9B参数,29万条数据,7个数据源)下,规模趋势仍未饱和,暗示进一步扩展的潜力。
5.2 模拟基准测试(表2)
X-VLA-0.9B在6个模拟基准上取得SOTA:
| 基准 | 指标 | X-VLA | 之前SOTA | 提升 |
|---|---|---|---|---|
| Simpler-WidowX | 成功率 | 80.4% | 78.0% (FPC-VLA) | +2.4% |
| Simpler-Fractal | 成功率 | 75.7% | 72.7% (MemoryVLA) | +3.0% |
| Libero-Spatial | 成功率 | 98.2% | 98.4% (MemoryVLA) | 可比 |
| Libero-Object | 成功率 | 98.6% | 98.8% (π0) | 可比 |
| Libero-Goal | 成功率 | 97.8% | 97.9% (OpenVLA-OFT) | 可比 |
| Libero-Long | 成功率 | 97.6% | 94.5% (OpenVLA-OFT) | +3.1% |
| Calvin | 平均得分 | 4.43 | 4.53 (FLOWER) | 可比 |
| RoboTwin-2.0 | 平均成功率 | 70.0% (Easy) / 39.0% (Hard) | 46.4% / 16.4% (π0) | 显著领先 |
| VLABench | 平均成功率 | 51.1% | 39.7% (GR00T-N1) | +11.4% |
| NAVSIM | PDMS得分 | 87.3 | 81.7% (UniVLA) | +5.6% |
5.3 真实世界实验(图7)
1) WidowX简单操作(BridgeData)
- 5个任务:捡鸡蛋、放置玉米、放置胡萝卜、翻转锅、移动玩偶
- 平均成功率82%,显著优于OpenVLA (70%) 和Octo (12%)
2) AgileX灵巧操作(布料折叠)
- 使用自建的Soft-Fold数据集(1200条轨迹,双臂平台)
- 每小时完成33次折叠,接近100%成功率
- 对比:π0-base和ACT从头训练均无法达到该吞吐量
3) AIRBOT参数高效微调(PEFT)
- 仅调整1%参数(9M),在未见过的真实机器人上:
- Libero: 93% 成功率(vs π0全微调94.2%)
- Simpler-WidowX: 54% 成功率(vs π0全微调55.7%)
6. 深度分析
6.1 软提示的可解释性(图8)
T-SNE可视化显示:
- 软提示形成清晰的聚类结构,与硬件配置高度对应
- 相同机器人不同视角(如Franka左视角vs右视角)的提示相互交织,表明模型学习了跨视角的共享表示
- 单臂+单视角、双臂+多视角的提示明显分离
6.2 软提示的迁移能力(图9)
在Simpler-WidowX上的对比实验:
| 提示类型 | 50K步 | 200K步 |
|---|---|---|
| 随机初始化(冻结) | ~0% | ~40% |
| 预训练UR5提示(冻结) | ~40% | ~40%(瓶颈) |
| 学习提示(两阶段适应) | ~45% | ~55% |
发现:预训练提示提供良好的初始化,但域差距限制了最终性能;两阶段适应实现最佳收敛。
7. 消融实验(表1)
逐步添加各组件的效果(验证误差 → 适应成功率):
| 组件 | 验证误差 | Simpler-WidowX成功率 | 提升 |
|---|---|---|---|
| 基线(无预训练) | - | 4.1% | - |
| +自定义学习率 | - | 39.6% | +35.5% |
| +异构预训练 | 0.11 | 25.0% | -14.6%(负面) |
| +动作对齐+意图抽象 | 0.077 | 50.0% | +25.0% |
| +平衡数据采样 | - | - | - |
| +DiT→Transformer | 0.071 | 47.9% | -2.1% |
| +编码管道优化 | 0.053 | 64.6% | +16.7% |
| +软提示 | 0.041 | 73.8% | +9.2% |
| +规模扩大 | 0.032 | 89.6% | +15.8% |
| +两阶段适应 | 0.032 | 95.8% | +6.2% |
关键洞察:软提示是提升性能的关键组件之一,但需配合完整的训练流程(数据对齐、编码优化等)才能发挥最大效果。
8. 创新点与贡献
| 方面 | 贡献 |
|---|---|
| 方法创新 | 首次将软提示学习系统应用于跨具身机器人学习,以极低成本(0.04%参数)解决异构性难题 |
| 架构创新 | 提出简洁的流匹配Transformer架构,摒弃复杂的DiT设计,实现稳定可扩展的训练 |
| 数据贡献 | 发布Soft-Fold:首个开源高质量布料折叠数据集(1200条双臂轨迹) |
| 实验规模 | 最全面的VLA评估之一:6个模拟基准+3个真实机器人+自动驾驶 |
| 性能突破 | 0.9B模型在多数基准上超越7B甚至9B的现有SOTA模型 |
9. 局限性与未来方向(附录N)
- 规模限制:0.9B参数仍较小,需探索更大规模(如7B+)的扩展规律
- 监督信号局限:动作标签信息密度低,需引入3D空间推理、物理动力学等 richer supervision
- 部署开销:仍需少量域内数据进行适应,未实现真正的零样本部署
- 数据瓶颈:高质量机器人数据的规模和多样性仍远不及视觉-语言领域
10. 总结
X-VLA通过软提示机制优雅地解决了跨具身学习中的异构性难题,其核心优势在于:
- 极简设计:标准Transformer + 可学习提示嵌入
- 参数高效:域特定参数仅占0.04%
- 训练稳定:避免破坏预训练VLM表示
- 适应灵活:支持参数高效微调(PEFT)
这项工作为构建可扩展的通用机器人基础模型提供了重要的技术路径,特别是在数据异构性不可避免的现实场景中具有显著实用价值。
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐

所有评论(0)