论文阅读“X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model“

论文阅读"X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model"

YMWM_

708人浏览 · 2026-02-20 01:44:46

YMWM_ · 2026-02-20 01:44:46 发布

论文标题

X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model

摘要

Successful generalist Vision-Language-Action (VLA) models rely on effective training across diverse robotic platforms with large-scale, cross-embodiment, heterogeneous datasets.
To facilitate and leverage the heterogeneity in rich, diverse robotic data sources, we propose a novel Soft Prompt approach with minimally added parameters, by infusing prompt learning concepts into cross-embodiment robot learning and introducing separate sets of learnable embeddings for each distinct data source.
These embeddings serve as embodiment-specific prompts, which in unity empower VLA models with effective exploitation of varying cross-embodiment features.
Our new X-VLA, a neat flow-matching-based VLA architecture, relies exclusively on soft-prompted standard Transformer encoders, enjoying both scalability and simplicity.
Evaluated across 6 simulations as well as 3 real-world robots, our 0.9B instantiation-X-VLA-0.9B simultaneously achieves SOTA performance over a sweep of benchmarks, demonstrating superior results on a wide axes of capabilities, from flexible dexterity to quick adaptation across embodiments, environments, and tasks.

结论

In this paper, we introduce X-VLA, a generalist Vision-Language-Action framework capable of operating across heterogeneous robotic platforms.
Through a carefully designed training pipeline, adaptation methods, and enhanced data processing, our largest model X-VLA-0.9B achieves SOTA performance across a broad spectrum of benchmarks, setting new records with substantial gains over hundreds of evaluation setups.
Remarkably, even with minimal tunable parameters, X-VLA-0.9B delivers results competitive with fully finetuned SOTA models.
Importantly, empowered by Soft Prompt mechanism, X-VLA exhibits scalable training trends along all three axes, including model size, data diversity, and data volume without signs of saturation even at our largest test configuration (0.9B parameters, 290K episodes, 7 data sources).
This highlights its potential for further scaling to larger models and datasets, paving the way toward more powerful VLA models. Limitations and future works are discussed in Appendix N.

我来详细分析这篇关于X-VLA的论文。这是一篇关于跨具身（cross-embodiment）视觉-语言-动作（VLA）模型的研究论文。

论文核心概述

X-VLA 是一个基于**软提示（Soft Prompt）**的跨具身视觉-语言-动作模型，旨在解决机器人学习中多平台、异构数据的训练难题。论文由清华大学AIR研究院和上海人工智能实验室等机构的研究人员完成。

1. 研究背景与动机

1.1 核心问题

构建通用机器人智能体需要：

灵活遵循任意人类指令
在不同环境和不同具身（embodiment）平台上灵巧操作

1.2 关键挑战：异构性（Heterogeneity）

现有VLA模型面临的主要障碍：

异构维度	具体表现
动作空间	不同机器人的关节配置、控制接口不同
视觉输入	相机数量、位置、视角差异（如头部视角vs手腕视角）
硬件配置	单臂/双臂、不同机械臂品牌（Franka、UR5、Agibot等）
任务分布	不同数据集的收集策略和任务目标差异

现有方法的局限：大多数方法仅通过为不同具身分配不同的动作解码头来处理异构性，忽略了观察输入、相机设置等关键异构来源。

2. 核心方法：软提示学习（Soft Prompt Learning）

2.1 方法对比（见图2）

论文对比了四种处理异构性的策略：

方法	机制	局限
(a) 域特定动作投影	为每个数据集分配独立的输出投影层	仅在最后阶段处理异构，早期特征融合缺乏具身感知
(b) HPT风格投影	在输入端添加域特定的投影层对齐观察	破坏预训练VLM的表示，训练不稳定
© 语言提示	用自然语言描述硬件配置	需要人工设计模板，难以扩展
(d) 软提示（本文）	可学习的嵌入向量，自动编码硬件配置	✅ 保留预训练表示，无需人工设计，训练稳定

2.2 软提示机制详解

数学形式：

为每个数据源 $i$ 分配一组可学习的嵌入 $pi∈Rkp_i \in \mathbb{R}^k$
这些嵌入通过端到端训练自动学习编码底层硬件配置： $pi≈Φ(hi)p_i \approx \Phi(h_i)$
其中 $Φ:H→Rk\Phi: \mathcal{H} \to \mathbb{R}^k$ 是从硬件配置到提示空间的隐式映射

关键优势：

早期注入：软提示在动作生成的早期阶段注入，引导骨干网络进行具身感知学习
参数高效：仅增加极少参数（约0.04%的总参数量）
保留预训练知识：不修改VLM权重，避免灾难性遗忘

3. X-VLA架构设计

3.1 整体架构（见图10）

输入流：
├── 高维观察流（High-dimensional）
│   ├── 主视角图像 + 语言指令 → 预训练VLM编码器（Florence-Large）
│   └── 辅助视角（如手腕相机）→ 共享ViT视觉编码器
│
├── 低维状态-动作流（Low-dimensional）
│   ├── 本体感知状态（关节位置、末端执行器位姿）
│   ├── 噪声动作块（Flow-matching采样）
│   └── 时间嵌入 → 轻量级线性投影
│
└── 软提示（Soft Prompt）
    └── 根据数据集ID从提示库中查询

↓ 融合后输入标准Transformer编码器（24层，隐藏维度1024）

输出：动作块（Action Chunk）

3.2 关键设计决策

设计1：双流编码器分离

主视角+语言 → 完整VLM（保留高级语义推理能力）
手腕视角 → 仅视觉编码器（避免快速变化的近距离视觉干扰语言推理）

设计2：Flow-matching动作生成

不直接预测动作，而是学习速度场 $νθ(At,o,t)\nu_\theta(A^t, o, t)$
从噪声 $A0∼N(0,I)A^0 \sim \mathcal{N}(0,I)$ 迭代细化到目标动作
使用最优传输（OT）路径训练，损失函数：
$(o,A)∼D[∥νθ(At,o,t)−(A−A0)∥2]\mathcal{L}_{BC}^{FM}(\theta) = \mathbb{E}_{t\sim\mathcal{U}(0,1),\;(o,A)\sim\mathcal{D}}\left[\|\nu_\theta(A^t,o,t) - (A-A^0)\|^2\right]$

4. 训练流程

4.1 两阶段训练策略

阶段	目标	具体做法
Phase I: 预训练	学习具身无关的通用策略	在29万条异构数据上联合优化骨干网络+软提示
Phase II: 域适应	快速适应新具身	1) 提示预热：冻结骨干，仅优化新软提示 2) 联合适应：解冻骨干，联合优化

4.2 数据混合策略（见图3）

预训练数据组成：

AGIBOT-beta: 141K episodes (48.8%) - 30Hz，头部/手腕视角
Droid (左右视角): 各45K episodes (15.8% each) - 15Hz
RoboMind-Franka: 19K episodes (6.7%) - 30Hz，顶部视角
RoboMind-UR5: 25K episodes (8.7%) - 30Hz，顶部视角
RoboMind-Agilex: 11K episodes (3.7%) - 30Hz，头部/手腕视角
RoboMind-Dual-Franka: 2K episodes (0.8%) - 30Hz，双臂

关键技巧：

跨域+跨轨迹的混合采样（非简单的轮询）
动作对齐：统一为末端执行器位姿（XYZ位置+6D旋转+夹爪状态）
时间下采样：生成30个锚点概括未来4秒的意图轨迹

5. 实验结果

5.1 规模实验（Scaling Laws）

图5展示了X-VLA在三个维度上的可扩展性：

维度	发现
模型规模	从768维/6层到1024维/24层，预测误差持续下降（未饱和）
数据源数量	从2个增加到7个数据源，误差从0.039降至0.032
数据规模	从0到25万条数据，误差从0.047降至0.032

结论：即使在最大配置（0.9B参数，29万条数据，7个数据源）下，规模趋势仍未饱和，暗示进一步扩展的潜力。

5.2 模拟基准测试（表2）

X-VLA-0.9B在6个模拟基准上取得SOTA：

基准	指标	X-VLA	之前SOTA	提升
Simpler-WidowX	成功率	80.4%	78.0% (FPC-VLA)	+2.4%
Simpler-Fractal	成功率	75.7%	72.7% (MemoryVLA)	+3.0%
Libero-Spatial	成功率	98.2%	98.4% (MemoryVLA)	可比
Libero-Object	成功率	98.6%	98.8% (π0)	可比
Libero-Goal	成功率	97.8%	97.9% (OpenVLA-OFT)	可比
Libero-Long	成功率	97.6%	94.5% (OpenVLA-OFT)	+3.1%
Calvin	平均得分	4.43	4.53 (FLOWER)	可比
RoboTwin-2.0	平均成功率	70.0% (Easy) / 39.0% (Hard)	46.4% / 16.4% (π0)	显著领先
VLABench	平均成功率	51.1%	39.7% (GR00T-N1)	+11.4%
NAVSIM	PDMS得分	87.3	81.7% (UniVLA)	+5.6%

5.3 真实世界实验（图7）

1) WidowX简单操作（BridgeData）

5个任务：捡鸡蛋、放置玉米、放置胡萝卜、翻转锅、移动玩偶
平均成功率82%，显著优于OpenVLA (70%) 和Octo (12%)

2) AgileX灵巧操作（布料折叠）

使用自建的Soft-Fold数据集（1200条轨迹，双臂平台）
每小时完成33次折叠，接近100%成功率
对比：π0-base和ACT从头训练均无法达到该吞吐量

3) AIRBOT参数高效微调（PEFT）

仅调整1%参数（9M），在未见过的真实机器人上：
- Libero: 93% 成功率（vs π0全微调94.2%）
- Simpler-WidowX: 54% 成功率（vs π0全微调55.7%）

6. 深度分析

6.1 软提示的可解释性（图8）

T-SNE可视化显示：

软提示形成清晰的聚类结构，与硬件配置高度对应
相同机器人不同视角（如Franka左视角vs右视角）的提示相互交织，表明模型学习了跨视角的共享表示
单臂+单视角、双臂+多视角的提示明显分离

6.2 软提示的迁移能力（图9）

在Simpler-WidowX上的对比实验：

提示类型	50K步	200K步
随机初始化（冻结）	~0%	~40%
预训练UR5提示（冻结）	~40%	~40%（瓶颈）
学习提示（两阶段适应）	~45%	~55%

发现：预训练提示提供良好的初始化，但域差距限制了最终性能；两阶段适应实现最佳收敛。

7. 消融实验（表1）

逐步添加各组件的效果（验证误差 → 适应成功率）：

组件	验证误差	Simpler-WidowX成功率	提升
基线（无预训练）	-	4.1%	-
+自定义学习率	-	39.6%	+35.5%
+异构预训练	0.11	25.0%	-14.6%（负面）
+动作对齐+意图抽象	0.077	50.0%	+25.0%
+平衡数据采样	-	-	-
+DiT→Transformer	0.071	47.9%	-2.1%
+编码管道优化	0.053	64.6%	+16.7%
+软提示	0.041	73.8%	+9.2%
+规模扩大	0.032	89.6%	+15.8%
+两阶段适应	0.032	95.8%	+6.2%

关键洞察：软提示是提升性能的关键组件之一，但需配合完整的训练流程（数据对齐、编码优化等）才能发挥最大效果。

8. 创新点与贡献

方面	贡献
方法创新	首次将软提示学习系统应用于跨具身机器人学习，以极低成本（0.04%参数）解决异构性难题
架构创新	提出简洁的流匹配Transformer架构，摒弃复杂的DiT设计，实现稳定可扩展的训练
数据贡献	发布Soft-Fold：首个开源高质量布料折叠数据集（1200条双臂轨迹）
实验规模	最全面的VLA评估之一：6个模拟基准+3个真实机器人+自动驾驶
性能突破	0.9B模型在多数基准上超越7B甚至9B的现有SOTA模型

9. 局限性与未来方向（附录N）

规模限制：0.9B参数仍较小，需探索更大规模（如7B+）的扩展规律
监督信号局限：动作标签信息密度低，需引入3D空间推理、物理动力学等 richer supervision
部署开销：仍需少量域内数据进行适应，未实现真正的零样本部署
数据瓶颈：高质量机器人数据的规模和多样性仍远不及视觉-语言领域

10. 总结

X-VLA通过软提示机制优雅地解决了跨具身学习中的异构性难题，其核心优势在于：

极简设计：标准Transformer + 可学习提示嵌入
参数高效：域特定参数仅占0.04%
训练稳定：避免破坏预训练VLM表示
适应灵活：支持参数高效微调（PEFT）

这项工作为构建可扩展的通用机器人基础模型提供了重要的技术路径，特别是在数据异构性不可避免的现实场景中具有显著实用价值。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

2026 年企业级 AI Agent 终极架构蓝图：从聊天机器人到智能自动化的全栈工程化落地

DAMO开发者矩阵

【Koopman 算子】深度学习用于非线性动力学的通用线性嵌入研究（Python、Matlab代码实现）

Koopman算子与深度学习的结合为非线性动力学提供了“线性化-预测-控制”的全新范式。通过深度神经网络自动学习高维嵌入空间，不仅突破了传统线性方法的局限性，还在机器人、能源、生物等多个领域展现出广泛应用潜力。然而，如何在复杂系统中平衡模型表达能力、计算效率与可解释性，仍是未来研究的核心挑战。📚2 运行结果w = 105wo = 300🎉3参考文献。

DAMO开发者矩阵

API 安全扫描实战：针对 RESTful, GraphQL 与 gRPC 的自动化探测

因此，API 安全已不再是传统 Web 安全的附属品，而是整个攻防体系中至关重要的独立领域。API 安全扫描就像一个智能安保机器人，它不会满足于只检查大楼的正门（Web 页面），而是会拿着一张“万能”门禁卡（各种测试载荷），系统地测试每一条内部通道、每一扇房间门（API 端点），检查是否存在忘记上锁的门（未授权访问）、门锁设计缺陷（逻辑漏洞）或者贴在门上的敏感信息（信息泄露）。是一种通过自动化或半