DepthVLA：利用深度-觉察空间推理增强视觉-语言-动作模型

25年10月来自清华和星海图的论文“DepthVLA: Enhancing Vision-Language-Action Models with Depth-Aware Spatial Reasoning”。视觉-语言-动作（VLA）模型近年来展现出令人瞩目的泛化能力和语言引导操作能力。然而，由于视觉-语言模型（VLM）固有的空间推理能力有限，VLA在需要精确空间推理的任务上性能下降。现有的VLA

硅谷秋水

1774人浏览 · 2025-11-08 00:15:00

硅谷秋水 · 2025-11-08 00:15:00 发布

25年10月来自清华和星海图的论文“DepthVLA: Enhancing Vision-Language-Action Models with Depth-Aware Spatial Reasoning”。

视觉-语言-动作（VLA）模型近年来展现出令人瞩目的泛化能力和语言引导操作能力。然而，由于视觉-语言模型（VLM）固有的空间推理能力有限，VLA在需要精确空间推理的任务上性能下降。现有的VLA依赖于大量的动作数据预训练来将VLM映射到三维空间，这降低了训练效率，并且仍然不足以实现精确的空间理解。本文提出一种名为DepthVLA的简单而有效的VLA架构，它通过预训练的深度预测模块显式地融入空间觉察能力。DepthVLA采用混合Transformer设计，将VLM、深度Transformer和动作专家模型整合在一起，并采用完全共享的注意机制，从而形成一个具有增强空间推理能力的端到端模型。在真实环境和模拟环境中进行的大量评估表明，DepthVLA 的性能优于现有最佳方法，

如图所示，DepthVLA 是一种简单而有效的 VLA 架构，它通过预训练的深度预测专家显式地融入空间觉察。该模块在多种 3D 数据集 [21]–[24] 上进行训练，能够提供强大的几何理解能力。受 π0 [3] 的启发，DepthVLA 采用混合transformer (MoT) [25] 设计，通过完全共享的注意机制将深度专家与 VLM 和流匹配动作专家集成，从而形成端到端的 VLA 模型。直观地说，VLM 提供语言理解和开放词汇语义感知，深度专家提供细粒度的几何线索，而动作专家则根据来自两种模态的表征生成动作。MoT 设计还支持对每个组件进行单独预训练，从而可以在除具身动作数据集之外的更多样化的数据集上进行训练。尽管增加了深度专家，但 DepthVLA 只会略微增加推理延迟，使其适用于实时部署。

请添加图片描述

问题描述与模型概述

遵循标准的端到端 VLA 设置，其中策略 π_θ 根据当前观测值 o_t（来自一个或多个摄像头）、语言指令 l 和本体感觉状态 s_t 预测长度为 k 的动作块 A_t = a_t:t+k：A_t = π_θ (o_t, l, s_t)。

DepthVLA 采用混合transformer（MoT）架构，集成三个专家：视觉语言模型（VLM）、深度模块和流匹配动作专家，如图所示。该设计扩展 π0 [3]（使用双专家 MoT，即 VLM + 动作专家），通过添加一个独立的深度专家来提供显式的空间信息。

请添加图片描述

具体而言，VLM 专家对 o_t 和 l 进行编码以捕获语义和语言特征，而深度专家处理 o_t 以推断几何信息。然后，动作专家基于语义专家和几何专家提供的组合特征生成连续动作。这三位专家共享相同的注意层，但各自拥有不同的权重和特征维度。

为了保留 VLM 和深度模块的预训练能力，应用分块掩码：VLM 和深度专家的 tokens 只关注自身，而动作 tokens 可以关注所有流，如图右侧所示。这种设计使得 DepthVLA 能够利用预训练知识，同时融合语义和空间线索，从而实现精确的动作生成。

深度专家

深度专家作为专门的空间推理器，提供几何线索来指导动作专家。为了与 VLA 无缝集成，它采用了与 VLM 相同的 Transformer 主干网络，但权重和维度各不相同。

将深度专家设计为编码器-解码器架构。编码器基于 DINOv2 [43]，能够捕捉细粒度的几何特征。从 Depth Anything V2 [19] 的预训练检查点进行初始化，以继承来自大规模 3D 基础模型的强大空间先验。解码器镜像了 VLM 的 Transformer 结构，并通过线性头输出深度预测结果。与仅提供最终深度图的方法 [15]、[17] 不同，深度专家能够在所有中间层执行空间推理，从而为动作预测提供更丰富的几何线索。动作专家关注这些中间特征，利用丰富的几何表示，而不是低维的深度输出。这提高了精细的空间理解能力，对于精确抓取和避障等任务至关重要。
在集成到 VLA 之前，用单目深度预测任务在各种 3D 数据集上对深度专家进行预训练，以获得鲁棒的空间推理能力。其采用尺度不变的对数损失 [44]L_si(dˆ, d)，其中d 是真实深度度量，dˆ 是预测的深度图，λ 控制尺度项的平衡（默认设置为 0.5）。这种简单的损失足以学习鲁棒的空间推理和距离估计。

DepthVLA 策略训练

用具身动作数据训练 DepthVLA，并以模仿学习为目标，最大化动作的对数似然。为了更好地建模连续且多样化的动作轨迹，采用流匹配损失L_flow(θ)。其中 A^τ_t 是插值噪声动作 A^τ_t = τA_t + (1 − τ)ε，其中 τ ∈ [0,1]。v_θ (·) 是模型预测的流，u(·) 是从动作轨迹导出的目标流。

为了保持深度专家的空间推理能力，在 VLA 训练过程中保留深度预测损失。因此，最终损失为：L = L_si + L_flow。这种方法使得 DepthVLA 能够以端到端的方式联合优化空间推理和动作生成。

实现细节

模型架构。所有模型均使用 PyTorch 实现。采用 Paligemma-3B [29] 作为 VLM 主干网络，这是因为其具有较强的泛化能力，并沿用之前 VLA 相关工作 [3]、[9]、[26] 的做法。深度专家采用 DINOv2-L 作为编码器，其初始化基于 Depth Anything V2 [19] 数据集。解码器的大小与动作专家相匹配，两个模块均包含约 3 亿个参数。作为最接近的基线模型，严格按照 JAX 官方实现重新实现 π0。重实现的 π0 与 DepthVLA 的唯一区别在于添加深度专家，从而可以公平地比较显式空间推理的影响。

训练细节。深度专家在大规模 3D 数据集上进行预训练，包括 WildRGB-D [22]、Scannet [23]、Scannet++ [24] 和 HyperSim [21]。预训练运行 5 万步，采用余弦学习率调度，批大小为 1024，初始学习率为 5 × 10⁻⁵。对于 VLA 训练，对大规模数据集（例如 Galaxea Open-World [26]、BridgeData V2 [31]）使用 1024 的批大小，对小规模数据集（例如 LIBERO [27]、真实世界基准任务）使用 64 的批大小。所有模型均不使用任何历史信息进行动作生成。所有模型均在 32 个 NVIDIA H100 GPU 上进行训练，使用 AdamW 优化器 [46]，学习率为 2.5 × 10⁻⁵，权重衰减为 10⁻⁴。

推理细节。与基线 π0 相比，DepthVLA 引入 6 亿个额外参数（3 亿个来自 DINOv2 编码器，3 亿个来自深度专家解码器）。在配备 BF16 混合精度的 NVIDIA 4090 GPU 上运行推理。DepthVLA 需要 8.0 GB 的显存（π0 为 6.7 GB），每步推理延迟为 210 毫秒（π0 为 190 毫秒）。由于动作预测是以 1 秒为单位的（在 15 Hz 的平台上为 16 步），因此额外的延迟在实践中可以忽略不计。

仿真基准测试

BridgeV2 和 Simpler。BridgeData V2 [31] 是一个大规模的真实世界机器人操作数据集，包含使用 WidowX 机器人在 24 个环境中收集的超过 6 万条轨迹。它提供多样化的任务和环境变化，使其成为训练通用策略的坚实基础。为了获得深度监督，用 Depth Anything V2 [19] 和 UniDepth V2 [33] 生成伪标签。

Simpler WidowX [28] 是一个仿真环境，旨在高度模拟 BridgeData V2，为策略评估提供一个可复现的平台。它包含四个任务套件，在环境、物体配置和相机姿态方面均有差异，有效地弥合真实环境和仿真环境之间的差距。在 BridgeData V2 上训练 DepthVLA 2 万步（约 12 个 epoch），并在 Simpler WidowX 上进行零样本评估。报告每个任务套件的最终成功率，该成功率在不同的随机种子下进行 120 次试验后得出。

LIBERO。LIBERO [27] 是一个基于 Franka Panda 机械臂的模拟操作基准测试，其演示包括前视和腕视摄像头图像以及自然语言指令。它包含四个任务套件：LIBERO-Spatial、LIBERO-Object、LIBERO-Goal 和 LIBERO-Long，每个套件包含 10 个任务的 500 个演示。与以往工作 [1]、[3]、[15]、[17] 通常为每个套件训练一个模型不同，用单个 DepthVLA 模型在所有四个套件上联合训练 3 万步（约 8 个 epoch）。这创建一个更具挑战性的环境，要求模型在不同任务类型中具有更强的泛化能力。报告每个任务套件的成功率，总共进行 2000 次试验，涵盖 40 个任务，并使用了不同的随机种子。

真实世界基准测试

在商用双臂移动平台 Galaxea R1 Lite 上评估 DepthVLA。该系统由两个 6 自由度机械臂、两个腕戴式摄像头和一个头部摄像头组成，如图所示。为了评估大规模动作预训练对 DepthVLA 的益处，用 Galaxea 开放世界数据集 [26] 对 DepthVLA 进行预训练。该数据集包含 150 个任务类别和 50 个真实世界场景的 10 万条轨迹。深度标签使用 VGGT [20] 和 UniDepth V2 [33] 生成。DepthVLA 和重实现的 π0 均进行 8 万步（约 4 个 epoch）的预训练。

请添加图片描述

为了评估空间感知、精细抓取和避障能力，设计三个基准任务：桌面整理：机器人整理杂乱的桌面，将笔放入笔筒、挂起耳机并将书本放到支架上。此任务衡量小物体抓取和精确位置估计的能力。

微波炉操作：机器人打开微波炉门，将食物放在盘子上，将盘子放入微波炉，然后关上门。此任务测试每一步的避障能力。积木堆叠：机器人垂直堆叠积木，测试精确的抓取和放置能力。

对于每个基准任务，收集 100 条轨迹，并对预训练模型进行 4000 步的微调。性能评估采用进度分数，任务中每个成功的子步骤计 1 分，每个任务的分数取 20 次运行的平均值。此外，还进行仅包含 20 条微调轨迹的少样本实验，以评估 DepthVLA 的少样本迁移能力。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

工业机器人离线编程基础与 ABB RobotStudio 软件实操

工业机器人编程方法主要包括示教编程和离线编程两种主流方式。示教编程需现场操作机器人记录轨迹，而离线编程通过虚拟环境进行三维建模与仿真，具有不占用生产时间、支持复杂轨迹等优势。国内外主流离线编程软件分为专用型（如ABB RobotStudio、FANUC RoboGuide）和通用型（如RobotMaster、国产PQArt），正朝着智能化、专用化方向发展。文章重点介绍了ABB RobotStudi

DAMO开发者矩阵

人形机器人手指关节选材：铝合金 vs PEEK，谁才是轻量化的终极方案？

DAMO开发者矩阵

零基础玩转AI智能体：Coze从入门到实战

Coze是一个无需编程基础的AI智能体开发平台，你可以通过自然语言描述和拖拽式操作，快速构建能对话、能调用工具、能处理图片视频的智能机器人。用户输入 → 提取关键词 → 调用搜索API → 生成总结 → 配图 → 输出通过本文，你学会了：在Coze上注册和创建Bot配置人设与回复逻辑添加插件扩展能力上传知识库实现专业问答搭建工作流处理复杂任务发布到各平台会打字，就能创造AI智能体。🎉。