【论文阅读】StereoVLA: Enhancing Vision-Language-Action Models with Stereo Vision

本文提出了一种名为StereoVLA的模型，通过引入双目立体视觉，显著增强了机器人视觉语言动作模型（VLA）的空间感知和操作精度。

萌新一个啥都不会

113人浏览 · 2026-05-22 14:17:19

萌新一个啥都不会 · 2026-05-22 14:17:19 发布

快速了解部分

基础信息（英文）：

1.题目: StereoVLA: Enhancing Vision-Language-Action Models with Stereo Vision
2.时间: 2025.12
3.机构: Galbot, Peking University, The University of Hong Kong, Institute of Automation. Chinese Academy of Sciences, Beijing Academy of Artificial Intelligence, Xiamen University Malaysia
4.3个英文关键词: Stereo Vision, VLA, Geometric-Semantic Feature Extraction
请添加图片描述

1句话通俗总结本文干了什么事情

本文提出了一种名为StereoVLA的模型，通过引入双目立体视觉，显著增强了机器人视觉语言动作模型（VLA）的空间感知和操作精度。

研究痛点：现有研究不足 / 要解决的具体问题

现有的VLA模型大多依赖单目RGB相机，缺乏精确的几何空间感知能力，导致机器人在抓取、放置等精细操作上表现不佳；而引入额外的深度传感器或腕部相机又会增加硬件复杂度或导致视野受限。

核心方法：关键技术、模型或研究设计（简要）

提出了一种“几何-语义特征提取”模块，融合了双目视觉的几何特征和单目视觉的语义特征，并引入了一个辅助的“交互区域深度估计”任务来训练模型关注关键空间细节。

深入了解部分

作者想要表达什么

作者旨在证明，通过模仿人类的双目视觉机制，可以在不增加过多硬件负担的情况下，为VLA模型提供丰富的几何线索，从而解决机器人操作中“看得见但摸不准”的痛点，实现更鲁棒、更精准的控制。

相比前人创新在哪里

首次系统性地将立体视觉引入VLA领域：不同于以往VLA主要使用单目或多视角（非立体）相机，本文专门针对立体视觉设计了特征提取方案。
独特的特征融合策略：没有简单地将左右图像拼接输入，而是利用视觉基础模型分别提取“几何特征”和“语义特征”进行融合，兼顾了空间精度和语言理解能力。
交互区域深度估计辅助任务：设计了一个新的训练任务，强制模型只关注夹爪和物体交互区域的深度信息，提高了训练效率和对关键空间细节的敏感度。

解决方法/算法的通俗解释

想象一下，模型现在有了“两只眼睛”（立体视觉）。作者设计了一个特殊的“大脑回路”（几何-语义特征提取），让模型既能通过两只眼睛的微小差别算出物体的远近（几何），又能看清单个物体是什么（语义）。同时，为了让模型更专注，还专门训练它去预测夹爪附近物体的深度（交互区域深度估计），就像人眼在抓东西时会特别聚焦于手和物体的距离一样。

解决方法的具体做法

几何特征提取：使用FoundationStereo模型处理左右图像，提取经过滤波处理的成本体积（filtered cost volume）作为几何特征，捕捉空间结构。
语义特征提取：使用SigLIP和DINOv2模型处理左图像，提取高层语义和视觉细节。
特征融合：将几何特征的空间分辨率调整到与语义特征一致，然后在通道维度上进行拼接，输入给大语言模型。
辅助任务训练：在训练时，除了预测动作，还要求模型预测夹爪与目标物体交互区域内的点的深度值，以此增强模型的空间理解。

基于前人的哪些方法

FoundationStereo：用于提取立体视觉的几何特征。
PrismaticVLM：借鉴了其使用SigLIP和DINOv2提取语义特征的方法。
InternLM-1.8B：作为大语言模型骨干。
GraspVLA：借鉴了其数据生成方式、部分训练策略（如渐进式动作生成）以及辅助的2D边界框预测任务。

实验设置、数据、评估方式、结论

数据：由于缺乏现成的大规模立体视觉机器人数据集，作者使用MuJoCo和Isaac Sim生成了500万条合成的抓取和放置轨迹，并加入了GRIT数据集。
评估方式：在真实机器人上测试，包括通用任务、不同角度的条状物体抓取、中小物体抓取。设置了严格的评价标准（单次尝试、无粘手策略、完全完成才算成功）。
结论：StereoVLA在立体视觉设置下显著优于现有的VLA基线模型（如GraspVLA-S, π0.5-S），在通用任务上成功率高出33%，且对相机姿态变化具有很强的鲁棒性。