清华和Qwen团队最新！深究VLM如何影响VLA性能？并通过少量新参数转化为VLA策略

VLA 作为具身智能的核心技术框架，本文通过系统实验构建了 “构建范式 - 影响因素 - 模块作用 - 优化路径” 的完整体系，首次明确了 VLM 在 VLA 中的核心作用与性能瓶颈。其核心价值在于：为工程实践提供了 VLM 选型、辅助任务设计、模块训练策略的明确指导，推动具身智能从 “专用模型” 向 “通用模型” 跨越。

Tom Hardy

717人浏览 · 2026-01-12 17:32:29

Tom Hardy · 2026-01-12 17:32:29 发布

在具身智能体（Embodied AI Agents）广泛应用于机器人操控、虚拟交互等场景的当下，核心研究已从单一模态任务处理转向多模态融合的动作规划。传统视觉 - 语言模型（VLM）聚焦图像与文本的理解匹配，难以满足具身智能体在物理世界中 “感知 - 决策 - 动作” 的闭环需求。而视觉 - 语言 - 动作模型（VLA）作为整合 VLM 能力与动作生成的核心框架，成为具身智能实现自主操控与环境适应的关键技术支撑。

本文基于 100 余次实验数据，系统拆解 VLA 的构建范式、核心影响因素、模块作用与性能瓶颈，为具身智能的工程化落地提供全面参考。

Project Page: https://cladernyjorn.github.io/VLM4VLA.github.io/

Paper: https://www.arxiv.org/abs/2601.03309

Code: https://github.com/CladernyJorn/VLM4VLA

原文链接：清华和Qwen团队最新！深究VLM如何影响VLA性能？并通过少量新参数转化为VLA策略

核心背景：从视觉 - 语言理解到具身动作规划的范式转移

早期具身智能研究依赖专用机器人模型，通过传感器数据直接学习动作映射，但其泛化能力受限，难以适应复杂场景变化。随着 VLM 在跨模态理解领域的突破，研究人员开始将预训练 VLM 整合到 VLA 框架中，利用其海量视觉 - 语言知识提升动作规划的通用性——例如服务机器人通过 VLM 理解 “拿起红色勺子” 的指令并转化为机械臂动作，工业机器人借助 VLM 识别零件位置并完成装配任务。

这种需求催生了 VLM 与 VLA 的技术衔接：VLM 提供跨模态理解能力，VLA 则负责将理解结果转化为可执行的物理动作。二者紧密关联：VLM 是 VLA 的 “认知基础”（通过视觉 - 语言对齐实现指令与环境的理解），VLA 是 VLM 的 “动作延伸”（赋予认知结果实际操控意义）。

当前 VLA 研究面临三大核心问题：VLM 选型与 VLA 性能的关联不明确、辅助任务微调对 VLA 效果的影响未知、VLM 内部模块（视觉编码器 / 语言编码器）在 VLA 中的作用权重模糊。本文通过构建统一实验框架，系统解答这些关键问题，为 VLA 的高效构建提供技术参考。

理论基石：VLM 与 VLA 的差异与统一性

核心差异：从认知建模到动作生成的本质不同

VLM 与 VLA 在核心目标、输入输出、优化目标等维度存在本质区别。VLM 的核心目标是实现视觉与语言的跨模态对齐，输入为图像 - 文本对，输出为文本回答或图像描述，优化目标聚焦理解准确性；而 VLA 的核心目标是将视觉 - 语言输入转化为连续 / 离散动作，输入为 “图像 + 任务指令”，输出为机器人可执行的动作序列，优化目标聚焦动作执行成功率。

数学定义上，VLM 可通过跨模态对齐损失（如对比学习损失、匹配损失）描述，核心优化视觉与语言表征的一致性；而 VLA 需扩展为 “认知 - 动作” 映射框架，通过模仿学习损失（如 MSE 损失、BCE 损失）优化动作预测的准确性，同时需考虑动作序列的连续性与物理可行性。这种差异本质是从 “理解世界” 到 “改造世界” 的范式转变。

统一性：最小适配框架下的技术融合

尽管二者存在显著差异，但可通过最小适配管道（VLM4VLA）实现技术统一。VLM4VLA 的核心是在不改变 VLM 主体结构的前提下，引入少量可学习参数（小于 1%），将通用 VLM 转化为 VLA 模型。其核心设计包括：

引入可学习的动作查询token（Action Query），从 VLM 的跨模态表征中提取动作相关信息；
采用简单 MLP 策略头，将跨模态表征解码为连续动作序列，避免扩散模型等复杂结构带来的随机性；
统一训练目标，通过 Huber 损失优化末端执行器的位置预测，通过二元交叉熵损失优化末端执行器的状态预测。

这种统一框架使得不同架构、不同规模的 VLM 能够在相同基准下进行公平对比，为 VLA 的技术选型提供了标准化参考。

构建 VLA 的必要性：泛化与实用双重视角

从泛化角度，传统机器人模型依赖大量专用数据训练，难以适应新场景、新任务；而 VLM 通过海量 web 数据预训练获得的通用视觉 - 语言知识，可作为 VLA 的先验，大幅提升模型的跨场景适应能力。从实用角度，VLA 无需从零训练，通过复用成熟 VLM 的能力，可显著降低具身智能的开发成本，加速技术落地。实验表明，基于 VLM 初始化的 VLA 模型性能远超从零训练的基线，验证了这一技术路径的必要性。

核心组件：VLA 的构建范式与关键影响因素

VLA 的性能表现受多重因素影响，核心可归结为三大维度：VLM 骨干模型选型、辅助任务微调、模块训练策略，三者共同决定了 VLA 的泛化能力与动作执行准确性。

VLM 骨干模型选型：通用能力与具身性能的非正相关

实验选取 9 种主流开源 VLM（参数规模 1B-30B），涵盖 QwenVL 系列、Paligemma 系列、Kosmos-2 等，在 Calvin、SimplerEnv、Libero 三大基准上的测试结果表明：

VLM 预训练带来稳定增益：所有基于 VLM 初始化的 VLA 模型均显著优于从零训练的基线，验证了 VLM 先验知识的价值；
通用能力与具身性能无强关联：在标准 VQA 基准上表现优秀的 VLM，在 VLA 任务中未必表现突出。例如 Qwen2.5VL-7B 在通用 VQA 中性能领先，但在 SimplerEnv 基准上，参数更小的 Kosmos-2（1.7B）反而取得更高成功率；
架构适配性至关重要：专为接地任务优化的 Kosmos-2 在部分具身场景中表现优异，而侧重通用理解的 QwenVL 系列在长序列任务（如 Calvin ABC-D）中更具优势，表明 VLM 的架构设计需与具身任务特性匹配。

辅助任务微调：具身技能提升不等于动作性能优化

为探究辅助任务微调对 VLA 的影响，实验选取 7 种典型具身辅助任务（包括空间理解、指向预测、动作导向 VQA 等），对 Qwen2.5VL 系列模型进行微调后构建 VLA，结果发现：

多数辅助任务微调效果不佳：除 Vica-332k（空间理解数据集）微调后略有提升外，其余辅助任务（如 Robopoint 指向预测、Robo2vlm 动作 VQA）均导致 VLA 性能下降或波动增大；
通用数据与具身数据的平衡关键：混合通用 VQA 数据与具身数据微调的 VQA-Mix 模型，性能最接近基线，表明 VLA 需要的是广谱的跨模态能力，而非单一具身技能；
生成式任务微调无效：深度图生成、语义分割等生成式辅助任务，并未提升 VLA 的动作规划能力，说明低级别视觉生成与动作控制的需求存在差异。

模块训练策略：视觉编码器是核心瓶颈

通过对 VLM 的视觉编码器、语言编码器、词嵌入层进行冻结 / 微调对比实验，发现各模块对 VLA 性能的影响差异显著：

视觉编码器是关键：冻结视觉编码器会导致 VLA 性能大幅下降，例如 Paligemma-1 冻结视觉编码器后，Calvin 基准得分从 3.506 降至 0.495，降幅达 86%；即使是参数规模更大的 Qwen2.5VL-7B，冻结视觉编码器后性能仍低于小参数的 Qwen2.5VL-3B 全量微调模型；
语言模块影响有限：冻结词嵌入层或语言编码器，对 VLA 性能的影响极小（降幅通常小于 5%），表明 VLA 对语言理解的要求可由 VLM 的预训练能力满足，无需额外微调；
视觉域适配需求迫切：视觉编码器的性能瓶颈源于 VLM 预训练数据（web 图像）与具身场景数据（模拟 / 真实操控图像）的域差异，以及视觉 - 语言理解与低级别动作控制对视觉特征的不同需求。

推理机制：VLA 的动作生成范式与优化路径

VLA 的动作生成核心是 “跨模态理解 - 动作映射” 的推理过程，当前形成两大主流范式，各有优劣且呈现融合趋势。

直接映射范式：轻量化适配与高效推理

该范式以 VLM4VLA 为代表，通过简单的 “VLM 跨模态表征 + MLP 动作解码” 实现端到端动作生成，核心优势在于：

轻量化设计：仅引入少量可学习参数，训练成本低、推理速度快，适合实时操控场景；
稳定性强：采用确定性损失函数（如 MSE、BCE），避免扩散模型等带来的性能波动；
通用性好：可适配任意 VLM 骨干模型，便于进行公平对比与选型。

典型案例包括基于 Qwen3VL-2B 的 VLA 模型，在 Calvin 基准上平均完成任务数达 4.142，接近 SOTA 专用 VLA 模型，且参数规模更小、训练效率更高。

增强推理范式：模块优化与知识注入

该范式通过强化 VLM 的具身相关能力或优化动作生成模块，提升 VLA 的复杂场景适应能力，典型方法包括：

视觉编码器增强：向 VLM 视觉编码器注入控制相关信息（如动作token），即使冻结编码器也能提升性能，Qwen3VL-4B 经此优化后，SimplerBridge 基准成功率提升 18.1%；
多模态融合优化：结合 proprioceptive 状态（如机器人关节信息），ThinkAct 模型在 Libero 基准上成功率达 70.9%，显著优于未使用该信息的模型；
架构升级：采用分层设计，VLM 负责高层任务理解与规划，专用动作专家负责低层动作生成，但需注意避免动作专家受限于 VLM 骨干的固有能力。

融合趋势：轻量化基础与增强型优化

单一范式难以满足复杂具身场景需求，融合趋势逐渐显现：以直接映射范式为基础，保证高效推理与稳定性；针对特定场景，引入视觉增强、多模态信息融合等优化手段，提升性能上限。例如，在通用场景采用 VLM4VLA 的基础架构，在高精度操控场景注入控制相关视觉监督，实现 “效率与性能” 的平衡。

评估体系：VLA 基准的演化与核心指标

VLA 评估基准的演化遵循 “简单场景→复杂场景、单一模态→多模态” 的逻辑，逐步贴近真实具身需求，当前主流基准各有侧重。

主流基准特性与评估维度

基准名称	核心场景	模态类型	评估指标	核心挑战
Calvin ABC-D	桌面长序列操控	视觉 + 文本	平均完成任务数	跨场景泛化（颜色 / 物体布局变化）
SimplerEnv Bridge	真实 - 模拟迁移操控	视觉 + 文本	任务成功率	域适配（真实数据训练→模拟环境测试）
Libero-Long	多类型物体操控	视觉 + 文本	任务成功率	长时程动作规划与多物体交互

这些基准的共同趋势是：从静态场景转向动态交互、从单一任务转向复合任务、从模拟数据转向真实 - 模拟混合数据，更能反映 VLA 的实际应用能力。

评估核心指标与注意事项

VLA 的核心评估指标包括任务成功率、平均完成任务数、动作序列平滑度等，评估过程中需注意：

控制随机性：避免扩散模型等带来的性能波动，采用足够多的测试轮次（如 SimplerEnv 基准 24 次随机初始化）确保结果可靠；
统一实验设置：保持输入模态（如仅用单视图图像）、训练超参数（学习率、批大小）一致，避免无关变量干扰；
关注泛化能力：重点评估模型在 unseen 场景（如 Calvin 的 D 场景）的表现，而非仅在训练场景中过拟合。

核心挑战与未来方向

四大核心技术挑战

视觉域差异与特征错位：VLM 预训练图像与具身场景图像的域差异显著，且视觉 - 语言理解与动作控制对视觉特征的需求不同，导致视觉编码器成为性能瓶颈；
通用能力与具身性能的适配难题：VLM 的通用 VQA 性能与 VLA 的动作执行性能无强关联，难以通过现有 VLM 评估指标预测 VLA 表现；
辅助任务微调的有效性边界：多数具身辅助任务微调无法提升 VLA 性能，如何设计针对性微调任务尚不明确；
真实场景落地的公平性与可复现性：物理机器人硬件差异大，实验难以复现，导致当前研究多依赖模拟环境，与真实应用存在差距。

未来研究方向

视觉模块优化：聚焦 VLM 视觉编码器的域适配技术，开发控制导向的视觉表征学习方法，缩小视觉 - 语言任务与动作控制任务的特征差距；
范式融合与自适应架构：构建 “轻量化基础 + 增强型插件” 的自适应 VLA 架构，简单场景采用直接映射范式保证效率，复杂场景引入增强模块提升性能；
专用评估体系构建：设计兼顾真实场景、多模态动态交互、社交反馈循环的 VLA 评估基准，建立统一的性能验证标准；
数据与训练策略创新：探索通用数据与具身数据的最优混合比例，开发高效微调方法，在不损害 VLM 通用能力的前提下提升具身适配性。

总结：VLA 的范式价值与行业影响

随着视觉域适配技术的突破、融合架构的完善、专用评估基准的建立，VLA 将加速具身智能在家庭服务、工业生产、医疗康复等领域的落地，实现从 “感知理解” 到 “自主行动” 的关键跨越，让智能体真正融入物理世界并提供可靠服务。

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

VLAN配置实战指南：PVID与接口模式详解

DAMO开发者矩阵

Kalibr 完全指南：从原理推导到ROS实战，掌握相机-IMU高精度标定

多传感器融合是机器人感知的核心，而传感器之间的精确标定是实现高质量融合的前提。Kalibr 作为瑞士苏黎世联邦理工学院开源的标定工具箱，能够同时校准相机内参、多相机外参、相机-IMU 外参以及时间偏移，已成为视觉-惯性SLAM领域的标配工具。本文将带你深入 Kalibr 的数学原理，推导视觉重投影误差与IMU预积分公式，解析 ROS 功能包的整体流程，并教你如何分析标定结果、诊断常见问题。无论你是