微软&港科对比多种迁移技术！VLA 到底如何有效地继承 VLM 中丰富的视觉-语义先验？

微软研究院与

Tom Hardy

974人浏览 · 2025-12-27 15:45:50

Tom Hardy · 2025-12-27 15:45:50 发布

在具身智能领域，基于大型视觉语言模型（VLM）初始化训练视觉语言动作模型（VLA）已成为主流范式。但核心疑问始终未解：VLA 如何有效继承 VLM 中丰富的视觉 - 语义先验？

微软研究院、香港科技大学等团队联合提出的GrinningFace 基准，以表情符号桌面操作任务为切入点，通过模拟与真实机器人双环境实验，系统对比多种迁移技术，不仅揭示了 VLM 先验对 VLA 泛化能力的关键作用，更为高效知识迁移提供了明确指导。

原文链接：微软&港科对比多种迁移技术！VLA 到底如何有效地继承 VLM 中丰富的视觉-语义先验？

为什么需要专门的 VLA 知识迁移基准？

当前 VLA 训练虽普遍依托 VLM 初始化，但存在三大核心痛点，传统基准难以精准诊断：

核心痛点	具体表现
先验迁移效果模糊	VLM 的视觉 - 语义知识与 VLA 的机器人动作技能交织，无法单独评估迁移成效
灾难性遗忘风险	VLA 在机器人数据集上微调时，易丢失 VLM 的通用先验知识
技术对比缺乏统一标准	不同迁移技术（如参数高效微调、共训练）在不同场景下提出，难以系统比较优劣

关键问题在于，现有机器人数据集与 VLM 预训练数据的重叠度极低，无法剥离 “机器人动作技能” 与 “VLM 先验知识” 的贡献。

GrinningFace 基准的创新之处在于：选择表情符号作为核心代理——这类符号在 VLM 预训练的互联网规模数据中普遍存在，却几乎未出现在机器人数据集中，从而构建了 “动作技能简单可控、视觉 - 语义识别依赖 VLM 先验” 的纯净测试环境。

GrinningFace：如何精准诊断 VLA 的知识继承能力？

GrinningFace 的核心设计可概括为 “以表情符号为桥梁，分离动作执行与语义识别能力”，通过标准化任务与评估体系，实现对知识迁移效果的精准度量，具体包括两大核心模块：

核心模块 1：表情符号桌面任务设计

任务要求机器人手臂根据语言指令，将立方体放置到对应的表情符号卡片上（三选一），指令格式为 “拿起立方体并放置在 [表情描述] 上”。

数据划分：训练集与验证集各包含 100 个不同表情符号，确保评估泛化能力
数据采集：通过规则程序生成 500 条微调轨迹，随机化立方体、表情卡和机器人初始位置，避免记忆拟合
场景适配：同步实现 ManiSkill3 仿真环境与真实机器人平台（Realman RM75 机械臂），确保结论迁移性

核心模块 2：双维度评估体系

通过拆分成功率，单独量化动作执行与语义识别能力，公式定义为：

$\text{overall SR} = \text{execution SR} \times \text{recognition SR}$

执行成功率（execution SR）：机器人成功抓取立方体并放置到任意表情卡的概率，反映动作技能掌握程度
识别成功率（recognition SR）：机器人选择正确目标表情卡的概率，直接体现 VLM 先验迁移效果
评估协议：设计三类测试场景（ID：训练集组合、Train：训练集新组合、Val：验证集表情），全面覆盖分布内与分布外泛化

关键实验发现：哪些技术能实现高效知识迁移？

研究团队在统一 $\pi_0$ 风格代码库中，系统评估了参数高效微调、VLM 冻结、共训练等主流技术，核心结论可概括为 “先验保留是关键，平衡迁移与适配是核心”：

VLM、VLA 预训练与微调的分工明确

VLM 提供基础视觉 - 语义先验，但对桌面场景识别适配不足
VLA 预训练负责将 VLM 先验对齐到桌面场景，支撑快速适配
VLA 微调专注于目标任务的动作技能优化，需避免过度更新导致先验丢失

微调策略的性能对比与取舍

微调策略	核心优势	主要局限
全参数微调	适配特定任务效果好	易发生灾难性遗忘，丢失 VLM 先验
仅微调动作头	最大程度保留 VLM 先验	动作技能学习不足，分布内场景适配差
LoRA 微调	平衡先验保留与动作学习	知识迁移提升有限，仍有优化空间

不同微调策略的性能差异可通过图 2 直观观察：基线模型全参数微调时，执行成功率（实线）居高不下，但验证集识别成功率（虚线）始终偏低；而 VLM 冻结 + LoRA 预训练虽能保持高识别成功率，却需要更多微调步骤才能掌握简单动作技能。

高效迁移的关键技术方向

共训练（Co-training）：在 VLA 训练中加入视觉语言任务（如表情识别），能有效保留 VLM 先验，真实机器人实验中识别成功率达 86.7%（26/30）
潜态动作预测（Latent Action）：将潜态动作作为高阶训练目标，避免模型被低阶信号干扰，识别成功率达 80%（24/30）
VLM 冻结 + LoRA 预训练：大幅提升识别成功率（超 90%），但复杂动作技能适配速度慢
多样化预训练数据：即使部分数据与目标场景差异较大，也能提升泛化能力，验证了数据规模对先验激活的重要性

负面技术验证

离散动作预测：不仅未提升迁移效果，还因量化误差导致执行与识别成功率双下降
单一 VLM 初始化：仅依赖 VLM 权重初始化无法保证有效迁移，必须配合合理的预训练与微调策略

实验验证：仿真与真实机器人的一致性

为确保结论可靠性，研究在 Realman RM75 真实机械臂上复现了核心实验，结果与仿真环境高度一致：

注意力图谱分析进一步揭示：VLM 能初步关注目标表情但不够聚焦，VLA 预训练使其学会关注桌面关键物体（抓手、立方体、表情卡），而优化后的微调策略能让模型精准聚焦正确表情卡，验证了 “VLM 先验→预训练对齐→微调优化” 的递进式迁移路径。

核心结论与未来方向

核心结论

表情符号基准能有效分离 VLA 的动作技能与 VLM 先验贡献，为知识迁移提供精准诊断工具
VLM 先验的保留程度直接决定 VLA 的泛化能力，灾难性遗忘是当前技术的主要瓶颈
共训练、潜态动作预测、多样化预训练数据是实现高效迁移的三大关键方向
平衡 VLM 先验保留与机器人动作适配，是 VLA 设计的核心原则

未来方向

优化参数高效微调技术，提升 LoRA 等方法的知识迁移效率
设计更贴合真实场景的复杂任务，验证迁移技术的规模化应用能力
探索多模态先验融合，结合触觉、语音等信息增强 VLA 的环境适应能力

总结

GrinningFace 基准的提出，填补了 VLA 知识迁移评估的空白——通过表情符号这一巧妙的 “桥梁”，首次实现了对 VLM 先验迁移效果的定量分离。

其系统实验不仅验证了 VLM 先验对 VLA 泛化的决定性作用，更提供了可落地的技术指南。对于追求通用具身智能的研究而言，这一工作为打破 “局部任务适配与全局先验保留” 的矛盾提供了关键思路，也为后续 VLA 架构设计与训练策略优化奠定了基础。

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

AI 原生营销矩阵系统：智能线索管理与私域转化技术实现

本文从工程实践角度，深入拆解了 AI 原生营销矩阵系统的智能线索管理系统与私域转化闭环技术，详细讲解了跨平台消息统一接入、微信抖音消息互通、智能客服机器人、线索智能分配与跟进等核心技术的实现细节。通过构建完善的智能线索管理体系，能够有效解决公域获客与私域转化之间的技术鸿沟，提高客户响应速度和线索转化率，帮助企业实现营销效果的最大化。在未来，随着 AI 技术的不断发展，智能线索管理系统将变得更加智能

DAMO开发者矩阵

工业机器人RobotStudio搬运项目作业

创建工具、工件坐标、载荷三类程序数据；完成 RAPID 程序调试与仿真，实现机器人自动拾取、搬运、放置、计数、满载复位全流程作业。在 RobotStudio 6.08 中完成太阳能薄板搬运工作站的解包、系统重置、I/O 配置、程序数据创建、目标点示教、RAPID 程序编写与调试，实现机器人从流水线拾取太阳能薄板并搬运至暂存盒的循环自动作业，完成工件周转至下一工位处理。熟练完成 I/O 配置、程序数