VLA模型在分布内任务中表现优异,但在新摄像机视角和视觉扰动下性能急剧下降。研究表明,这种脆弱性主要源于空间建模的对齐偏差,而非物理建模问题。

为解决此问题,中山大学等机构研究人员提出了一种单次自适应框架,通过轻量级可学习的参数更新来重新校准视觉表征。首先提出的**特征token调制(FTM)**方法,对视觉token进行全局仿射变换,仅用4K参数就将Libero数据集的视角准确率从48.5%提升至87.1%。在此基础上,特征线性自适应(FLA)方法进一步为ViT编码器引入低秩更新,以470万参数实现了90.8%的成功率,在远低于LoRA规模微调成本的情况下达到同等效果。这些结果表明,预训练VLA模型中存在大量未被挖掘的鲁棒性潜力,并且针对性、极小化的视觉自适应足以恢复模型的视角泛化能力。

  • 论文名称:VLA Models Are More Generalizable Than You Think: Revisiting Physical and Spatial Modeling

  • 论文链接:https://arxiv.org/pdf/2512.02902

原文链接:VLA 模型的泛化能力超乎你的想象:换个新相机和视角推理也能轻松搞定!

VLA模型的泛化性困境

VLA模型是具身智能领域的核心技术,它将预训练的视觉-语言模型扩展到机器人控制任务中,能够通过视觉观测和自然语言指令生成机器人的动作序列,实现多样化的操作任务(如抓取、堆叠、开关设备等)。近年来,RT2、Pi0、PaLM-E、Octo等代表性VLA模型在大规模机器人数据集预训练后,展现出了优秀的域内性能,成为通用机器人控制的重要方向。

然而,VLA模型的鲁棒性与泛化性始终是落地的关键瓶颈。尽管在训练数据中表现出色,当面临未见过的相机视角、光照变化、背景纹理扰动或图像噪声时,模型性能会急剧下降。这种“脆弱性”源于现实世界视觉环境的动态性与不可预测性,而现有方法难以在不依赖大规模数据或复杂架构的前提下解决这一问题。当下提升VLA模型鲁棒性的方法主要分为两类:

  • 数据中心范式:通过扩大视觉多样性(如Libero-Plus多视角数据集)提升模型适应性,但数据采集成本高、耗时费力,难以在真实场景中持续扩展。
  • 表示中心范式:通过几何一致性学习或3D感知架构增强视角不变性,但这类方法对背景杂乱、光照变化等任务无关视觉因素仍敏感,且未明确区分性能退化的核心原因是空间建模还是物理建模。

此外,参数高效微调(PEFT)虽在大语言模型和多模态模型中广泛应用,但在具身AI中多针对语言或策略组件优化,极少直接对视觉模块进行轻量级适配,导致视觉通路的空间表示失准问题始终未得到有效解决。

空间建模是VLA泛化的核心瓶颈

本框架核心创新在于将VLA模型解耦为空间建模与物理建模两个独立组件,并通过理论分析与实验验证,指出视角变化等视觉扰动下的性能退化主要源于空间建模的失准,而非物理建模的缺陷。

1)空间建模与物理建模的解耦定义

  • 空间建模(Spatial Modeling):由视觉编码器(如ViT)实现,负责从图像中构建物体间的空间关系(位置、方向、接触、遮挡等),生成下游任务所需的空间表示。视角变化会直接改变场景的空间配置,导致空间表示失真。
  • 物理建模(Physical Modeling):由视觉-语言模型(VLM)和动作专家(Action Expert)实现,整合任务语言、空间表示和动作历史,进行高层推理并生成可执行的动作序列。其核心是任务语义与动作动力学的映射,视角变化并不会改变任务本身的语义与动作逻辑。

这一解耦的关键结论是:VLA模型在视角扰动下的失效,本质是空间建模输出的视觉嵌入存在空间畸变,导致物理建模模块接收到错误的空间信息,而非物理建模的推理与控制能力不足。

2)理论假设的验证逻辑

通过嵌入漂移分析验证了上述假设:在零样本场景下,新视角的视觉token与训练视角的视觉token在嵌入空间中形成完全分离的聚类,存在严重的域间隙;而通过轻量级适配后,新视角的视觉token能与训练视角的token对齐,模型性能随之恢复。这一现象直接证明了空间建模失准是性能退化的主因。

方法设计:轻量级单次适配框架

针对空间建模的失准问题,这里提出了单次适配(One-Shot Adaptation)框架,包含两种轻量级机制:Feature Token Modulation(FTM)和Feature Linear Adaptation(FLA),仅通过极少的参数更新即可校准视觉表示,恢复模型的泛化性。

1)基础框架:π0.5 VLA策略

这里以 π 0.5 π_{0.5} π0.5为基础VLA策略,该策略将视觉输入(图像/多视角图像)和语言指令作为观测,自回归生成离散动作token。其架构分为三部分:

  1. 视觉编码器 f v ( ⋅ ) f_v(\cdot) fv():将图像映射为token嵌入;
  2. 语言编码器 f l ( ⋅ ) f_l(\cdot) fl():将文本映射为嵌入;
  3. 多模态Transformer解码器 g ( ⋅ ) g(\cdot) g():结合视觉与语言嵌入,预测动作token。

适配过程中,保持语言编码器和解码器固定,仅对视觉模块的表示进行轻量级调整,形式化表示为:

P θ , ϕ ( a t ∣ a < t , o ≤ t ) = g ( a < t ; [ A ϕ ( f v ( v ) ) ; l ] ) P_{\theta, \phi}\left(a_{t} | a_{< t}, o_{\leq t}\right)=g\left(a_{< t} ;\left[\mathcal{A}_{\phi}\left(f_{v}(v)\right) ; l\right]\right) Pθ,ϕ(ata<t,ot)=g(a<t;[Aϕ(fv(v));l])

其中 A ϕ ( ⋅ ) \mathcal{A}_{\phi}(\cdot) Aϕ()为适配变换, ϕ \phi ϕ为少量可学习参数。

2)FTM):视觉token的全局仿射变换

FTM是一种极简的适配机制,核心通过两个可学习参数向量 γ , β \gamma, \beta γ,β对视觉token嵌入进行全局仿射变换,公式为:

F ^ = ( 1 + γ ) ⊙ F + β \hat{F}=(1+\gamma) \odot F+\beta F^=(1+γ)F+β

其中 F ∈ R N × D V i T F \in \mathbb{R}^{N ×D_{ViT}} FRN×DViT是视觉编码器输出的token嵌入, γ , β ∈ R D V i T \gamma, \beta \in \mathbb{R}^{D_{ViT}} γ,βRDViT分别为缩放和偏移参数,仅引入4K可训练参数(因 D V i T = 2048 D_{ViT}=2048 DViT=2048)。

FTM的本质是对视觉嵌入空间进行“重新中心化”和“重新缩放”,修正由视角变化导致的特征分布畸变。尽管参数极少,FTM仍能将Libero基准的视角准确率从48.5%提升至87.1%,证明了即使是最小程度的token级调制,也能大幅恢复空间建模的准确性。

3)FLA:ViT编码器的低秩更新

在FTM的基础上,FLA进一步对ViT编码器的线性层进行低秩适配(LoRA),通过低秩分解更新线性变换矩阵:

W ′ = W + Δ W , Δ W = B A W'=W+\Delta W, \Delta W=B A W=W+ΔW,ΔW=BA

其中 W ∈ R d o u t × d i n W \in \mathbb{R}^{d_{out} ×d_{in}} WRdout×din为冻结的预训练权重, A ∈ R r × d i n A \in \mathbb{R}^{r ×d_{in}} ARr×din B ∈ R d o u t × r B \in \mathbb{R}^{d_{out} ×r} BRdout×r为可学习的低秩矩阵( r ≪ m i n ( d i n , d o u t ) r \ll min(d_{in}, d_{out}) rmin(din,dout))。

FLA仅对SigLIP视觉骨干的线性层进行微调,总参数为4.7M,远低于LoRA全模型微调的467M参数。实验中,FLA将平均成功率提升至90.8%,超越了LoRA微调的90.3%,实现了“以1%的参数达到甚至超越全量微调的性能”。

4)与现有适配方法的对比

论文将FTM/FLA与三种主流适配方法进行了对比:

  1. LoRA微调:需更新数百万参数,计算成本高;
  2. 替换视觉backbone:需重新训练模型以对齐新视觉特征与动作Head,耗时且破坏预训练知识;
  3. Prompt学习:通过拼接可学习token实现适配,但对特征的校准能力有限,性能提升幅度低。

相比之下,FTM/FLA聚焦视觉模块的轻量级适配,无需修改模型架构或重新训练,是更高效、更实用的解决方案。

实验设计与结果分析

为验证方法的有效性,构建了Libero-V(Visual)基准,并在多维度实验中对FTM/FLA进行了全面评估。

1)实验基准:Libero-V

Libero-V基于原Libero基准扩展,引入四种受控的视觉扰动:

  1. 相机视角变化:模拟不同观测角度的空间畸变;
  2. 光照变化:调整漫反射、镜面反射、光源方向等物理属性;
  3. 背景纹理扰动:替换场景背景的材质(木材、金属、织物等);
  4. 传感器噪声:注入运动模糊、高斯模糊、雾效等图像退化效果。

该基准为评估VLA模型在视觉分布偏移下的鲁棒性提供了统一框架,且所有实验均采用单次适配(仅需1个人类演示即可适配新视觉域)。

2)基线模型与实验设置

论文以 π 0.5 π_{0.5} π0.5为基础策略,对比了GeoAware-VLA、OpenVLA-OFT、LoRA微调、Prompt学习等基线模型。实验在单张NVIDIA A100 80GB GPU上进行,FTM的可学习参数为4K,FLA为4.7M,训练批次大小为32,采用Adam优化器,训练步数根据方法不同设置为5000步(FTM)和1500步(FLA)。

3)核心实验结果

新相机视角下的性能

在Libero基准的四个子任务套件(Spatial、Object、Goal、Long)中,FLA取得了90.8%的平均成功率,超越了 π 0.5 \pi_{0.5} π0.5 LoRA微调的90.3%;FTM以87.2%的成功率接近 π 0 \pi_{0} π0 LoRA微调的83.6%,且仅用4K参数。这一结果证明,针对空间建模的轻量级适配足以恢复模型在新视角下的性能。

此外,随着视角扰动程度从“小”到“大”增加,FLA仍能保持稳定性能(Small:94.6%、Medium:90%、Large:87.9%),远优于GeoAware-VLA、OpenVLA-OFT-m等基线,体现了方法对空间畸变的强鲁棒性。

多视觉扰动下的泛化性

在Libero-V基准的四种视觉扰动中,FLA的平均成功率达94.8%,与π₀.₅ LoRA微调的94.6%持平,且在相机视角扰动上表现更优(90.8% vs 90.3%);FTM以90.5%的成功率远超Prompt学习的75.1%,证明即使是极简的token调制,也能有效应对多样化的视觉扰动。

参数效率分析

FLA实现了99倍的参数缩减(4.7M vs 467M),且性能略有提升;FTM以4K参数达到90.5%的成功率,参数效率远超其他方法。

消融实验
  • FLA的秩影响:当FLA的秩从16提升至32时,成功率从90.8%微增至91.2%,说明更高的秩能实现更精细的特征校准,但边际收益有限;
  • 基线模型适配:FLA在 π 0 \pi_{0} π0 π 0.5 \pi_{0.5} π0.5上均能达到或超越LoRA微调的性能,证明方法的通用性;
  • 训练步数分析:FLA在1500步内即可收敛,而LoRA需2000步,进一步体现了轻量级适配的效率优势。

4)真实世界验证

论文在Franka Emika熊猫机械臂上进行了真实世界实验,设计了5项操作任务(拾取积木、堆叠积木、关闭微波炉门、按按钮、拉抽屉)。通过单次FLA适配,模型在新相机视角下成功完成了所有任务,证明方法在真实场景中同样有效,能够弥合仿真与现实的域间隙。

写在最后

本工作是VLA模型鲁棒性研究的重要突破,其核心价值在于精准定位了模型泛化性的瓶颈,并提出了高效的解决方案

具身求职内推来啦

近50家主流具身公司,校招&社招&实习均可

国内最大的具身智能全栈学习社区来啦!

具身智能之心知识星球:国内最大的具身智能全栈技术社区来啦!

推荐阅读

从零部署π0,π0.5!好用,高性价比!面向具身科研领域打造的轻量级机械臂

工业级真机教程+VLA算法实战(pi0/pi0.5/GR00T/世界模型等)

具身智能算法与落地平台来啦!国内首个面向科研及工业的全栈具身智能机械臂

VLA/VLA+触觉/VLA+RL/具身世界模型等!具身大脑+小脑算法与实战全栈路线来啦~

MuJoCo具身智能实战:从零基础到强化学习与Sim2Real

从零训练你的足式机器人!让你的足式机器人真正动起来~

具身领域的目标导航到底是什么?有哪些主流方法?

Diffusion Policy在具身智能领域是怎么应用的?为什么如此重要?

具身智能视觉语言动作模型,VLA怎么入门?

视觉语言导航的主流方法有哪些?是怎么用的?

1v1 科研论文辅导来啦!

重磅!具身智能之心论文辅导来啦(近20+方向,顶会/顶刊/SCI/EI/中文核心/申博等)

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐