论文阅读“AVA-VLA: IMPROVING VISION-LANGUAGE-ACTION MODELS WITH ACTIVE VISUAL ATTENTION“
论文阅读"AVA-VLA: IMPROVING VISION-LANGUAGE-ACTION MODELS WITH ACTIVE VISUAL ATTENTION"
目录
摘要
Vision-Language-Action (VLA) models have demonstrated remarkable capabilities in embodied AI tasks. However, existing VLA models, often built upon Vision-Language Models (VLMs), typically process dense visual inputs independently at each timestep. This approach implicitly models the task as a Markov Decision Process (MDP). However, this history-agnostic design is suboptimal for effective visual token processing in dynamic sequential decision-making, as it fails to leverage the context of history.
To address this limitation, we reformulate the problem from a Partially Observable Markov Decision Process (POMDP) perspective and propose a novel framework named AVA-VLA. Inspired by the POMDP formulation, action generation should be conditioned on the belief state. AVA-VLA introduces Active Visual Attention (AVA) to dynamically modulate visual processing. It achieves this by leveraging the recurrent state, which is a neural approximation of the agent’s belief state derived from the previous decision step. Specifically, the AVA module uses the recurrent state to compute soft weights to actively process task-relevant visual tokens based on historical context.
Comprehensive evaluations demonstrate that AVA-VLA achieves state-of-the-art performance across popular robotic benchmarks, including LIBERO and CALVIN. Furthermore, real-world deployments on a dual-arm robot platform validate the framework’s practical applicability and robust sim-to-real transferability.
结论
In this paper, we reformulate the robot manipulation problem from a POMDP perspective and propose a novel AVA-VLA framework. Unlike previous vision-language-action models that model the task as an MDP and process each frame independently, we introduce the recurrent state as a neural approximation of the agent’s belief state and design an Active Visual Attention (AVA) module that leverages this recurrent state to dynamically modulate the visual processing of the current frame. Our method enables the model to actively filter irrelevant information and focus on task-critical features based on its rich historical context. Extensive experiments demonstrate the superiority of the proposed AVA-VLA framework by achieving state-of-the-art performance across multiple robot simulation benchmarks, including LIBERO and CALVIN. It can also successfully transfer to diverse real-world robotic tasks, showing strong sim-to-real generalization.
我将为您详细分析这篇关于AVA-VLA(Active Visual Attention Vision-Language-Action)的论文。这是一篇关于机器人视觉-语言-动作模型的研究论文,提出了一种新的框架来解决现有VLA模型缺乏历史上下文的问题。
1. 研究背景与核心问题
1.1 现有VLA模型的局限性
现有的Vision-Language-Action(VLA)模型通常基于Vision-Language Models(VLMs)构建,它们在每个时间步独立处理视觉输入。这种设计隐式地将任务建模为马尔可夫决策过程(MDP),即假设当前视觉观察就是完整的世界状态。
核心问题:在真实的机器人操作中,当前视觉帧只是环境真实状态的部分观察,包含跨时间序列的非可观测动态(如内部状态、遮挡信息)。丢弃历史上下文导致:
- 视觉注意力权重被迫在每个决策步骤从头重新评估独立的视觉信息
- 无法有效过滤时间冗余信息
- 无法关注基于过去动作变得重要的视觉区域
1.2 关键洞察
论文作者从部分可观测马尔可夫决策过程(POMDP)的角度重新思考问题。在POMDP框架中,最优策略应该基于信念状态(belief state)——对过去观察和动作的总结,而不仅仅是当前观察。
2. AVA-VLA框架核心创新
2.1 核心思想
将VLA策略重新表述为:
A ˉ t ∼ P θ ( A ˉ t ∣ x t , b ˉ t − 1 ) \bar{\mathcal{A}}^{t} \sim \mathcal{P}_{\theta}(\bar{\mathcal{A}}^{t} \mid x^{t}, \bar{b}^{t-1}) Aˉt∼Pθ(Aˉt∣xt,bˉt−1)
由于直接计算理论信念状态 b t − 1 b^{t-1} bt−1通常难以处理,作者提出学习一个压缩表示 r t − 1 r^{t-1} rt−1作为其神经近似,称为循环状态(recurrent state)。
2.2 架构设计
AVA-VLA框架概览
主要组件:
| 组件 | 功能描述 |
|---|---|
| 循环状态 r t − 1 r^{t-1} rt−1 | 从历史信息中提取的神经网络表示,作为信念状态的近似 |
| AVA模块 | 利用循环状态计算视觉token的重要性软权重,动态调节当前帧的视觉处理 |
| 基于状态的初始化 | 使用循环状态初始化动作占位符嵌入 |
循环状态的计算:
r t − 1 = B ( h M t − 1 ) ∈ R L A × d \boldsymbol{r}^{t-1} = \mathcal{B}(\boldsymbol{h}_{M}^{t-1}) \in \mathbb{R}^{\mathrm{L}_{A} \times d} rt−1=B(hMt−1)∈RLA×d
其中 B \mathcal{B} B是MLP模块,将上一时间步的隐藏状态转换为循环状态。
2.3 Active Visual Attention (AVA) 模块详解
AVA模块的工作流程:
-
特征编码:使用模态MLP分别编码视觉特征 z I t z_I^t zIt和指令特征 z S t z_S^t zSt
-
FiLM条件化:应用Feature-wise Linear Modulation,将视觉特征条件化于语言指令
z ^ I t = F γ ( z ˉ S t ) ⊙ z ˉ I t + F β ( z ˉ S t ) \hat{z}_{I}^{t} = \mathcal{F}_{\gamma}(\bar{z}_{S}^{t}) \odot \bar{z}_{I}^{t} + \mathcal{F}_{\beta}(\bar{z}_{S}^{t}) z^It=Fγ(zˉSt)⊙zˉIt+Fβ(zˉSt) -
交叉注意力计算:
- Query:视觉token z ^ I t \hat{z}_I^t z^It
- Key/Value:循环状态 r ^ t − 1 \hat{r}^{t-1} r^t−1
Q t = W Q z ^ I t , K t , V t = ( W K / W V ) r ^ t − 1 \mathbf{Q}^{t} = W_{Q}\hat{z}_{I}^{t}, \quad \mathbf{K}^{t}, \mathbf{V}^{t} = (W_{K}/W_{V})\hat{r}^{t-1} Qt=WQz^It,Kt,Vt=(WK/WV)r^t−1
-
自注意力与FFN:通过自注意力层和前馈网络处理
-
软权重预测:
ρ t = Softmax ( W ( FFN ( O t ) ) ) ∈ R L I × 2 \mathbf{\rho}^{t} = \text{Softmax}\left(\mathcal{W}\left(\text{FFN}\left(\mathbf{O}^{t}\right)\right)\right) \in \mathbb{R}^{\mathrm{L}_{I} \times 2} ρt=Softmax(W(FFN(Ot)))∈RLI×2最终软权重: ω t = ρ t γ \omega^{t} = \rho^{t}\gamma ωt=ρtγ,其中 γ = [ γ 0 , γ 1 ] \gamma = [\gamma_0, \gamma_1] γ=[γ0,γ1]分别表示增强和削弱视觉token的标量分数
-
注意力矩阵调制:将软权重应用于LLM骨干的所有层,修改注意力分数:
A i , j t , m = exp ( C i , j t , m ) U i , j t ∑ l = 1 L o t exp ( C i , l t , m ) U i , l t \mathbf{A}_{i,j}^{t,m} = \frac{\exp(\mathbf{C}_{i,j}^{t,m})\mathbf{U}_{i,j}^{t}}{\sum_{l=1}^{\mathrm{L}_{o}^{t}}\exp(\mathbf{C}_{i,l}^{t,m})\mathbf{U}_{i,l}^{t}} Ai,jt,m=∑l=1Lotexp(Ci,lt,m)Ui,ltexp(Ci,jt,m)Ui,jt
3. 训练与推理
3.1 训练策略
- 截断反向传播(Truncated BPTT):由于计算资源限制,展开固定短 horizon(T=4)
- 损失函数:
- 动作预测损失:MAE损失 L t , n = L ( A t , n ‾ , A GT t , n ) \mathcal{L}^{t,n} = \mathcal{L}(\overline{\mathcal{A}^{t,n}}, \mathcal{A}_{\text{GT}}^{t,n}) Lt,n=L(At,n,AGTt,n)
- 软权重正则化:L2惩罚 L ω t , n = ∥ μ ( ω t , n ) − c ∥ \mathcal{L}_{\omega}^{t,n} = \|\mu(\omega^{t,n}) - c\| Lωt,n=∥μ(ωt,n)−c∥
- 总损失: L total = ∑ n = 1 N ∑ t = 0 T − 1 ( L t , n + λ L ω t , n ) \mathcal{L}_{\text{total}} = \sum_{n=1}^{N}\sum_{t=0}^{T-1}(\mathcal{L}^{t,n} + \lambda\mathcal{L}_{\omega}^{t,n}) Ltotal=∑n=1N∑t=0T−1(Lt,n+λLωt,n)
3.2 推理过程
完全循环方式运行:
- t = 0 t=0 t=0时,初始循环状态 r − 1 r^{-1} r−1初始化为零嵌入
- 每个时间步 t ≥ 0 t \geq 0 t≥0,基于当前观察 x t x^t xt和前一循环状态 r t − 1 r^{t-1} rt−1执行前向传播
- 同时预测动作块 A t \mathcal{A}^t At并提取新的循环状态
4. 实验结果
4.1 基准测试
LIBERO基准(表1):
- 多任务设置(一个策略处理所有4个套件):AVA-VLA达到**98.0%**平均成功率,超越OpenVLA-OFT(96.8%)
- 单任务设置:达到**98.3%**平均成功率,在最具挑战性的LIBERO-Long套件上表现最佳(96.2%)
| 方法 | Spatial | Object | Goal | Long | Average |
|---|---|---|---|---|---|
| OpenVLA-OFT | 97.7 | 98.0 | 96.1 | 95.3 | 96.8 |
| AVA-VLA (Ours) | 97.4 | 99.4 | 97.4 | 97.6 | 98.0 |
CALVIN基准(表2):
- 在ABC→D零样本泛化设置中,AVA-VLA在所有任务上全面超越基线
- 平均完成长度达到4.65,优于之前最佳方法FLOWER(4.53)
| 方法 | Avg. len ↑ |
|---|---|
| FLOWER | 4.53 |
| AVA-VLA | 4.65 |
4.2 真实世界实验(Mobile ALOHA)
在四个具有挑战性的真实任务中评估:
图3:Mobile ALOHA真实机器人实验对比
| 任务 | UniVLA | OpenVLA-OFT | AVA-VLA |
|---|---|---|---|
| Pick and Place | 67.5 | 85.9 | 96.2 |
| Sequenced Instruction | 70.0 | 76.7 | 93.3 |
| Flexible Object Folding | 79.1 | 91.7 | 100 |
| Dexterous Action | 54.2 | 83.3 | 95.8 |
| Average | 67.5 | 85.9 | 96.2 |
4.3 消融研究
组件消融(表4):
- 仅使用基于状态的初始化:97.5%
- 仅使用AVA模块:97.5%
- 两者结合:98.0%(证明两个组件的协同效应)
不同骨干网络(表3):
在OpenVLA-7B、LLaMA2-7B、Qwen2.5-0.5B三种骨干上均取得一致提升(1.4%-2.6%)
4.4 视觉Token剪枝分析
利用AVA模块计算的软权重进行视觉token剪枝:
| 剪枝比例 | 平均成功率 |
|---|---|
| 0% (基线) | 98.0 |
| 50% | 97.3 |
| 60% | 97.3 |
| 70% | 97.3 |
| 80% | 96.0 |
| 90% | 93.9 |
关键发现:即使剪枝70%的视觉token,模型仍保持97.3%的成功率,证明AVA模块有效识别了任务相关的关键视觉信息。
4.5 可视化分析
软权重在"put both moka pots on the stove"任务中的动态变化
可视化显示:
- 注意力权重始终聚焦于机器人手臂的接触区域和物体位置
- 能够根据历史上下文动态调整关注区域
- 有效抑制不相关背景区域的干扰
5. 主要贡献总结
-
理论贡献:首次从POMDP视角显式解决基于MDP的VLA模型缺乏历史上下文的局限性
-
方法创新:提出Active Visual Attention(AVA)模块,利用循环状态动态调节视觉处理,实现"主动视觉感知"
-
SOTA性能:在LIBERO、CALVIN仿真基准和真实机器人任务上均达到最先进的性能
-
效率潜力:通过可视化token剪枝实验,展示了在保持性能的同时降低计算成本的可能性
6. 局限性与未来方向
当前局限:
- 主要关注性能提升,而非推理效率优化
- 循环状态的维度固定,可能限制对复杂长程依赖的建模
未来方向:
- 结合软权重进行动态视觉token剪枝,实现高效推理
- 探索更复杂的循环状态更新机制
- 扩展到更多模态(如触觉、力反馈)的主动注意力机制
7. 结论
AVA-VLA通过引入POMDP启发的循环状态和主动视觉注意力机制,成功解决了现有VLA模型独立处理视觉帧的核心缺陷。该方法使模型能够基于历史信念主动过滤无关信息、关注任务关键特征,在仿真和真实机器人任务中均展现出卓越的性能和鲁棒性。这一工作为构建更具上下文感知能力的机器人学习系统提供了重要的理论基础和实践方案。
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐
所有评论(0)