达摩院CVPR’25｜最高 91% 的视觉标记裁剪率！优化视觉语言模型推理的创新方法

DAMO开发者矩阵

42人浏览 · 2025-11-29 11:00:42

DAMO开发者矩阵 · 2025-11-29 11:00:42 发布

作者｜赵望博阿里巴巴达摩院实习生

【CVPR 2025预讲会】系列内容

CVPR 2025预讲会系列文章来源于 DAMO 开发者矩阵与 AI Time 联合举办 CVPR 2025预讲会整理成稿，旨在帮助大家率先了解计算机视觉领域的最新研究方向和成果。

摘要

视觉语言模型（VLMs）在多模态任务中表现出色，但大型VLM在处理大量视觉token时面临效率挑战。为加速推理，我们提出Small VLM Guidance for accelerating Large VLMs (SGL)。

首先，我们通过观察发现，小型VLM的全局注意力图与大型VLM高度相似，使用小型VLM的全局注意力图指导大模型进行视觉标记裁剪，可以充分保留关键信息，用于引导视觉token剪枝既能显著减少计算量，又能保持高性能。此外，我们还引入了早退机制，仅在必要时调用大模型，进一步优化准确性与计算成本的平衡。在11个基准测试中，SGL方法实现了最高91%的视觉标记裁剪率，同时保持了竞争性的性能表现。

代码仓库：https://github.com/NUS-HPC-AI-Lab/SGL

论文背景与研究动机

随着计算机视觉（CV）和自然语言处理（NLP）的快速发展，视觉语言模型（Vision-Language Models, VLMs）在多模态任务中展现了显著的性能提升。然而，随着模型规模的增大，大型VLMs在推理阶段面临着巨大的计算开销，特别是由于视觉token的处理带来了显著的效率瓶颈。

为了缓解这一问题，近年来的研究提出了多种视觉token压缩方法，例如token合并和剪枝。然而，现有方法通常使用局部信息，例如基于单层注意力图进行token重要性评估的方法（如FastV），在低token保留比例时难以维持模型性能。但同时我们发现，如果使用全局信息，例如全层聚合的注意力图能够更准确地识别重要的视觉token，但需要完整的推理过程，无法实现加速推理的目的。

但在本研究中，我们发现小型VLM的全局注意力图与大型VLM的全局注意力图具有高度相似性，这为利用小模型指导大模型优化提供了可能。

基于上述发现，我们提出了Small VLM Guidance for accelerating Large VLMs (SGL)。具体地，我们首先设计了一种基于小型VLM全局注意力图的视觉token剪枝方法（Small VLM-Guided Pruning, SGP），无需额外训练即可在大型VLM中高效剪枝。

另外，我们还发现大小VLM的在各个数据集上的性能差距相比于计算量差距更加微小，这说明在很多情况下小VLM依然可以胜任预测任务，这启发我们设计了一种早退出机制（Small VLM Early Exiting, SEE），可以在小VLM对回答置信度较高时可以避免激活大VLM，进一步优化推理效率。

技术方法

该论文的技术方法包括两个核心组件：Small VLM-Guided Pruning (SGP) 和 Small VLM Early Exiting (SEE)。

Small VLM-Guided Pruning (SGP)

SGP的核心思想是利用小型VLM的全局注意力图，来指导大型VLM的视觉token剪枝，主要分为两步：

全局注意力图的生成，小型VLM通过其所有层的注意力图聚合，生成一个全局注意力图，用于评估每个视觉token的重要性。在预填充阶段（pre-filling stage），从每一层的注意力头中提取视觉token与文本token的交互权重。在解码阶段（decoding stage），聚合生成token与视觉token的交互权重。
最终将预填充阶段和解码阶段的注意力信息相加，形成完整的全局注意力图。全局注意力图中的重要性评分用于对视觉token排序，并根据保留比例（如5%、9%等）剪除不重要的token。

2. Small VLM Early Exiting (SEE) SEE的目标是通过早退出机制减少大型VLM的调用次数, 主要分为三步：