一、论文信息

名称:One Object, Multiple Lies: A Benchmark for Cross-task Adversarial Attack on
Unified Vision-Language Models
作者:Jiale Zhao,Xinyang Jiang(通讯作者),Junyao Gao,Yuhao Xue,Cairong Zhao
机构:Tongji University(同济大学),Microsoft Research Asia(微软亚洲研究院)
会议:ICCV

二、论文摘要

统一视觉-语言模型通过指令控制在共享架构下完成多种视觉与语言任务,但这一特性也带来了新的安全风险,即对抗样本需要在多个不可预测的任务指令下同时保持攻击有效性。本文提出了 CrossVLAD,一个基于 MSCOCO 并结合 GPT-4 辅助标注的跨任务对抗攻击评测基准,用于系统评估统一视觉-语言模型在多任务场景下的对抗鲁棒性。该基准聚焦于目标类别篡改攻击,并提出新的跨任务成功率指标,以衡量对抗样本在多个任务上的一致误导能力。同时,本文提出了 CRAFT 攻击方法,大量实验结果表明,该方法在多个统一视觉-语言模型上显著优于现有方法,验证了其在跨任务对抗攻击中的有效性。

三、研究背景与动机

近年来,统一视觉-语言模型(如 Florence-2、OFA、UnifiedIO-2)通过指令(instruction)控制,在共享模型参数与架构的前提下,能够完成图像描述、目标检测、区域分类、目标定位等多种任务。这种统一建模方式极大提升了模型的通用性和实用价值。
然而,这一特性也引入了新的安全隐患:攻击者无法预知同一张图像在未来会被以何种任务指令处理,因此一个有效的攻击必须在多个任务下同时生效。
现有对抗攻击研究主要集中在:
1.单任务攻击(只在一个任务上评估成功率)
2.多任务攻击(为不同任务分别生成不同对抗样本)

但这些都无法刻画统一 VLM 的真实安全风险。在真实应用中,同一张对抗图像需要在多个任务上同时欺骗模型,这正是本文所定义的跨任务对抗攻击(Cross-task Adversarial Attack)问题。

四、CrossVLAD 基准:任务定义与攻击目标

4.1评测任务定义

CrossVLAD 基准选取了统一 VLM 中最具代表性的四类任务:

1.图像描述(Image Captioning, Tcap):生成整张图像的文本描述

2.目标检测(Object Detection, Tdet):检测并分类图像中所有目标

3.区域分类(Region Categorization, Treg):对给定图像区域进行类别预测

4.目标定位(Object Localization, Tloc):根据给定类别,在图像中定位对应目标

这四个任务覆盖了:

1.全局语义理解(Captioning、Detection)

2.局部空间与语义推理(Region Categorization、Localization)

4.2 Object-change 攻击目标

CrossVLAD 聚焦一种目标类别篡改攻击(Object-change Attack):

给定一张包含源类别 C𝑠 的图像,通过微小扰动,使模型在所有任务中都将该目标错误识别为目标类别 C𝑡
形式化目标为:
max⁡∥δ∥∞≤ϵ∏i∈{cap,det,reg,loc}Si(I+δ,cs,ct)\max_{\|\delta\|_\infty\leq\epsilon}\prod_{i\in\{cap,det,reg,loc\}}S_i(I+\delta,c_s,c_t)δϵmaxi{cap,det,reg,loc}Si(I+δ,cs,ct)
在这里插入图片描述
对图像描述是否成功的判定:
Scap(Iadv,cs,ct)=1[ct∈Cadv∧cs∉Cadv]S_{cap}(I_{adv},c_s,c_t)=1[c_t\in C_{adv}\wedge c_s\notin C_{adv}]Scap(Iadv,cs,ct)=1[ctCadvcs/Cadv]
在这里插入图片描述
对目标检测成功的判定:
Sdet(Iadv,cs,ct)=1[∃(bi,li)∈D(Iadv):IoU(bi,bs)>θbax∧li=ct]S_{det}(I_{adv},c_s,c_t)=1[\exists(b_i,l_i)\in D(I_{adv}):IoU(b_i,b_s)>\theta_{bax}\wedge l_i=c_t]Sdet(Iadv,cs,ct)=1[(bi,li)D(Iadv):IoU(bi,bs)>θbaxli=ct]
在这里插入图片描述
区域分类任务成功的判定:
Sreg(Iadv,cs,ct)=1[lreg=ct]S_{reg}(I_{adv},c_s,c_t)=1[l_{reg}=c_t]Sreg(Iadv,cs,ct)=1[lreg=ct]
在这里插入图片描述
目标定位任务成功的判定:
Sloc(Iadv,cs,ct)=1[IoU(bloc,bs)>θloc]S_{loc}(I_{adv},c_s,c_t)=1[IoU(b_{loc},b_s)>\theta_{loc}]Sloc(Iadv,cs,ct)=1[IoU(bloc,bs)>θloc]
在这里插入图片描述

四任务同时成功率:
CTSR−4=1N∑j=1N∏i∈ISi(Iadvj,csj,ctj)CTSR-4=\frac{1}{N}\sum_{j=1}^N\prod_{i\in I}S_i(I_{adv}^j,c_s^j,c_t^j)CTSR4=N1j=1NiISi(Iadvj,csj,ctj)

五、CrossVLAD 数据集的构建过程(重点)

5.1 数据来源与规模

CrossVLAD 构建自 MSCOCO train2017 数据集,最终包含:

1.3000 张图像

2.79 种类别转换对(change-pairs)

3.覆盖 10 个高层语义类别:
Vehicle
Outdoor
Animal
Accessory
Sports
Kitchen
Food
Furniture
Electronic
Appliance

类别转换示例包括:
bicycle → motorcycle
cat → dog
这些转换均为语义上合理且具有挑战性的目标篡改场景。

5.2 图像筛选规则(严格约束)

作者在 MSCOCO 中筛选样本时,引入了多项严格标准:

1,目标尺寸约束:
目标面积占整张图像的 10%–50%,避免过小或过大的目标

2.目标实例数量限制:
每张图像中目标类别实例数量受限

3.确保目标类别具有唯一性,避免歧义
图像描述一致性校验:

目标类别必须在 5 条原始 MSCOCO captions 中被明确提及

4.排他性约束:
图像中 不能包含目标攻击类别 Ct,防止天然混淆

5.3GPT-4 辅助标注策略

在标注层面,作者采用了人工数据 + GPT-4 辅助生成的混合策略:

1.检测、区域、定位任务:
直接保留 MSCOCO 原始标注

2.图像描述任务(Captioning):
使用 GPT-4 为“目标类别 C𝑡生成新的 ground-truth caption
生成后的文本经过人工规则校验,确保与攻击目标完全一致。

六评测指标设计(Cross-task Metrics)

6.1 单任务成功判定

论文为四个任务分别定义了成功函数:

Captioning:生成文本包含 C𝑡,且不包含 C𝑠
Detection:在源目标位置检测到类别 C𝑡
Region Categorization:给定区域预测为 C𝑡
Localization:预测的 C𝑡框与原目标框 IoU 超过阈值

6.2跨任务成功率(核心创新)

作者提出了两个全新指标:

1.CTSR-4(Cross-Task Success Rate-4):

同时欺骗 4 个任务 的样本比例

2.CTSR-3(Cross-Task Success Rate-3):

至少欺骗 3 个任务 的样本比例

这两个指标首次从单一样本、多任务一致失败的角度,衡量统一 VLM 的真实安全风险。

七、实验

方法与测试基准概述图:
在这里插入图片描述
在这里插入图片描述
CRAFT 攻击定性效果示例:
在这里插入图片描述
多模型间的性能对比:
在这里插入图片描述
在这里插入图片描述

语言类别转化热力图:
在这里插入图片描述

量化验证 CRAFT 对 “统一 VL 模型的跨任务攻击优势”,呼应论文核心假设:传统攻击未利用统一表征空间,而 CRAFT 实现特征对齐后的跨任务迁移。

对抗扰动可视化对比:在这里插入图片描述
从视觉层面验证 CRAFT 的高效性:扰动仅作用于语义关键区域,既降低计算成本,又提升攻击的隐蔽性。
在这里插入图片描述

为 CRAFT 方法的工程实现提供超参数选择依据,确保实验的可复现性。

八、总结

实验结果表明:统一表示空间在提升模型通用性的同时,也放大了系统性安全风险。该工作为未来统一 VLM 的安全防御研究提供了重要基准与参考。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐