CVPR 2023解读 | Semi-DETR:基于检测Transformer的半监督目标检测新范式

近年来,DETR系列模型凭借Transformer的全局建模能力,在目标检测任务中掀起了变革,但传统DETR依赖大量标注数据的问题较为突出。而这篇论文提出的Semi-DETR,创新性地将半监督学习与检测Transformer结合,有效降低了模型对标注数据的依赖,在多个数据集上取得了优异性能。下面从研究背景、核心创新、方法细节、实验结果和总结展望几个方面,解读一下这项新技术。

一、研究背景:为什么需要半监督检测Transformer?

以DETR为代表的检测Transformer模型,通过“查询-匹配”机制替代了传统锚框,简化了检测流程,且在复杂场景下的检测性能更优。但现有SSOD方法大多基于锚框模型设计,若直接迁移到DETR架构中会面临许多问题:

  • 全监督检测 Transformer过于依赖数据
    DTER需要海量的标注数据–每一张图都需要精准的标注且数量巨大。成本很高。此外,数据集的获取有时并不充足且时间较为紧迫,那么训练效果会很差。
  • 特征对齐不足
    标注与未标注数据的特征分布存在差异,DETR的全局特征建模需要更精细的对齐策略才能充分利用未标注数据的信息。
    基于此,提出了Semi-DETR,设计了半监督训练框架,实现了标注数据效率的大幅提升。

二、三大核心创新点

本文围绕DETR的“无锚框、多尺度、编码-解码”特点,设计了三个关键模块,形成一套闭环方案。

  1. 适配 DETR 的 “伪标签生成 + 过滤” 机制
    传统半监督的伪标签(模型猜的标签)容易有错误,且没法直接对接 DETR 的 “无锚框” 结构。Semi-DETR提出了自适应筛选策略:
    • 置信度过滤:先用少量标注数据训练出一个“教师模型”,用它进行预测时,只保留置信度大于阈值的结果并作为伪标签。此举可以从源头减少模型的预测错误。
    • 原生适配代码逻辑:DETR的解码模块是直接输出物体框和类别,伪标签也是这样的格式,这样无需做任何其他的转化就可以贴合DETR的结构。
  2. 跨尺度一致性训练
    DETR的特性之一是:会用多尺度特征图做检测,然而传统的一致性训练都只是对一张图片做改动,并没有使用这个特性Semi-DETR提出“跨尺度一致性训练”,核心逻辑是:同一物体,不管缩放多大,都该被认出来。
    • 对一张无标注图,先生成多个“尺度变体”
    • 让模型对这些变体图做检测,统计不同尺度下同一物体的结果差异
    • 通过训练,使模型得以忽略大小差异,学习物体的本质特征。这样就可以明显提高模型对小物体或远处物体的检测效率。
  3. 双向匹配自训练框架
    如果模型一开始生成了错误伪标签,后续训练会不断强化这个错误,导致模型越训越偏。针对传统“学生-教师”模型的此问题,Semi-DETR设计了“双向反馈”的自训练框架:
    • 教师模型:作用是生成高质量伪标签。用EMA更新参数保持稳定。
    • 学生模型:学习教师的伪标签+标注过的数据。且学生模型的参数会反过来更新教师模型。
      这样一来,教师和学生就形成了“互相校正”的关系:教师给学生高质量指导,学生在训练中发现的新特征又会反馈给教师,让教师模型的伪标签越来越准,避免错误累积。

三、实验效果

论文在COCO和VOC两大主流数据集上进行了充分实验,验证了Semi-DETR的有效性。
  1. 消融实验:关键模块的贡献
    消融实验的目的是验证“去掉某个模块后,效果会不会下降”,从而证明每个创新点的价值。实验用10%的COCO标注数据训练,结果如下:
  • 基础版DETR(只用10%标注):mAP=31.2

  • +伪标签生成:mAP=35.8(涨4.6)

  • +伪标签+跨尺度一致性:mAP=37.5(再涨1.7)

  • +全套方案(伪标签+一致性+双向自训练):mAP=39.1(再涨1.6)
    全监督DETR(用100%标注)的mAP是40.3,也就是说,Semi-DETR用10%的标注数据,就做到了全监督97%的效果——这个提升非常显著。

  1. 可视化结果
  • 在小物体、遮挡物体的场景下,Semi-DETR的检测效果明显优于基础版DETR。
  • 在复杂背景下,Semi-DETR的类别预测错误率更低,体现了域不变特征的优势。

四、总结与展望

  1. Semi-DETR设计了端到端的半监督训练框架,通过上文所提到的三大创新点,有效解决了传统SSOD方法在DETR上的适配问题,为半监督目标检测提供了新的研究思路。
  2. 此论文的落地场景非常明确;
    工业质检、安防监控、小众物体检测、医疗影像等领域。
Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐