题目:DPNet: Dynamic Pooling Network for Tiny ObjectDetection

论文地址:https://arxiv.org/abs/2505.02797

创新点

  • DPNet引入了一个动态下采样因子(df),将传统的固定下采样过程改为可调节的灵活下采样策略。通过动态调整特征图的分辨率,DPNet能够在输入图像上实现自适应的下采样,从而在检测精度和计算效率之间取得平衡。

  • DPNet是首次尝试将动态神经网络的思想引入目标检测领域,通过动态调整网络的输入特征图分辨率,实现计算资源的动态分配,解决了传统静态网络在小目标检测任务中的计算冗余问题。

  • DFP能够根据输入图像的特征,预测最适合的下采样因子(df),从而动态调整特征图的分辨率。这种自适应机制使得DPNet能够在不同输入图像上选择最优的计算路径,减少不必要的计算开销。

方法

本文的主要研究方法是提出了一种名为动态池化网络(DPNet)的新型网络架构,用于提高小目标检测的效率和准确性。DPNet的核心思想是通过动态调整特征图的分辨率来平衡检测精度和计算效率。具体而言,DPNet引入了一个可调节的下采样因子(df),并设计了一个轻量级的下采样因子预测器(DFP)来预测每个输入图像的最佳下采样因子。该预测器能够根据输入图像的特征动态选择合适的分辨率,从而减少不必要的计算开销。同时,为了使网络能够适应不同下采样因子下的特征图,本文设计了自适应归一化模块(ANM),通过为每个下采样因子配置独立的归一化层,解决了混合尺度训练中特征图分布差异的问题。此外,为了更好地监督DFP的训练,本文还设计了指导损失(Guidance Loss),通过计算不同下采样因子下的检测性能损失,为DFP提供监督信号,使其能够学习到如何根据输入图像的特征选择最优的下采样因子。

小目标通过放大图像更好地被检测

本图展示了通过放大图像可以更好地检测小目标的效果。图中绿色框表示在原始图像和放大图像上都能正确检测到的目标,而红色框表示只有在放大图像上才能正确检测到的目标。这说明适当放大图像可以显著提高小目标的检测性能,但也带来了计算成本增加、负样本增多和冗余等问题。

放大图像对不同尺度目标的性能提升

本图统计了在不同放大倍数(1x、2x、4x、8x)下,能够被检测到的目标数量。图中橙色部分表示在原始图像和放大图像上都能被检测到的目标,蓝色部分表示只有在放大图像上才能被检测到的目标。从图中可以看出,放大图像对小目标的性能提升最为显著,而对于中等和大目标,盲目放大图像并不能提升性能,反而造成了计算冗余。

DPNet框架

本图展示了DPNet的整体架构。DPNet主要由一个基于CNN的检测器(如RepPoints)和一个插件式的DFP组成。DFP嵌入到检测器的主干网络中,用于指导每个阶段的下采样因子df的选择。在特征图通过df缩放后,检测器中的所有归一化层都被替换为ANM,ANM会根据特征图的df切换到对应的归一化层。图中的蓝色立方体表示主干网络的各个阶段,橙色部分表示DFP,紫色部分表示检测器的颈部和头部。

实验

本表展示了在不同训练方法和下采样因子(df)设置下,检测器在 TinyCOCO 数据集上的性能对比。表中比较了三种不同的训练策略:仅使用单一 df(SF,固定 df=0.5)训练、混合多 df(MF)训练以及混合多 df 加自适应归一化模块(ANM)训练。从表中可以看出,仅使用单一 df 训练时,检测器在其他 df 下性能大幅下降,这表明 ANM 有效地解决了不同 df 下特征分布不一致的问题,使得模型能够在多种 df 下保持良好的检测性能。通过这些对比,表 I 明确地展示了 ANM 在混合多 df 训练中的重要性,以及其对提升模型在不同分辨率输入下的适应性和检测性能的关键作用。

最后对微小目标检测感兴趣的可以找小助手免费领取学习资料包

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐