一、为什么小目标检测在水下环境更难?

小目标检测(Small Object Detection)本来就是计算机视觉中的老难题,在水下环境中则更加突出,主要原因有:

  1. 目标本身体积小:如海胆、海参、扇贝,甚至微型浮游生物。

  2. 背景干扰强烈:鱼群、珊瑚礁、沉积物,使得小目标与环境“融为一体”。

  3. 成像分辨率低:受光学退化影响,图像模糊,小目标细节几乎丢失。

  4. 尺度变化剧烈:从毫米级的贝类到几米长的鱼群或沉船,目标跨度极大。

结果是:

  • 模型往往更偏向检测“大目标”;

  • 小目标容易 被忽略、被误检、被错误分类


二、复杂目标带来的额外难题

除了小目标之外,水下环境还存在各种复杂情况:

  1. 遮挡与重叠(Occlusion & Overlap)

    • 鱼群聚集,个体互相遮挡;

    • 海草、沉积物挡住部分目标。

  2. 动态场景(Dynamic Scene)

    • 鱼类游动频繁;

    • ROV/AUV 移动引起相机抖动。

  3. 类间相似(Inter-class Similarity)

    • 多种鱼类外观极为相似,导致分类困难;

    • 有些目标和背景颜色接近,形成“伪装”。

  4. 多尺度共存(Multi-scale Co-existence)

    • 小目标和大目标同场出现,例如鱼群旁边有船体或珊瑚。

这些因素叠加,让水下检测远比陆地目标检测更具挑战性。


三、主流解决方案

为解决小目标与复杂目标检测的难题,学界提出了多种方法,主要集中在 特征增强、注意力机制、多尺度建模和轻量化设计 四个方向。


1. 多尺度特征融合

核心思想:充分利用不同尺度的特征图信息,提升小目标的检测能力。

  • FPN(Feature Pyramid Network)改进:通过上下采样、横向连接,实现多层特征融合。

  • BiFPN(双向特征金字塔):在 Faster R-CNN、YOLOX 中广泛使用,提高多尺度表达能力。

  • SA-FPN(Scale-Aware FPN):引入尺度感知模块,提升跨尺度检测效果。

📌 案例

  • Xu 等人提出 SA-FPN,结合上下采样与上下文信息,小目标检测效果明显提升。

  • Shi 等人改进 Faster R-CNN:ResNet 替换原始 backbone,增加 BiFPN 模块,显著提升了多尺度检测精度。


2. 注意力机制(Attention Mechanism)

注意力机制帮助模型“聚焦”在目标区域,对小目标尤其有帮助。

  • 通道注意力(SE、SENet、CBAM):提升小目标特征权重,弱化背景干扰。

  • 空间注意力(SPFA、ERL-Net):增强空间位置敏感性,提高小目标定位准确度。

  • 高阶注意力:例如 CEH-YOLO 中的 HDA 模块,用于复杂场景的细粒度特征提取。

📌 案例

  • YOLOv7-CHS:结合 Contextual Transformer(CT)与高阶空间交互模块(HOSI),提升小目标检测精度。

  • ERL-Net:引入边缘引导注意力,利用边缘特征帮助小目标检测。


3. Transformer与混合模型

Transformer 因其 全局建模能力,在复杂水下场景中特别有优势。

  • DETR(Detection Transformer)改进版:适合检测遮挡、重叠目标。

  • PE-Transformer:局部路径检测 + 点级交互,改善小目标覆盖率。

  • FBDPN(Feature Boosting Differential Pyramid Network):结合 CNN 与 Transformer,兼顾局部与全局特征。

📌 案例

  • Lin 等人改进 DETR,引入 可学习查询机制 与轻量化适配器,显著增强小目标检测能力。

  • Ji 等人提出 FBDPN,通过差分金字塔结构学习多尺度特征,在小目标检测上超过 YOLOv8。


4. 轻量化与实时检测

在 AUV/ROV 等场景中,检测不仅要准,还要快。
因此,研究者提出了轻量化的小目标检测方案。

  • Ghost 模块 + Attention:减少参数量,提升推理速度。

  • 小目标专用检测头:在 YOLOv8-MSS、YOLO11 中加入专门的小目标检测层。

  • 端到端优化:增强与检测一体化,避免重复计算。

📌 案例

  • Zhang 等人优化 YOLOv8,引入 小目标预测头,mAP 提升明显。

  • Wang & Zhao 提出 YOLOv8-MSS,增加 C2f_MLCA 模块,提升抗噪性和小目标鲁棒性。

  • Ding 等人提出 PDSC-YOLOv8n,通过 Ghost/GSConv 轻量化结构,实现检测速度与精度兼顾。


四、综合对比

方法类别 代表模型 优点 缺点 适用场景
多尺度特征融合 FPN、BiFPN、SA-FPN 跨尺度检测强,适合小目标 计算量大,需优化 复杂多尺度场景
注意力机制 YOLOv7-CHS、ERL-Net 聚焦目标,抑制背景 注意力计算额外开销 背景复杂,伪装目标
Transformer改进 PE-Transformer、FBDPN 全局建模,适合重叠目标 计算开销大 遮挡、多目标场景
轻量化方法 YOLOv8-MSS、PDSC-YOLOv8n 快速,实时部署 精度略低 AUV/ROV实时检测

五、总结与启示

  • 小目标检测是水下检测的核心难点之一,必须结合多尺度特征与注意力机制来提升模型能力。

  • 复杂场景检测需要全局建模,Transformer 与混合架构是未来方向。

  • 实时性不能忽视,轻量化与端到端优化是工业应用的必备条件。

未来研究趋势:

  1. 增强与检测联合训练:避免前后分离,提升整体性能。

  2. 多模态信息引入:结合声呐、激光等数据,弥补视觉不足。

  3. 自适应检测机制:根据目标大小自动调整特征融合策略。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐