水下目标检测综述系列(三):小目标与复杂目标检测的挑战
一、为什么小目标检测在水下环境更难?
小目标检测(Small Object Detection)本来就是计算机视觉中的老难题,在水下环境中则更加突出,主要原因有:
-
目标本身体积小:如海胆、海参、扇贝,甚至微型浮游生物。
-
背景干扰强烈:鱼群、珊瑚礁、沉积物,使得小目标与环境“融为一体”。
-
成像分辨率低:受光学退化影响,图像模糊,小目标细节几乎丢失。
-
尺度变化剧烈:从毫米级的贝类到几米长的鱼群或沉船,目标跨度极大。
结果是:
-
模型往往更偏向检测“大目标”;
-
小目标容易 被忽略、被误检、被错误分类。
二、复杂目标带来的额外难题
除了小目标之外,水下环境还存在各种复杂情况:
-
遮挡与重叠(Occlusion & Overlap)
-
鱼群聚集,个体互相遮挡;
-
海草、沉积物挡住部分目标。
-
-
动态场景(Dynamic Scene)
-
鱼类游动频繁;
-
ROV/AUV 移动引起相机抖动。
-
-
类间相似(Inter-class Similarity)
-
多种鱼类外观极为相似,导致分类困难;
-
有些目标和背景颜色接近,形成“伪装”。
-
-
多尺度共存(Multi-scale Co-existence)
-
小目标和大目标同场出现,例如鱼群旁边有船体或珊瑚。
-
这些因素叠加,让水下检测远比陆地目标检测更具挑战性。
三、主流解决方案
为解决小目标与复杂目标检测的难题,学界提出了多种方法,主要集中在 特征增强、注意力机制、多尺度建模和轻量化设计 四个方向。
1. 多尺度特征融合
核心思想:充分利用不同尺度的特征图信息,提升小目标的检测能力。
-
FPN(Feature Pyramid Network)改进:通过上下采样、横向连接,实现多层特征融合。
-
BiFPN(双向特征金字塔):在 Faster R-CNN、YOLOX 中广泛使用,提高多尺度表达能力。
-
SA-FPN(Scale-Aware FPN):引入尺度感知模块,提升跨尺度检测效果。
📌 案例:
-
Xu 等人提出 SA-FPN,结合上下采样与上下文信息,小目标检测效果明显提升。
-
Shi 等人改进 Faster R-CNN:ResNet 替换原始 backbone,增加 BiFPN 模块,显著提升了多尺度检测精度。
2. 注意力机制(Attention Mechanism)
注意力机制帮助模型“聚焦”在目标区域,对小目标尤其有帮助。
-
通道注意力(SE、SENet、CBAM):提升小目标特征权重,弱化背景干扰。
-
空间注意力(SPFA、ERL-Net):增强空间位置敏感性,提高小目标定位准确度。
-
高阶注意力:例如 CEH-YOLO 中的 HDA 模块,用于复杂场景的细粒度特征提取。
📌 案例:
-
YOLOv7-CHS:结合 Contextual Transformer(CT)与高阶空间交互模块(HOSI),提升小目标检测精度。
-
ERL-Net:引入边缘引导注意力,利用边缘特征帮助小目标检测。
3. Transformer与混合模型
Transformer 因其 全局建模能力,在复杂水下场景中特别有优势。
-
DETR(Detection Transformer)改进版:适合检测遮挡、重叠目标。
-
PE-Transformer:局部路径检测 + 点级交互,改善小目标覆盖率。
-
FBDPN(Feature Boosting Differential Pyramid Network):结合 CNN 与 Transformer,兼顾局部与全局特征。
📌 案例:
-
Lin 等人改进 DETR,引入 可学习查询机制 与轻量化适配器,显著增强小目标检测能力。
-
Ji 等人提出 FBDPN,通过差分金字塔结构学习多尺度特征,在小目标检测上超过 YOLOv8。
4. 轻量化与实时检测
在 AUV/ROV 等场景中,检测不仅要准,还要快。
因此,研究者提出了轻量化的小目标检测方案。
-
Ghost 模块 + Attention:减少参数量,提升推理速度。
-
小目标专用检测头:在 YOLOv8-MSS、YOLO11 中加入专门的小目标检测层。
-
端到端优化:增强与检测一体化,避免重复计算。
📌 案例:
-
Zhang 等人优化 YOLOv8,引入 小目标预测头,mAP 提升明显。
-
Wang & Zhao 提出 YOLOv8-MSS,增加 C2f_MLCA 模块,提升抗噪性和小目标鲁棒性。
-
Ding 等人提出 PDSC-YOLOv8n,通过 Ghost/GSConv 轻量化结构,实现检测速度与精度兼顾。
四、综合对比
| 方法类别 | 代表模型 | 优点 | 缺点 | 适用场景 |
|---|---|---|---|---|
| 多尺度特征融合 | FPN、BiFPN、SA-FPN | 跨尺度检测强,适合小目标 | 计算量大,需优化 | 复杂多尺度场景 |
| 注意力机制 | YOLOv7-CHS、ERL-Net | 聚焦目标,抑制背景 | 注意力计算额外开销 | 背景复杂,伪装目标 |
| Transformer改进 | PE-Transformer、FBDPN | 全局建模,适合重叠目标 | 计算开销大 | 遮挡、多目标场景 |
| 轻量化方法 | YOLOv8-MSS、PDSC-YOLOv8n | 快速,实时部署 | 精度略低 | AUV/ROV实时检测 |
五、总结与启示
-
小目标检测是水下检测的核心难点之一,必须结合多尺度特征与注意力机制来提升模型能力。
-
复杂场景检测需要全局建模,Transformer 与混合架构是未来方向。
-
实时性不能忽视,轻量化与端到端优化是工业应用的必备条件。
未来研究趋势:
-
增强与检测联合训练:避免前后分离,提升整体性能。
-
多模态信息引入:结合声呐、激光等数据,弥补视觉不足。
-
自适应检测机制:根据目标大小自动调整特征融合策略。
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐


所有评论(0)