水下目标检测综述系列（三）：小目标与复杂目标检测的挑战

张克飞412

973人浏览 · 2025-09-19 08:00:00

张克飞412 · 2025-09-19 08:00:00 发布

一、为什么小目标检测在水下环境更难？

小目标检测（Small Object Detection）本来就是计算机视觉中的老难题，在水下环境中则更加突出，主要原因有：

目标本身体积小：如海胆、海参、扇贝，甚至微型浮游生物。
背景干扰强烈：鱼群、珊瑚礁、沉积物，使得小目标与环境“融为一体”。
成像分辨率低：受光学退化影响，图像模糊，小目标细节几乎丢失。
尺度变化剧烈：从毫米级的贝类到几米长的鱼群或沉船，目标跨度极大。

结果是：

模型往往更偏向检测“大目标”；
小目标容易 被忽略、被误检、被错误分类。

二、复杂目标带来的额外难题

除了小目标之外，水下环境还存在各种复杂情况：

遮挡与重叠（Occlusion & Overlap）
- 鱼群聚集，个体互相遮挡；
- 海草、沉积物挡住部分目标。
动态场景（Dynamic Scene）
- 鱼类游动频繁；
- ROV/AUV 移动引起相机抖动。
类间相似（Inter-class Similarity）
- 多种鱼类外观极为相似，导致分类困难；
- 有些目标和背景颜色接近，形成“伪装”。
多尺度共存（Multi-scale Co-existence）
- 小目标和大目标同场出现，例如鱼群旁边有船体或珊瑚。

这些因素叠加，让水下检测远比陆地目标检测更具挑战性。

三、主流解决方案

为解决小目标与复杂目标检测的难题，学界提出了多种方法，主要集中在 特征增强、注意力机制、多尺度建模和轻量化设计 四个方向。

1. 多尺度特征融合

核心思想：充分利用不同尺度的特征图信息，提升小目标的检测能力。

FPN（Feature Pyramid Network）改进：通过上下采样、横向连接，实现多层特征融合。
BiFPN（双向特征金字塔）：在 Faster R-CNN、YOLOX 中广泛使用，提高多尺度表达能力。
SA-FPN（Scale-Aware FPN）：引入尺度感知模块，提升跨尺度检测效果。

📌 案例：

Xu 等人提出 SA-FPN，结合上下采样与上下文信息，小目标检测效果明显提升。
Shi 等人改进 Faster R-CNN：ResNet 替换原始 backbone，增加 BiFPN 模块，显著提升了多尺度检测精度。

2. 注意力机制（Attention Mechanism）

注意力机制帮助模型“聚焦”在目标区域，对小目标尤其有帮助。

通道注意力（SE、SENet、CBAM）：提升小目标特征权重，弱化背景干扰。
空间注意力（SPFA、ERL-Net）：增强空间位置敏感性，提高小目标定位准确度。
高阶注意力：例如 CEH-YOLO 中的 HDA 模块，用于复杂场景的细粒度特征提取。

📌 案例：

YOLOv7-CHS：结合 Contextual Transformer（CT）与高阶空间交互模块（HOSI），提升小目标检测精度。
ERL-Net：引入边缘引导注意力，利用边缘特征帮助小目标检测。

3. Transformer与混合模型

Transformer 因其 全局建模能力，在复杂水下场景中特别有优势。

DETR（Detection Transformer）改进版：适合检测遮挡、重叠目标。
PE-Transformer：局部路径检测 + 点级交互，改善小目标覆盖率。
FBDPN（Feature Boosting Differential Pyramid Network）：结合 CNN 与 Transformer，兼顾局部与全局特征。

📌 案例：

Lin 等人改进 DETR，引入 可学习查询机制 与轻量化适配器，显著增强小目标检测能力。
Ji 等人提出 FBDPN，通过差分金字塔结构学习多尺度特征，在小目标检测上超过 YOLOv8。

4. 轻量化与实时检测

在 AUV/ROV 等场景中，检测不仅要准，还要快。
因此，研究者提出了轻量化的小目标检测方案。

Ghost 模块 + Attention：减少参数量，提升推理速度。
小目标专用检测头：在 YOLOv8-MSS、YOLO11 中加入专门的小目标检测层。
端到端优化：增强与检测一体化，避免重复计算。

📌 案例：

Zhang 等人优化 YOLOv8，引入 小目标预测头，mAP 提升明显。
Wang & Zhao 提出 YOLOv8-MSS，增加 C2f_MLCA 模块，提升抗噪性和小目标鲁棒性。
Ding 等人提出 PDSC-YOLOv8n，通过 Ghost/GSConv 轻量化结构，实现检测速度与精度兼顾。

四、综合对比

方法类别	代表模型	优点	缺点	适用场景
多尺度特征融合	FPN、BiFPN、SA-FPN	跨尺度检测强，适合小目标	计算量大，需优化	复杂多尺度场景
注意力机制	YOLOv7-CHS、ERL-Net	聚焦目标，抑制背景	注意力计算额外开销	背景复杂，伪装目标
Transformer改进	PE-Transformer、FBDPN	全局建模，适合重叠目标	计算开销大	遮挡、多目标场景
轻量化方法	YOLOv8-MSS、PDSC-YOLOv8n	快速，实时部署	精度略低	AUV/ROV实时检测

五、总结与启示

小目标检测是水下检测的核心难点之一，必须结合多尺度特征与注意力机制来提升模型能力。
复杂场景检测需要全局建模，Transformer 与混合架构是未来方向。
实时性不能忽视，轻量化与端到端优化是工业应用的必备条件。

未来研究趋势：

增强与检测联合训练：避免前后分离，提升整体性能。
多模态信息引入：结合声呐、激光等数据，弥补视觉不足。
自适应检测机制：根据目标大小自动调整特征融合策略。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

一文吃透LangChain核心概念与完整生态体系

随着大模型技术快速迭代，单纯调用模型API的开发方式早已无法满足企业级需求。原生大模型存在无长期记忆、无法对接外部数据、不能自主调用工具、流程不可控、无法溯源调试等痛点，很难落地复杂业务场景，比如智能知识库、自动化办公Agent、多轮对话机器人、智能数据分析等。而LangChain的出现，完美解决了大模型应用落地的核心难题。截至2026年，LangChain GitHub星标超9万，月下载量数百万