点击蓝字

关注我们

关注并星标

从此不迷路

计算机视觉研究院

公众号ID计算机视觉研究院

学习群扫码在主页获取加入方式

https://pmc.ncbi.nlm.nih.gov/articles/PMC12480592/pdf/41598_2025_Article_19145.pdf

计算机视觉研究院专栏

Column of Computer Vision Institute

本文以YOLO11为基线,提出YOLO-UD检测网络:通过多粒度上下文增强(C3kHR)+ 高效自适应特征融合(EAFN)+ 专用小目标检测层(SMDL)+ 轻量化下采样(ADown),实现面向无人机场景的高精度 + 实时性 + 强鲁棒性目标检测,为工程落地提供有效方案。

PART/1

    背景与挑战   

无人机航拍目标检测面临三大核心瓶颈:

  1. 目标尺度分布极端不均:图像中存在大量占比小于 10×10 像素的小目标,常规下采样过程中特征易丢失。
  2. 复杂背景与遮挡干扰:城市、郊区等场景背景冗余信息多,目标间相互遮挡严重,导致特征区分度低。
  3. 端侧部署约束:无人机平台算力有限,要求模型在保证精度的同时,具备实时推理能力。

现有 YOLO 系列模型直接迁移至航拍场景时,普遍存在小目标漏检率高、多尺度特征融合效率低、参数量与推理速度难以平衡的问题。为此,本文提出 YOLO-UD 模型,针对性解决上述痛点。

PART/2

     模型核心改进与架构设计   

1. 整体架构

基于 YOLO11 的轻量级基线网络进行改造,主要包含C3kHR 上下文增强模块EAFN 自适应特征融合网络SMDL 小目标检测层ADown 轻量化下采样模块四大核心组件。

【 YOLO-UD 整体架构图】

2. C3kHR 上下文增强模块

针对小目标特征弱、上下文信息利用不足的问题,设计多分支空洞卷积残差结构:

  • 通过不同膨胀率的空洞卷积,构建分层感受野,捕获多粒度上下文信息;

  • 残差连接避免梯度消失,增强模型对尺度变化的鲁棒性;

  • 早期阶段即扩大感受野,有效保留小目标细节特征。

    【C3kHR 模块结构图】

3. EAFN 高效自适应特征融合网络

改进传统 FPN 的单向逐层传递模式,构建跨层直接融合机制:

  • 引入空间与通道双重注意力机制,抑制背景噪声,强化目标特征权重;

  • 多尺度特征并行交互,避免信息稀释,提升特征融合效率;

  • 实现浅层细节信息与深层语义信息的高效互补。

    【 EAFN 网络结构图】

4. SMDL 小目标检测层

新增高分辨率特征检测分支,专门处理小目标:

  • 补充浅层高分辨率特征,缓解下采样导致的小目标特征丢失;

  • 针对行人、非机动车等典型小目标,优化锚框分布与损失函数权重;

  • 显著降低小目标漏检率,提升整体检测精度。

5. ADown 轻量化下采样模块

替换常规卷积下采样操作,在不显著损失精度的前提下实现模型轻量化:

  • 通过非对称卷积与池化的组合,减少参数量与计算量;

  • 降低模型复杂度,提升端侧推理速度;

  • 参数量较基线模型降低约 20%,推理延迟显著下降。

PART/3

     实验结果与性能分析    

1. 实验设置

  • 数据集:VisDrone2019、UAVDT(无人机目标检测标准基准数据集)
  • 硬件平台:训练端 RTX 3090;部署端 Jetson Orin NX
  • 对比基线:YOLO11/12、YOLOv8/9/10、YOLOX、LUDY 等主流模型

2. 定量结果

VisDrone2019 数据集
  • YOLO-UD-n:mAP@0.5 为 39.5%,较 YOLO11n 提升 5.9 个百分点;

  • YOLO-UD-s:mAP@0.5 为 45.5%,性能全面超越 YOLOv12s、LUDY-s 等模型;

  • 端侧部署:单帧推理延迟 24.6ms,帧率达 40.7 FPS,满足实时检测要求。

  • 【主流算法对比表】

    【嵌入式平台推理速度对比表】

UAVDT 数据集
  • YOLO-UD-s:mAP@0.5 达 90.6%,在所有对比模型中排名第一;

  • 精度、召回率及各类别 AP 指标均刷新当前最优水平。

【UAVDT 数据集对比表】

【多指标柱状对比图】

3. 定性结果

可视化结果表明,YOLO-UD 在以下场景中表现优异:

  • 密集小目标场景:有效抑制漏检与误检;

  • 低光照、强遮挡场景:目标特征鲁棒性强,检出率稳定;

  • 远距离小目标:细节特征保留完整,定位精度高。

    【检测效果对比图】

    【注意力热力图】

4. 消融实验

在 VisDrone2019 数据集上,对各模块的贡献度进行验证:

  • SMDL 小目标检测层:mAP@0.5 提升 2.4 个百分点;

  • C3kHR 上下文增强模块:有效提升模型对多尺度目标的适应能力;

  • EAFN 自适应特征融合网络:显著提升特征利用效率;

  • ADown 轻量化下采样模块:在保持精度的同时降低模型复杂度。各模块组合后,整体 mAP@0.5 较基线模型提升 6.5 个百分点,验证了改进的有效性。

【消融实验结果表】

【模块贡献可视化图】


PART/4

     总结与展望   

1. 核心结论

YOLO-UD 模型通过上下文增强、自适应特征融合、小目标专项检测与轻量化设计,在无人机图像目标检测任务中实现了精度与速度的双重突破

  • 显著提升小目标检测性能,复杂场景鲁棒性强;

  • 端侧推理速度满足实时要求,具备良好的部署可行性;

  • 在 VisDrone2019、UAVDT 两大基准数据集上均取得领先性能。

2. 未来展望

  • 进一步优化注意力机制,提升背景噪声抑制能力;

  • 结合模型剪枝、知识蒸馏等技术,实现更极致的轻量化;

  • 拓展至多光谱、红外等多模态无人机数据,提升极端场景检测性能。


有相关需求的你可以联系我们!

END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入!

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域,主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架,提供论文一键下载,并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!


往期推荐 

🔗

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐