精度碾压 YOLO11!YOLO-UD:上下文增强 + 自适应融合,无人机小目标检测新标杆
点击蓝字
关注我们
关注并星标
从此不迷路
计算机视觉研究院


公众号ID|计算机视觉研究院
学习群|扫码在主页获取加入方式
https://pmc.ncbi.nlm.nih.gov/articles/PMC12480592/pdf/41598_2025_Article_19145.pdf
计算机视觉研究院专栏
Column of Computer Vision Institute
本文以YOLO11为基线,提出YOLO-UD检测网络:通过多粒度上下文增强(C3kHR)+ 高效自适应特征融合(EAFN)+ 专用小目标检测层(SMDL)+ 轻量化下采样(ADown),实现面向无人机场景的高精度 + 实时性 + 强鲁棒性目标检测,为工程落地提供有效方案。

PART/1
背景与挑战
无人机航拍目标检测面临三大核心瓶颈:
- 目标尺度分布极端不均:图像中存在大量占比小于 10×10 像素的小目标,常规下采样过程中特征易丢失。
- 复杂背景与遮挡干扰:城市、郊区等场景背景冗余信息多,目标间相互遮挡严重,导致特征区分度低。
- 端侧部署约束:无人机平台算力有限,要求模型在保证精度的同时,具备实时推理能力。
现有 YOLO 系列模型直接迁移至航拍场景时,普遍存在小目标漏检率高、多尺度特征融合效率低、参数量与推理速度难以平衡的问题。为此,本文提出 YOLO-UD 模型,针对性解决上述痛点。
PART/2
模型核心改进与架构设计
1. 整体架构
基于 YOLO11 的轻量级基线网络进行改造,主要包含C3kHR 上下文增强模块、EAFN 自适应特征融合网络、SMDL 小目标检测层与ADown 轻量化下采样模块四大核心组件。

【 YOLO-UD 整体架构图】
2. C3kHR 上下文增强模块
针对小目标特征弱、上下文信息利用不足的问题,设计多分支空洞卷积残差结构:
-
通过不同膨胀率的空洞卷积,构建分层感受野,捕获多粒度上下文信息;
-
残差连接避免梯度消失,增强模型对尺度变化的鲁棒性;
-
早期阶段即扩大感受野,有效保留小目标细节特征。

【C3kHR 模块结构图】
3. EAFN 高效自适应特征融合网络
改进传统 FPN 的单向逐层传递模式,构建跨层直接融合机制:
-
引入空间与通道双重注意力机制,抑制背景噪声,强化目标特征权重;
-
多尺度特征并行交互,避免信息稀释,提升特征融合效率;
-
实现浅层细节信息与深层语义信息的高效互补。

【 EAFN 网络结构图】
4. SMDL 小目标检测层
新增高分辨率特征检测分支,专门处理小目标:
-
补充浅层高分辨率特征,缓解下采样导致的小目标特征丢失;
-
针对行人、非机动车等典型小目标,优化锚框分布与损失函数权重;
-
显著降低小目标漏检率,提升整体检测精度。
5. ADown 轻量化下采样模块
替换常规卷积下采样操作,在不显著损失精度的前提下实现模型轻量化:
-
通过非对称卷积与池化的组合,减少参数量与计算量;
-
降低模型复杂度,提升端侧推理速度;
-
参数量较基线模型降低约 20%,推理延迟显著下降。
PART/3
实验结果与性能分析
1. 实验设置
- 数据集:VisDrone2019、UAVDT(无人机目标检测标准基准数据集)
- 硬件平台:训练端 RTX 3090;部署端 Jetson Orin NX
- 对比基线:YOLO11/12、YOLOv8/9/10、YOLOX、LUDY 等主流模型
2. 定量结果
VisDrone2019 数据集
-
YOLO-UD-n:mAP@0.5 为 39.5%,较 YOLO11n 提升 5.9 个百分点;
-
YOLO-UD-s:mAP@0.5 为 45.5%,性能全面超越 YOLOv12s、LUDY-s 等模型;
-
端侧部署:单帧推理延迟 24.6ms,帧率达 40.7 FPS,满足实时检测要求。
-

【主流算法对比表】

【嵌入式平台推理速度对比表】
UAVDT 数据集
-
YOLO-UD-s:mAP@0.5 达 90.6%,在所有对比模型中排名第一;
-
精度、召回率及各类别 AP 指标均刷新当前最优水平。

【UAVDT 数据集对比表】

【多指标柱状对比图】
3. 定性结果
可视化结果表明,YOLO-UD 在以下场景中表现优异:
-
密集小目标场景:有效抑制漏检与误检;
-
低光照、强遮挡场景:目标特征鲁棒性强,检出率稳定;
-
远距离小目标:细节特征保留完整,定位精度高。


【检测效果对比图】

【注意力热力图】
4. 消融实验
在 VisDrone2019 数据集上,对各模块的贡献度进行验证:
-
SMDL 小目标检测层:mAP@0.5 提升 2.4 个百分点;
-
C3kHR 上下文增强模块:有效提升模型对多尺度目标的适应能力;
-
EAFN 自适应特征融合网络:显著提升特征利用效率;
-
ADown 轻量化下采样模块:在保持精度的同时降低模型复杂度。各模块组合后,整体 mAP@0.5 较基线模型提升 6.5 个百分点,验证了改进的有效性。

【消融实验结果表】

【模块贡献可视化图】
PART/4
总结与展望
1. 核心结论
YOLO-UD 模型通过上下文增强、自适应特征融合、小目标专项检测与轻量化设计,在无人机图像目标检测任务中实现了精度与速度的双重突破:
-
显著提升小目标检测性能,复杂场景鲁棒性强;
-
端侧推理速度满足实时要求,具备良好的部署可行性;
-
在 VisDrone2019、UAVDT 两大基准数据集上均取得领先性能。
2. 未来展望
-
进一步优化注意力机制,提升背景噪声抑制能力;
-
结合模型剪枝、知识蒸馏等技术,实现更极致的轻量化;
-
拓展至多光谱、红外等多模态无人机数据,提升极端场景检测性能。
有相关需求的你可以联系我们!


END


转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入!
ABOUT
计算机视觉研究院
计算机视觉研究院主要涉及深度学习领域,主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架,提供论文一键下载,并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!
往期推荐
🔗
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐


所有评论(0)