精度碾压 YOLO11！YOLO-UD：上下文增强 + 自适应融合，无人机小目标检测新标杆

计算机视觉研究院

588人浏览 · 2026-04-11 12:15:24

计算机视觉研究院 · 2026-04-11 12:15:24 发布

点击蓝字

关注我们

关注并星标

从此不迷路

计算机视觉研究院

公众号ID｜计算机视觉研究院

学习群｜扫码在主页获取加入方式

https://pmc.ncbi.nlm.nih.gov/articles/PMC12480592/pdf/41598_2025_Article_19145.pdf

计算机视觉研究院专栏

Column of Computer Vision Institute

本文以YOLO11为基线，提出YOLO-UD检测网络：通过多粒度上下文增强（C3kHR）+ 高效自适应特征融合（EAFN）+ 专用小目标检测层（SMDL）+ 轻量化下采样（ADown），实现面向无人机场景的高精度 + 实时性 + 强鲁棒性目标检测，为工程落地提供有效方案。

PART/1

背景与挑战

无人机航拍目标检测面临三大核心瓶颈：

目标尺度分布极端不均：图像中存在大量占比小于 10×10 像素的小目标，常规下采样过程中特征易丢失。
复杂背景与遮挡干扰：城市、郊区等场景背景冗余信息多，目标间相互遮挡严重，导致特征区分度低。
端侧部署约束：无人机平台算力有限，要求模型在保证精度的同时，具备实时推理能力。

现有 YOLO 系列模型直接迁移至航拍场景时，普遍存在小目标漏检率高、多尺度特征融合效率低、参数量与推理速度难以平衡的问题。为此，本文提出 YOLO-UD 模型，针对性解决上述痛点。

PART/2

模型核心改进与架构设计

1. 整体架构

基于 YOLO11 的轻量级基线网络进行改造，主要包含C3kHR 上下文增强模块、EAFN 自适应特征融合网络、SMDL 小目标检测层与ADown 轻量化下采样模块四大核心组件。

【 YOLO-UD 整体架构图】

2. C3kHR 上下文增强模块

针对小目标特征弱、上下文信息利用不足的问题，设计多分支空洞卷积残差结构：

通过不同膨胀率的空洞卷积，构建分层感受野，捕获多粒度上下文信息；
残差连接避免梯度消失，增强模型对尺度变化的鲁棒性；
早期阶段即扩大感受野，有效保留小目标细节特征。

【C3kHR 模块结构图】

3. EAFN 高效自适应特征融合网络

改进传统 FPN 的单向逐层传递模式，构建跨层直接融合机制：

引入空间与通道双重注意力机制，抑制背景噪声，强化目标特征权重；
多尺度特征并行交互，避免信息稀释，提升特征融合效率；
实现浅层细节信息与深层语义信息的高效互补。

【 EAFN 网络结构图】

4. SMDL 小目标检测层

新增高分辨率特征检测分支，专门处理小目标：

补充浅层高分辨率特征，缓解下采样导致的小目标特征丢失；
针对行人、非机动车等典型小目标，优化锚框分布与损失函数权重；
显著降低小目标漏检率，提升整体检测精度。

5. ADown 轻量化下采样模块

替换常规卷积下采样操作，在不显著损失精度的前提下实现模型轻量化：

通过非对称卷积与池化的组合，减少参数量与计算量；
降低模型复杂度，提升端侧推理速度；
参数量较基线模型降低约 20%，推理延迟显著下降。

PART/3

实验结果与性能分析

1. 实验设置

数据集：VisDrone2019、UAVDT（无人机目标检测标准基准数据集）
硬件平台：训练端 RTX 3090；部署端 Jetson Orin NX
对比基线：YOLO11/12、YOLOv8/9/10、YOLOX、LUDY 等主流模型

2. 定量结果

VisDrone2019 数据集

YOLO-UD-n：mAP@0.5 为 39.5%，较 YOLO11n 提升 5.9 个百分点；
YOLO-UD-s：mAP@0.5 为 45.5%，性能全面超越 YOLOv12s、LUDY-s 等模型；
端侧部署：单帧推理延迟 24.6ms，帧率达 40.7 FPS，满足实时检测要求。

【主流算法对比表】

【嵌入式平台推理速度对比表】

UAVDT 数据集

YOLO-UD-s：mAP@0.5 达 90.6%，在所有对比模型中排名第一；
精度、召回率及各类别 AP 指标均刷新当前最优水平。

【UAVDT 数据集对比表】

【多指标柱状对比图】

3. 定性结果

可视化结果表明，YOLO-UD 在以下场景中表现优异：

密集小目标场景：有效抑制漏检与误检；
低光照、强遮挡场景：目标特征鲁棒性强，检出率稳定；
远距离小目标：细节特征保留完整，定位精度高。

【检测效果对比图】

【注意力热力图】

4. 消融实验

在 VisDrone2019 数据集上，对各模块的贡献度进行验证：

SMDL 小目标检测层：mAP@0.5 提升 2.4 个百分点；
C3kHR 上下文增强模块：有效提升模型对多尺度目标的适应能力；
EAFN 自适应特征融合网络：显著提升特征利用效率；
ADown 轻量化下采样模块：在保持精度的同时降低模型复杂度。各模块组合后，整体 mAP@0.5 较基线模型提升 6.5 个百分点，验证了改进的有效性。

【消融实验结果表】

【模块贡献可视化图】

PART/4

总结与展望

1. 核心结论

YOLO-UD 模型通过上下文增强、自适应特征融合、小目标专项检测与轻量化设计，在无人机图像目标检测任务中实现了精度与速度的双重突破：

显著提升小目标检测性能，复杂场景鲁棒性强；
端侧推理速度满足实时要求，具备良好的部署可行性；
在 VisDrone2019、UAVDT 两大基准数据集上均取得领先性能。

2. 未来展望

进一步优化注意力机制，提升背景噪声抑制能力；
结合模型剪枝、知识蒸馏等技术，实现更极致的轻量化；
拓展至多光谱、红外等多模态无人机数据，提升极端场景检测性能。

有相关需求的你可以联系我们！

END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！

往期推荐

🔗

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

影刀RPA新手教程：影刀云调度完全指南——任务中心配置、机器人管理与并发执行

DAMO开发者矩阵

基于 ROS Noetic 的参数服务器功能设计与实现

项目采用标准 catkin 工作空间架构，设计并实现了参数写入节点与参数操作节点，完整覆盖参数写入、读取、修改、删除四大核心功能，并通过 roslaunch 实现多节点一键启动。参数服务器的出现解决了这一痛点，它以 ROS Master 为载体，提供全局共享的字典存储服务，所有节点均可通过统一的 API 进行参数读写，实现配置的集中管理。实验结果表明，ROS 参数服务器能够稳定支持多类型数据的存储