导读:

无人机在巡查、农业监测等工程应用中具有重要的工程价值,但是无人机航拍图像目标尺寸小,分布密集、数量多,实际检测工作难度大,因此提高无人机航拍图像的小目标检测性能是当前重要而迫切的技术问题。本文提出了一种基于改进YOLOv11s的小目标检测模型,命名为RB-YOLOv11s。首先,设计了重参数化幽灵跨阶段高效聚合网络(RepGhostCSPELAN Net,简称RGNet),该网络能够增强模型的表征能力,并且整合多层级特征,降低模型参数量和计算量。此外,以BiFPN-GLSA网络替换原有的路径聚合网络(PANet),使得主干网络和颈部网络产生的特征层相互融合,增强模型对全局及局部空间信息的感知能力。在VisDrone2019无人机航拍图像数据集上的实验表明,RB-YOLOv11s模型展现出卓越性能,与原模型YOLOv11s相比,RB-YOLOv11s模型的计算量虽然小幅增加,但参数量下降了25.5%,检测精度提高了1.9%。本文模型有效解决了无人机航拍图像中小目标检测精度低的问题。

作者信息:

李云龙:江西理工大学理学院,江西 赣州

论文详情

模型介绍

图1所示,为本文提出的RB-YOLOv11s模型的网络结构。

本文设计了重参数化幽灵跨阶段高效聚合网络(RGNet),RGNet网络由RepGhostCSPELAN、GhostNCSP以及GhostNBottleneck模块组成,其结构如图2所示。

为提升特征融合效果,本研究采用BiFPN-GLSA网络对YOLOv11s的颈部结构进行重构。如图3所示,该模块同时集成了全局空间注意力(GSA)与局部空间注意力(LSA)组件,从而兼顾了非局部与局部的空间建模能力。

图4所示,GSA模块通过关注像素之间的长距离依赖关系来强化特征表征,并与局部空间注意力

机制相互补充。

实验设计

本文选用公开数据集VisDrone2019进行模型验证。

实验在Ubuntu 20.04系统下采用Python 3.8与Pytorch 2.0.0环境,设置batch size为8,训练300 epoch,输入图像尺寸为640 × 640,具体硬件与参数配置见表1

结果分析

将设计重参数化幽灵跨阶段高效聚合网络(RGNet)记为改进方案A,BIFPN-GLSA网络替换原YOLOv11s模型的颈部网络PANet记为改进方案B,下表2中YOLOv11s + A为只加入改进方案A,YOLOv11s + B为只加入改进方案B,YOLOv11s + A + B为将改进方案A和B都加入,也就是本文提出的模型RB-YOLOv11s。

表3所示,RB-YOLOv11s在VisDrone2019测试集上的mAP50达到34.6%,其检测精度优于原YOLOv11s模型及YOLO与DETR系列的其他对比模型。

结论

本文提出的RB-YOLOv11s模型是一种基于YOLOv11s的无人机航拍图像小目标检测模型,可为农业病虫害监测、交通流量分析与灾害应急评估等应用提供关键的技术支持。

在VisDrone2019数据集上的实验表明,RB-YOLOv11s模型通过重参数化幽灵跨阶段高效聚合网络RGNet和BiFPN-GLSA网络增强了小目标特征表征与多尺度融合,相比原模型YOLOv11s,RB-YOLOv11s模型的mAP50、mAP50:95分别提升了1.9%与1.3%。为适应无人机平台的部署要求,后续将通过轻量化技术降低模型的参数量和计算量。

原文链接:

https://doi.org/10.12677/csa.2026.162081

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐