航拍小目标检测
MambaNeXt-YOLO:航拍小目标检测新SOTA!
论文原文 :https://arxiv.org/abs/2506.03654
即插即用代码仓库:https://github.com/AITricks/AITricks
MambaNeXt-YOLO专门解决实时目标检测中 “速度与精度难两全” 的痛点!作者把超火的 Mamba 引入 YOLO 架构,效果直接起飞。
1️⃣ 核心痛点:YOLO 看不远,Transformer 跑不动
现有的实时检测器大多基于 CNN,感受野有限,容易忽略全局背景信息,导致复杂场景下漏检。
而引入 Transformer 虽然能看全图,但计算量是平方级增长,在边缘设备上根本跑不到实时帧率。我们需要一个既有 全局视野 又具备 线性复杂度 的模型!
2️⃣ 核心架构:CNN + Mamba 强强联合
ConvNeXt 分支:利用 CNN 提取局部纹理细节。
Mamba 分支:利用 SSM(状态空间模型)捕捉长距离依赖。
这就好比给模型同时装上了“显微镜”和“广角镜”,既抓细节又懂大局。
3️⃣ 智能融合:ResGate 门控机制
它像一个智能阀门,能根据输入图像的内容,自适应地调整权重。
如果是细节丰富的区域,就多听 CNN 的;如果是需要背景推理的区域,就多听 Mamba 的。这种动态调节比简单的相加或拼接更高效。
4️⃣ 颈部升级:MAFPN (多分支非对称金字塔)
非对称设计:在自顶向下的路径中,放弃了会丢失信息的最大池化,改用 跨步卷积。
效果:这让深层的语义信息能更好地保留下来,特别是对小目标检测非常友好,让小目标也能感知到大背景。
5️⃣ 实验结果:VisDrone 数据集杀疯了
根据论文在 COCO 和 VisDrone2019 数据集上的表现:
COCO 表现:在参数量相当的情况下,MambaNeXt-YOLO 的 mAP 全面超越了 YOLOv8、YOLOv10 和 Gold-YOLO。
小目标优势:在最具挑战性的 VisDrone数据集上,优势巨大!因为航拍图小目标极多且背景复杂,Mamba 的全局建模能力在这里得到了完美释放。
总结:MambaNeXt-YOLO 证明了 “混合架构” 是未来的趋势。如果你在做 实时检测、端侧部署 或者 无人机视觉,这个架构思路绝对值得参考!
#计算机视觉 #深度学习 #科研 #论文 #科研日常 #目标检测 #yolo #mamba #论文分享 #科研学习
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐
所有评论(0)