航拍小目标检测

数据轨迹001

683人浏览 · 2025-12-26 13:59:05

数据轨迹001 · 2025-12-26 13:59:05 发布

MambaNeXt-YOLO：航拍小目标检测新SOTA！
论文原文：https://arxiv.org/abs/2506.03654
即插即用代码仓库：https://github.com/AITricks/AITricks
MambaNeXt-YOLO专门解决实时目标检测中 “速度与精度难两全” 的痛点！作者把超火的 Mamba 引入 YOLO 架构，效果直接起飞。
1️⃣ 核心痛点：YOLO 看不远，Transformer 跑不动
现有的实时检测器大多基于 CNN，感受野有限，容易忽略全局背景信息，导致复杂场景下漏检。
而引入 Transformer 虽然能看全图，但计算量是平方级增长，在边缘设备上根本跑不到实时帧率。我们需要一个既有全局视野又具备线性复杂度的模型！
2️⃣ 核心架构：CNN + Mamba 强强联合
ConvNeXt 分支：利用 CNN 提取局部纹理细节。
Mamba 分支：利用 SSM（状态空间模型）捕捉长距离依赖。
这就好比给模型同时装上了“显微镜”和“广角镜”，既抓细节又懂大局。
3️⃣ 智能融合：ResGate 门控机制
它像一个智能阀门，能根据输入图像的内容，自适应地调整权重。
如果是细节丰富的区域，就多听 CNN 的；如果是需要背景推理的区域，就多听 Mamba 的。这种动态调节比简单的相加或拼接更高效。
4️⃣ 颈部升级：MAFPN (多分支非对称金字塔)
非对称设计：在自顶向下的路径中，放弃了会丢失信息的最大池化，改用跨步卷积。
效果：这让深层的语义信息能更好地保留下来，特别是对小目标检测非常友好，让小目标也能感知到大背景。
5️⃣ 实验结果：VisDrone 数据集杀疯了
根据论文在 COCO 和 VisDrone2019 数据集上的表现：
COCO 表现：在参数量相当的情况下，MambaNeXt-YOLO 的 mAP 全面超越了 YOLOv8、YOLOv10 和 Gold-YOLO。
小目标优势：在最具挑战性的 VisDrone数据集上，优势巨大！因为航拍图小目标极多且背景复杂，Mamba 的全局建模能力在这里得到了完美释放。
总结：MambaNeXt-YOLO 证明了 “混合架构” 是未来的趋势。如果你在做实时检测、端侧部署或者无人机视觉，这个架构思路绝对值得参考！
#计算机视觉 #深度学习 #科研 #论文 #科研日常 #目标检测 #yolo #mamba #论文分享 #科研学习

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

【螺旋四边收缩遍历】基于A星算法的栅格全域覆盖路径规划（Matlab代码实现）

针对移动机器人在结构化障碍作业场景中存在的遍历盲区、轨迹冗余度高、运动转向频繁、环境适应性弱等全域路径规划难题，本文以栅格地图环境建模为基础，构建一套完整的改进A*算法全域覆盖路径规划理论体系。结合机器人实际作业运动特性，对传统A*启发搜索机制进行优化改进，采用双代价适配策略区分预估代价与真实行走代价，搭配八方向邻域扩展机制提升算法避障能力与路径贴合度。