TCSVT 2025 | MaDiNet: Mamba Diffusion Network for SAR Target Detection

论文链接:https://ieeexplore.ieee.org/document/11016924

代码:https://github.com/JoyeZLearning/MaDiNet

核心贡献

MaDiNet:Gamma 扩散与 Mamba 的首次结合

(i) Gamma 扩散模型:利用 Gamma 扩散模型精准描绘 SAR 图像目标的灰度分布和散射特征,捕捉散射点分布与目标位置之间的隐式联系,通过扩散模型和网络学习这种先验,实现精确检测。

(ii) MambaSAR 模块:通过多方向扫描机制和代理注意力机制,动态捕捉目标的全局上下文信息和局部特征。这一模块能够有效减少目标的方向敏感性,并在保持低计算复杂度的同时,增强模型对全局上下文信息的捕捉能力。

研究背景

合成孔径雷达(Synthetic Aperture Radar, SAR)作为一种基于电磁波的主动探测技术,具有全天时、全天候的对地观测能力,已发展成为一种不可或缺的对地观测工具,在军民很多领域均有着重要的应用。目标检测与识别是SAR图像智能解译的关键问题,旨在对SAR图像中典型目标(通常为车辆、舰船和飞机等目标)进行自动定位和分类,复杂、开放、对抗环境下的SAR目标检测与识别要做到高精准、高敏捷、强稳健、省资源,仍然面临很多挑战。当前,SAR目标检测主要面临以下挑战。

1、目标特性离散飞机、舰船等目标在 SAR 图像中通常表现为离散的散射点集合,缺乏自然图像的连续轮廓,传统卷积网络难以捕捉全局结构。

2、目标尺度多样与分布稀疏:目标尺度变化大且在图像中分布稀疏,传统的基于锚框的目标检测方法需要预设大量的锚框来定位目标,易导致虚警,并且由于锚框数量众多,计算复杂度和资源消耗大。

3、复杂背景干扰复杂场景中强散射背景与目标特征高度相似,干扰模型对目标与背景的区分,进一步增加了检测难度。

图1 研究背景挑战部分示意图

实验数据

为全面评估 DiffDet4SAR和MaDiNet 的性能,研究团队选用了 SSDD、SAR - ShipDatatset、OGSOD - 1.0 和 SAR - AIRcraft1.0 四个开源数据集进行测试,这些数据集涵盖了船只、飞机等多种目标类型,具有不同的分辨率、极化方式和复杂的场景特点,能够充分验证模型在不同条件下的检测性能。

                                                       表1 实验所用数据集详情

方法框架

核心思想:通过扩散模型将SAR目标检测的感知任务映射为从噪声框到目标框的去噪过程

图2 基于扩散模型的目标检测范式示意图

1、MaDiNet架构:MaDiNet由Gamma扩散模型和包含MambaSAR模块的骨干网络组成。Gamma扩散模型将SAR目标检测映射为从噪声框到目标框的去噪过程,而骨干网络则提取输入图像的多尺度特征。具体来说,Gamma扩散模型通过前向扩散过程将原始目标框分布转换为Gamma分布的噪声框,然后通过逆向扩散过程将噪声框逐步还原为原始目标框。同时,骨干网络中的MambaSAR模块利用其强大的特征提取能力,捕捉目标的复杂空间结构信息,增强模型对目标和背景的区分能力。

2、Gamma扩散模型精准建模通过引入Gamma分布来模拟SAR图像中目标的散射特性。在训练过程中,模型通过最小化预测框与真实框之间的L2损失函数,学习如何从噪声框中恢复出准确的目标框。与传统的基于高斯分布的扩散模型相比,Gamma扩散模型能够更准确地描述SAR图像中目标的灰度分布和散射特征变化,从而提高模型对目标的定位和识别能力。

3、MambaSAR模块高效特征提取基于状态空间模型(SSM),通过多方向扫描机制和代理注意力机制,动态捕捉目标的全局上下文信息和局部特征。多方向扫描机制通过从不同方向对输入图像进行扫描,生成多个特征序列,从而能够从多个角度捕捉目标的特征信息,减少目标的方向敏感性。代理注意力机制则通过引入代理token,将全局信息聚合并广播到各个查询token中,从而在保持低计算复杂度的同时,增强模型对全局上下文信息的捕捉能力。

图3 MaDiNet结构示意图。 (a)MaDiNet框架。(M2-M4表示特征金字塔网络中的中间特征层。)(b) MambaSAR模块是由MambaBlock、AgentAttention和MLP块组成的混合结构。模块采用自适应窗口扫描机制来提取多尺寸SAR图像特征。(c) MambaBlock结构。

结果与分析

MaDiNet在多种类型的目标检测任务中都展现出了优异的性能,能够更准确地识别和定位不同类别的目标,为实际应用中的多目标检测提供了更可靠的解决方案。

1、部分定量实验结果

图4 在数据集OGSOD-1.0上的检测结果

2、 部分定性实验结果

在 OGSOD - 1.0 数据集上,面对严重噪声干扰和目标框重叠的情况,Sparse RCNN 和 DiffusionDet 等方法容易产生缺失检测,而 MaDiNet 即使在低信噪比的情况下也能保持较好的检测精度。在 SAR - AIRcraft1.0 数据集上,Cascade R - CNN 和 ConsistencyDet 等方法在强背景干扰下会产生大量假阴性和误判,而 MaDiNet 凭借 MambaSAR 模块中的四种具有对称分支的扫描机制,覆盖了输入图像的每个区域,提高了图像特征捕获的效率和全面性,为后续的特征提取提供了丰富的多维信息库,从而在复杂背景下仍能准确检测目标。

图5 在数据集OGSOD-1.0上的检测可视化结果。红框为真值,绿框为检测结果。橙框为虚警,蓝框为漏检。

3、部分消融实验:

使用mambablock后,特征图中目标所在的黄色部分强度更强。密集目标之间的边界也更加明显。通过进一步添加智能体注意层,可以显著抑制复杂背景的强度,增强目标特征。

图6 在数据集SAR-AIRcraft-1.0上的消融实验。(a)真值。(b)没有使用MambaSAR模块。(c)使用了不含AgentAttenttion的MambaSAR模块。(d)使用了含AgentAttenttion的MambaSAR模块。

引用评价

DiffDet4SAR和MaDiNet一经发表,已经引起国内外同行关注,获得积极评价,引文单位包括清华大学、电子科技大学、哈尔滨工业大学、北京航空航天大学、剑桥大学、德国慕尼黑工业大学、新加坡南洋理工大学、意大利比萨大学等。其中DiffDet4SAR入选ESI 1% 高被引论文。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐