Transformer与目标检测的结合最近在学术圈里彻底火了!清华大学团队提出的TransDet模型,直接将Transformer的全局特征捕捉能力与目标检测的精度需求完美结合,不仅大幅提升了检测精度,还解决了传统方法在小目标检测中的局限性。Transformer擅长处理长距离依赖关系,而目标检测则需要精准定位和分类,两者的结合让模型在处理复杂场景时更加得心应手。

想发论文的小伙伴,可以关注以下几个方向:①针对小目标检测,设计定制化的Transformer架构;②探索多模态数据中的目标检测,挖掘更丰富的特征;③将Transformer与轻量级模型结合,提高模型的实时性和适应性。

为了帮助大家更好地开展研究,我整理了10篇相关的前沿论文,都是顶会顶刊成果,部分论文还附上了代码,全部论文PDF版+开源代码,工种号 沃的顶会 扫码回复 “T目标” 领取免费获取全部论文+开源代码。

An Unsupervised Momentum Contrastive Learning Based Transformer Network for Hyperspectral Target Detection

文章解析

本文提出了一种基于无监督动量对比学习和变换器网络的高光谱目标检测新方法,通过结合变换器编码器和动量编码器网络,增强特征提取能力,利用无监督对比学习提高光谱判别能力,并采用非线性变换的背景抑制机制提升目标检测灵敏度。

创新点

提出一种新型编码器设计,融合变换器和动量编码,捕捉局部和全局光谱特征。

采用无监督动量对比学习,使模型能够区分光谱差异,摆脱对标注数据的依赖。

设计一种创新的背景抑制技术,利用非线性变换显著提升目标与背景的分离效果。

研究方法

构建基于变换器的编码器,包含重叠光谱块嵌入和位置嵌入,提取高光谱图像的光谱和空间信息。

实施光谱判别性学习,通过数据增强和动量对比学习训练模型,获得能够区分光谱差异的编码器。

执行背景抑制,利用指数和幂函数的非线性操作增强目标检测结果的对比度。  

研究结论

该方法在四个真实高光谱图像数据集上展现出卓越的目标检测性能,检测精度显著提升。

无监督动量对比学习有效提高了模型的光谱判别能力,使其在复杂背景下仍能准确识别目标。

所提出的方法在保持高检测精度的同时,具备良好的计算效率,适用于实际高光谱目标检测场景。

image.png

Toward Accurate lnfrared Small Target Detection via Edge-Aware Gated Transformer

文章解析

本文提出了一种名为GSTUnet的新型红外小目标检测网络,旨在通过结合全局语义和形状信息提升检测性能。该网络包含多尺度特征提取模块、边缘感知门控流模块和特征融合模块,通过端到端训练实现高精度目标检测。

创新点

提出GSTUnet架构,融合全局语义和形状信息,显著提升红外小目标检测性能。

设计边缘感知门控流模块,通过门控卷积有效提取小目标的形状和边缘特征。

引入边缘感知损失函数,强化对复杂背景下小目标边缘和形状信息的提取能力。

研究方法

利用Swin Transformer构建多尺度特征提取模块,捕捉不同尺度下的全局语义特征。

通过边缘感知门控流模块处理提取的全局特征,专注于小目标的形状信息。

采用特征融合模块整合全局和形状信息,通过端到端训练优化网络性能。

研究结论

GSTUnet在多个公开数据集上表现出色,显著优于现有先进方法。

该网络能够准确提取小目标的形状和边缘信息,适应复杂背景和不同目标尺度。

边缘感知损失函数有效提升了网络对小目标边缘的检测精度,降低了误报率。

image.png

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐