目标检测还能这么做？结合Transformer，荣登CV顶会！

沃恩智慧

424人浏览 · 2025-09-03 20:00:00

沃恩智慧 · 2025-09-03 20:00:00 发布

Transformer与目标检测的结合最近在学术圈里彻底火了！清华大学团队提出的TransDet模型，直接将Transformer的全局特征捕捉能力与目标检测的精度需求完美结合，不仅大幅提升了检测精度，还解决了传统方法在小目标检测中的局限性。Transformer擅长处理长距离依赖关系，而目标检测则需要精准定位和分类，两者的结合让模型在处理复杂场景时更加得心应手。

想发论文的小伙伴，可以关注以下几个方向：①针对小目标检测，设计定制化的Transformer架构；②探索多模态数据中的目标检测，挖掘更丰富的特征；③将Transformer与轻量级模型结合，提高模型的实时性和适应性。

为了帮助大家更好地开展研究，我整理了10篇相关的前沿论文，都是顶会顶刊成果，部分论文还附上了代码，全部论文PDF版+开源代码，工种号沃的顶会 扫码回复 “T目标” 领取免费获取全部论文+开源代码。

An Unsupervised Momentum Contrastive Learning Based Transformer Network for Hyperspectral Target Detection

文章解析

本文提出了一种基于无监督动量对比学习和变换器网络的高光谱目标检测新方法，通过结合变换器编码器和动量编码器网络，增强特征提取能力，利用无监督对比学习提高光谱判别能力，并采用非线性变换的背景抑制机制提升目标检测灵敏度。

创新点

提出一种新型编码器设计，融合变换器和动量编码，捕捉局部和全局光谱特征。

采用无监督动量对比学习，使模型能够区分光谱差异，摆脱对标注数据的依赖。

设计一种创新的背景抑制技术，利用非线性变换显著提升目标与背景的分离效果。

研究方法

构建基于变换器的编码器，包含重叠光谱块嵌入和位置嵌入，提取高光谱图像的光谱和空间信息。

实施光谱判别性学习，通过数据增强和动量对比学习训练模型，获得能够区分光谱差异的编码器。

执行背景抑制，利用指数和幂函数的非线性操作增强目标检测结果的对比度。

研究结论

该方法在四个真实高光谱图像数据集上展现出卓越的目标检测性能，检测精度显著提升。

无监督动量对比学习有效提高了模型的光谱判别能力，使其在复杂背景下仍能准确识别目标。

所提出的方法在保持高检测精度的同时，具备良好的计算效率，适用于实际高光谱目标检测场景。

Toward Accurate lnfrared Small Target Detection via Edge-Aware Gated Transformer

文章解析

本文提出了一种名为GSTUnet的新型红外小目标检测网络，旨在通过结合全局语义和形状信息提升检测性能。该网络包含多尺度特征提取模块、边缘感知门控流模块和特征融合模块，通过端到端训练实现高精度目标检测。

创新点

提出GSTUnet架构，融合全局语义和形状信息，显著提升红外小目标检测性能。

设计边缘感知门控流模块，通过门控卷积有效提取小目标的形状和边缘特征。

引入边缘感知损失函数，强化对复杂背景下小目标边缘和形状信息的提取能力。

研究方法

利用Swin Transformer构建多尺度特征提取模块，捕捉不同尺度下的全局语义特征。

通过边缘感知门控流模块处理提取的全局特征，专注于小目标的形状信息。

采用特征融合模块整合全局和形状信息，通过端到端训练优化网络性能。

研究结论

GSTUnet在多个公开数据集上表现出色，显著优于现有先进方法。

该网络能够准确提取小目标的形状和边缘信息，适应复杂背景和不同目标尺度。

边缘感知损失函数有效提升了网络对小目标边缘的检测精度，降低了误报率。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

TVA与具身智能：感知-行动闭环的技术范式革命（5）

DAMO开发者矩阵

AI 越强，越不该学编程——未来十年真正值得投入的 7 种能力

大家好，之前我讲了很多工作上的技术知识，但现在我发现这些东西ai都可以很轻易的给你们答案，所以，今天我想聊一些关于未来发展方向的话题。前几天，一个朋友给我发消息说："我真的不知道该学什么了。他刚花了三个月啃完一本深度学习教材，结果 GPT-5 发布那天，他发现自己刚学完的内容，AI 三秒钟就能搞定。他说那种感觉就像——你好不容易爬到半山腰，发现山顶上已经站满了机器人，它们正朝你挥手。这种迷茫不只他

DAMO开发者矩阵

2026人形机器人公司推荐：国内外主要企业技术竞争力评估与推荐

综合四家企业的技术架构、硬件实力、量产能力及工业场景落地成果来看，拓斯达凭借全栈自研的核心技术体系、成熟的工业场景商业化闭环、规模化量产出货能力，是当前具身智能工业落地赛道中综合竞争力突出、落地价值明确的标杆企业。我们不保证该信息(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关信息并未经过本网站证实，不对您构成任何投资建议，据此操作，风险自担