TIP 2025 | 北理提出 OSFormer:一步式 Transformer 革新红外小目标检测,精度效率双 SOTA
在红外监控、海上救援等场景中,想要精准捕捉那些模糊不清、信噪比极低的小目标,简直是计算机视觉领域的“老大难”。传统方法要么拆帧处理丢失时间信息,要么计算复杂跑不动,直到OSFormer的出现,这些问题终于有了新解法!OSFormer不仅在红外小目标检测领域树立了新标杆,更证明了“整合时间信息”在视频理解中的巨大潜力。红外图像里的目标和噪声长得像?:传统两步法先逐帧检测再拼接,就像把电影拆成照片分析
点击上方“小白学视觉”,选择加"星标"或“置顶”
重磅干货,第一时间送达
在红外监控、海上救援等场景中,想要精准捕捉那些模糊不清、信噪比极低的小目标,简直是计算机视觉领域的“老大难”。传统方法要么拆帧处理丢失时间信息,要么计算复杂跑不动,直到OSFormer的出现,这些问题终于有了新解法!
论文信息
题目:OSFormer: One-Step Transformer for Infrared Video Small Object Detection
OSFormer:用于红外视频小目标检测的一步式Transformer
作者:Haolin Qin, Tingfa Xu, Yuan Tang, Fengxiang Xu, Jianan Li
源码:https://github.com/q2479036243/OSFormer
痛点直击:传统方法的三大死穴
你有没有想过,为什么红外视频里的小目标总是“抓不住”?
-
时间信息断裂:传统两步法先逐帧检测再拼接,就像把电影拆成照片分析,目标运动轨迹全乱了
-
小目标被无视:固定尺寸的检测窗口要么把小目标“吞”了,要么为了找小目标搞得计算量爆炸
-
信噪比太低难分辨:红外图像里的目标和噪声长得太像,在复杂背景下根本分不清谁是谁
一招制敌:OSFormer的颠覆性创新
OSFormer直接跳出传统框架,用“一步到位”的思路解决所有问题。先上一张总体结构图,看看这个神奇模型的全貌:
这个模型就像一个精密的检测仪器,从视频输入到结果输出,一气呵成!
创新点1:视频变“立方体”,一次推理看全帧
传统方法逐帧处理就像翻书看画,OSFormer则把整个视频序列压缩成“立方体”数据:
简单说就是:
-
把RGB红外视频转成灰度图,减少冗余信息
-
从连续帧中采样关键帧,沿时间轴堆叠成立方体
-
一次推理就能分析多帧信息,完美保留目标运动轨迹
这种操作就像用长曝光摄影捕捉运动轨迹,目标怎么动都逃不掉!
创新点2:可变尺寸“智能补丁”,小目标再小也能抓
固定尺寸补丁就像用同一把尺子量蚂蚁和大象,OSFormer的VPA模块玩出了新花样:
-
目标区域用小补丁:精准捕捉细节,哪怕是像素级小目标也不放过
-
背景区域用大补丁:节省计算资源,不用在无关区域浪费力气
-
用简单的池化操作代替复杂的注意力计算,速度飞起还不丢精度
红色区域就是模型自动关注的重点区域,小目标想隐身都难!
创新点3:多普勒滤波“火眼金睛”,噪声瞬间现原形
红外图像里的目标和噪声长得像?没关系,OSFormer自带“频域透视镜”:
通过模拟多普勒效应:
-
把视频数据转到频域,目标和噪声的运动特征立刻显形
-
自适应滤波器精准过滤噪声,只保留目标信号
-
转回空间域后,目标清晰度直接拉满
热图里红色区域就是被增强的目标,背景噪声被压得死死的!
实战成绩单:碾压式领先
在三大权威数据集上,OSFormer的表现让人眼前一亮:
-
AntiUAV数据集:比YOLOv8-s精度提高3.1%,参数少35.1%,计算量砍半
-
InfraredUAV数据集:mAP50-95提升4.0%,速度还快了12%
-
UAVSwarm数据集:在RGB数据上照样能打,密集小目标检测无压力
看看这些对比曲线,OSFormer的性能轨迹几乎全程领跑:
可视化效果更惊艳,复杂背景下的小目标无所遁形:


为什么OSFormer能这么强?
关键在于它解决了传统方法的核心矛盾:
-
一步式处理保住了时间信息的完整性
-
可变补丁平衡了检测精度和计算效率
-
多普勒滤波专门针对红外低信噪比场景优化
就像给侦探配备了高清监控+运动轨迹分析仪+噪声过滤器,再狡猾的目标也无所遁形!
写在最后
OSFormer不仅在红外小目标检测领域树立了新标杆,更证明了“整合时间信息”在视频理解中的巨大潜力。无论是安防监控、无人机追踪还是夜间救援,这个模型都有广阔的应用空间。
下载1:OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。
下载2:Python视觉实战项目52讲
在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。
下载3:人工智能0基础学习攻略手册
在「小白学视觉」公众号后台回复:攻略手册,即可获取《从 0 入门人工智能学习攻略手册》文档,包含视频课件、习题、电子书、代码、数据等人工智能学习相关资源,可以下载离线学习。
交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐

所有评论(0)