点击上方“小白学视觉”,选择加"星标"或“置顶”
重磅干货,第一时间送达

在红外监控、海上救援等场景中,想要精准捕捉那些模糊不清、信噪比极低的小目标,简直是计算机视觉领域的“老大难”。传统方法要么拆帧处理丢失时间信息,要么计算复杂跑不动,直到OSFormer的出现,这些问题终于有了新解法!

论文信息

题目:OSFormer: One-Step Transformer for Infrared Video Small Object Detection
OSFormer:用于红外视频小目标检测的一步式Transformer
作者:Haolin Qin, Tingfa Xu, Yuan Tang, Fengxiang Xu, Jianan Li
源码:https://github.com/q2479036243/OSFormer

痛点直击:传统方法的三大死穴

你有没有想过,为什么红外视频里的小目标总是“抓不住”?

  • 时间信息断裂:传统两步法先逐帧检测再拼接,就像把电影拆成照片分析,目标运动轨迹全乱了

  • 小目标被无视:固定尺寸的检测窗口要么把小目标“吞”了,要么为了找小目标搞得计算量爆炸

  • 信噪比太低难分辨:红外图像里的目标和噪声长得太像,在复杂背景下根本分不清谁是谁

一招制敌:OSFormer的颠覆性创新

OSFormer直接跳出传统框架,用“一步到位”的思路解决所有问题。先上一张总体结构图,看看这个神奇模型的全貌:

这个模型就像一个精密的检测仪器,从视频输入到结果输出,一气呵成!

创新点1:视频变“立方体”,一次推理看全帧

传统方法逐帧处理就像翻书看画,OSFormer则把整个视频序列压缩成“立方体”数据:

简单说就是:

  1. 把RGB红外视频转成灰度图,减少冗余信息

  2. 从连续帧中采样关键帧,沿时间轴堆叠成立方体

  3. 一次推理就能分析多帧信息,完美保留目标运动轨迹

这种操作就像用长曝光摄影捕捉运动轨迹,目标怎么动都逃不掉!

创新点2:可变尺寸“智能补丁”,小目标再小也能抓

固定尺寸补丁就像用同一把尺子量蚂蚁和大象,OSFormer的VPA模块玩出了新花样:

  • 目标区域用小补丁:精准捕捉细节,哪怕是像素级小目标也不放过

  • 背景区域用大补丁:节省计算资源,不用在无关区域浪费力气

  • 用简单的池化操作代替复杂的注意力计算,速度飞起还不丢精度

红色区域就是模型自动关注的重点区域,小目标想隐身都难!

创新点3:多普勒滤波“火眼金睛”,噪声瞬间现原形

红外图像里的目标和噪声长得像?没关系,OSFormer自带“频域透视镜”:

通过模拟多普勒效应:

  1. 把视频数据转到频域,目标和噪声的运动特征立刻显形

  2. 自适应滤波器精准过滤噪声,只保留目标信号

  3. 转回空间域后,目标清晰度直接拉满

热图里红色区域就是被增强的目标,背景噪声被压得死死的!

实战成绩单:碾压式领先

在三大权威数据集上,OSFormer的表现让人眼前一亮:

  • AntiUAV数据集:比YOLOv8-s精度提高3.1%,参数少35.1%,计算量砍半

  • InfraredUAV数据集:mAP50-95提升4.0%,速度还快了12%

  • UAVSwarm数据集:在RGB数据上照样能打,密集小目标检测无压力

看看这些对比曲线,OSFormer的性能轨迹几乎全程领跑:

可视化效果更惊艳,复杂背景下的小目标无所遁形:

为什么OSFormer能这么强?

关键在于它解决了传统方法的核心矛盾:

  • 一步式处理保住了时间信息的完整性

  • 可变补丁平衡了检测精度和计算效率

  • 多普勒滤波专门针对红外低信噪比场景优化

就像给侦探配备了高清监控+运动轨迹分析仪+噪声过滤器,再狡猾的目标也无所遁形!

写在最后

OSFormer不仅在红外小目标检测领域树立了新标杆,更证明了“整合时间信息”在视频理解中的巨大潜力。无论是安防监控、无人机追踪还是夜间救援,这个模型都有广阔的应用空间。

下载1:OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。


下载2:Python视觉实战项目52讲
在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。


下载3:人工智能0基础学习攻略手册
在「小白学视觉」公众号后台回复:攻略手册,即可获取《从 0 入门人工智能学习攻略手册》文档,包含视频课件、习题、电子书、代码、数据等人工智能学习相关资源,可以下载离线学习。


交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~
Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐