TIP 2025 | 北理提出 OSFormer：一步式 Transformer 革新红外小目标检测，精度效率双 SOTA

在红外监控、海上救援等场景中，想要精准捕捉那些模糊不清、信噪比极低的小目标，简直是计算机视觉领域的“老大难”。传统方法要么拆帧处理丢失时间信息，要么计算复杂跑不动，直到OSFormer的出现，这些问题终于有了新解法！OSFormer不仅在红外小目标检测领域树立了新标杆，更证明了“整合时间信息”在视频理解中的巨大潜力。红外图像里的目标和噪声长得像？：传统两步法先逐帧检测再拼接，就像把电影拆成照片分析

小白学视觉

1266人浏览 · 2025-11-16 19:38:02

小白学视觉 · 2025-11-16 19:38:02 发布

点击上方“小白学视觉”，选择加"星标"或“置顶”
重磅干货，第一时间送达

在红外监控、海上救援等场景中，想要精准捕捉那些模糊不清、信噪比极低的小目标，简直是计算机视觉领域的“老大难”。传统方法要么拆帧处理丢失时间信息，要么计算复杂跑不动，直到OSFormer的出现，这些问题终于有了新解法！

论文信息

题目：OSFormer: One-Step Transformer for Infrared Video Small Object Detection

OSFormer：用于红外视频小目标检测的一步式Transformer

作者：Haolin Qin, Tingfa Xu, Yuan Tang, Fengxiang Xu, Jianan Li

源码：https://github.com/q2479036243/OSFormer

痛点直击：传统方法的三大死穴

你有没有想过，为什么红外视频里的小目标总是“抓不住”？

时间信息断裂：传统两步法先逐帧检测再拼接，就像把电影拆成照片分析，目标运动轨迹全乱了
小目标被无视：固定尺寸的检测窗口要么把小目标“吞”了，要么为了找小目标搞得计算量爆炸
信噪比太低难分辨：红外图像里的目标和噪声长得太像，在复杂背景下根本分不清谁是谁

一招制敌：OSFormer的颠覆性创新

OSFormer直接跳出传统框架，用“一步到位”的思路解决所有问题。先上一张总体结构图，看看这个神奇模型的全貌：

这个模型就像一个精密的检测仪器，从视频输入到结果输出，一气呵成！

创新点1：视频变“立方体”，一次推理看全帧

传统方法逐帧处理就像翻书看画，OSFormer则把整个视频序列压缩成“立方体”数据：

简单说就是：

把RGB红外视频转成灰度图，减少冗余信息
从连续帧中采样关键帧，沿时间轴堆叠成立方体
一次推理就能分析多帧信息，完美保留目标运动轨迹

这种操作就像用长曝光摄影捕捉运动轨迹，目标怎么动都逃不掉！

创新点2：可变尺寸“智能补丁”，小目标再小也能抓

固定尺寸补丁就像用同一把尺子量蚂蚁和大象，OSFormer的VPA模块玩出了新花样：

目标区域用小补丁：精准捕捉细节，哪怕是像素级小目标也不放过
背景区域用大补丁：节省计算资源，不用在无关区域浪费力气
用简单的池化操作代替复杂的注意力计算，速度飞起还不丢精度

红色区域就是模型自动关注的重点区域，小目标想隐身都难！

创新点3：多普勒滤波“火眼金睛”，噪声瞬间现原形

红外图像里的目标和噪声长得像？没关系，OSFormer自带“频域透视镜”：

通过模拟多普勒效应：

把视频数据转到频域，目标和噪声的运动特征立刻显形
自适应滤波器精准过滤噪声，只保留目标信号
转回空间域后，目标清晰度直接拉满

热图里红色区域就是被增强的目标，背景噪声被压得死死的！

实战成绩单：碾压式领先

在三大权威数据集上，OSFormer的表现让人眼前一亮：

AntiUAV数据集：比YOLOv8-s精度提高3.1%，参数少35.1%，计算量砍半
InfraredUAV数据集：mAP50-95提升4.0%，速度还快了12%
UAVSwarm数据集：在RGB数据上照样能打，密集小目标检测无压力

看看这些对比曲线，OSFormer的性能轨迹几乎全程领跑：

可视化效果更惊艳，复杂背景下的小目标无所遁形：

为什么OSFormer能这么强？

关键在于它解决了传统方法的核心矛盾：

一步式处理保住了时间信息的完整性
可变补丁平衡了检测精度和计算效率
多普勒滤波专门针对红外低信噪比场景优化

就像给侦探配备了高清监控+运动轨迹分析仪+噪声过滤器，再狡猾的目标也无所遁形！

写在最后

OSFormer不仅在红外小目标检测领域树立了新标杆，更证明了“整合时间信息”在视频理解中的巨大潜力。无论是安防监控、无人机追踪还是夜间救援，这个模型都有广阔的应用空间。

下载1：OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。


下载2：Python视觉实战项目52讲
在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。


下载3：人工智能0基础学习攻略手册
在「小白学视觉」公众号后台回复：攻略手册，即可获取《从 0 入门人工智能学习攻略手册》文档，包含视频课件、习题、电子书、代码、数据等人工智能学习相关资源，可以下载离线学习。


交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

别再碰瓷100 亿美元“身价”的世界模型了，李飞飞这次手把手教你分辨

世界模型”是当今 AI 领域中最重要、同时也最被过度使用的术语之一。在过去 18 个月里，超过 100 亿美元资金流入了世界模型与机器人 AI 公司中。一个值得注意的规律是，使用世界模型的公司所获得的融资规模，甚至超过了专门构建世界模型本身的公司。毋庸置疑的是，世界模型火了。但其实际概念一直众说纷纭，让人摸不着头脑。今早，李飞飞和 World Labs 团队发表了一篇主题为《世界模型的功能性分类》

DAMO开发者矩阵

【路径规划】基于Informed-RRT、原生 RRT、RRT星三种算法实现栅格地图机器人路径规划附matlab代码

在机器人领域，路径规划是实现机器人自主导航的关键技术。对于在栅格地图环境下运行的机器人而言，选择合适的路径规划算法至关重要。原生 RRT（快速探索随机树）算法作为一种经典的路径规划算法，在复杂环境中展现出一定优势，但也存在一些不足。Informed - RRT 和 RRT 星算法在原生 RRT 基础上进行改进，旨在提升路径规划的效率与质量。本文将深入探讨这三种算法在栅格地图机器人路径规划中的应用。