CVPR 2025 | MUST：首个多光谱无人机单目标跟踪数据集和统一框架

非对称注意力机制：与标准Transformer不同，UNTrack只保留与目标定位密切相关的注意力路径，例如模板与搜索帧之间的交互，历史提示与搜索帧之间的交互等；构建了统一融合光谱、空间和时间特征的跟踪框架（UNTrack），综合利用历史光谱提示、初始模板和连续帧信息，提高在复杂场景中的鲁棒性。提出了首个面向无人机多光谱单目标跟踪的大规模数据集（MUST），包含250个视频序列，涵盖12类真实挑战

Amusi（CVer）

1638人浏览 · 2025-06-24 00:00:08

Amusi（CVer） · 2025-06-24 00:00:08 发布

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【顶会/顶刊】投稿交流群

添加微信号：CVer2233，小助手会拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

转载自：遥感与深度学习

论文介绍

题目：MUST: The First Dataset and Unified Framework for Multispectral UAV Single Object Tracking

期刊：IEEE/CVF Computer Vision and Pattern Recognition Conference

论文：https://arxiv.org/abs/2503.17699

数据：https://github.com/q2479036243/MUST-Multispectral-UAV-Single-Object-Tracking

年份：2025

单位：北京理工大学

创新点

提出了首个面向无人机多光谱单目标跟踪的大规模数据集（MUST），包含250个视频序列，涵盖12类真实挑战情境，填补了该领域的空白。
构建了统一融合光谱、空间和时间特征的跟踪框架（UNTrack），综合利用历史光谱提示、初始模板和连续帧信息，提高在复杂场景中的鲁棒性。
引入非对称注意力机制和光谱背景抑制模块，有效降低计算量，提升了目标定位的精度和效率。
设计了光谱提示编码器并结合参数迁移策略，使RGB预训练模型能有效适用于多光谱任务，大幅提升模型性能。

数据

MUST 数据集

基本信息
包含 250 个多光谱视频序列，共 42671 帧，分辨率为 1200×900，帧率 5 fps。
光谱特征
每帧图像具有 8 个波段，覆盖 390–950 nm，涵盖可见光与近红外，增强目标与背景的光谱可分性。
挑战属性
每个序列标注了 12 类跟踪挑战，如遮挡、快速运动、相似颜色、背景杂乱、出视野等，全面模拟真实无人机跟踪环境。
采集与标注
数据由无人机搭载多光谱相机采集，飞行高度 20–250 米。所有图像经几何与辐射校正，并由人工精确标注目标框和遮挡状态。

方法

本文提出了一种名为 UNTrack 的多光谱无人机目标跟踪框架。该方法通过统一建模光谱、空间和时间特征，提升在复杂场景下的跟踪鲁棒性与效率。整体结构包括三个主要模块：统一非对称Transformer、光谱提示编码器，以及预测头。

1. 统一非对称Transformer

该模块的目标是从多个维度提取目标的判别特征，具体包括：

输入信息：将历史帧的光谱提示、初始模板图像和连续搜索帧作为统一输入，构建一个融合的特征序列。
非对称注意力机制：与标准Transformer不同，UNTrack只保留与目标定位密切相关的注意力路径，例如模板与搜索帧之间的交互，历史提示与搜索帧之间的交互等；而剪除掉冗余或干扰性的部分（如模板与提示之间的相互作用），以降低计算开销并减少噪声干扰。
搜索序列输入：不同于只用当前帧进行搜索，UNTrack引入连续帧作为序列输入，从而更好地建模目标在时间上的连续性和运动轨迹。

2. 光谱背景消除机制

为减少背景干扰和计算成本，UNTrack在Transformer中嵌入了一个背景消除模块，流程如下：

基于注意力结果判断图像中各区域与目标的相关性。
只保留与目标高度相关的区域作为候选，其余区域视为背景并剔除。
候选区域比例会在训练中动态调整，以适应不同场景下的目标显著性。

该机制利用多光谱信息增强了目标与背景的光谱差异感知，能够有效过滤外部干扰。

3. 光谱提示编码器

该模块用于生成并更新代表目标材料特征的光谱提示，具体做法如下：

首先，将历史光谱提示与当前模板信息进行特征融合，提取目标的稳定光谱特征。
使用 compression-excitation机制（通过轻量卷积和多层感知机）聚焦关键光谱通道，抑制冗余信息。
最终输出一个紧凑的光谱向量，用作下一个时间点的跟踪输入，从而增强跨帧一致性。

该设计确保了模型能持续感知目标的“材料本质”，即使目标在颜色或外形上发生变化，也能维持准确跟踪。

4. 预测头与损失设计

UNTrack采用双分支预测头来同时进行目标定位与分类：

一条分支用于输出目标位置的边界框。
另一条分支用于输出每个候选区域是否为目标的置信度。

训练阶段使用了常见的分类损失与边界框回归损失，保证定位精度和分类准确性。

结果与分析

本文方法在多光谱无人机跟踪数据集上全面优于现有主流方法，表现出更强的鲁棒性和适应性。同时在多光谱和RGB通用数据集上也展现出良好的迁移能力，证明了其结构的通用性与效率。

更多图表分析可见原文。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

CVPR 2025 论文和代码下载

在CVer公众号后台回复：CVPR2025，即可下载CVPR 2025论文和代码开源的论文合集

ECCV 2024 论文和代码下载

在CVer公众号后台回复：ECCV2024，即可下载ECCV 2024论文和代码开源的论文合集

CV垂直方向和论文投稿交流群成立

扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者论文投稿+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer2233，进交流群
CVer计算机视觉（知识星球）人数破万！如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料，一定要扫描下方二维码，加入CVer知识星球！最强助力你的科研和工作！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

ESXi 8.0安装后网络不通？3步排查vSwitch/IP/VLAN，新手也能搞定

优先排查vSwitch是否绑定有效物理网卡，再核对vmkernel端口IP与网关、网段是否匹配，最后检查VLAN标签是否与物理网络一致。这三个步骤层层递进，覆盖了90%以上的网络不通场景，操作简单、逻辑清晰，新手只要跟着步骤排查、纠正错误，就能快速恢复网络连通。本文详细拆解了前期准备、分步排查、连通性测试、异常处理及常见误区，格式与之前ESXi系列教程保持一致，降低新手学习成本。

DAMO开发者矩阵

电商客服机器人选型实战：从知识库、转人工到自动解决率的能力对比

DAMO开发者矩阵

Science Robotics 演示一次，执行多项：运动智能用于跨机器人技能转移

本文提出运动学智能概念，通过将机器人的运动学约束嵌入控制策略架构，实现跨平台技能迁移。方法基于三类核心技术：1）非尖点型3R机器人分类框架；2）与类别绑定的近约束控制策略；3）冗余机器人参数化降维。实验表明，该方法能在不同构型机器人上实现安全、平滑的任务执行，无需重新示教。研究为可迁移、安全的机器人技能学习奠定基础，未来将扩展至尖点型机器人及动态环境避障。