顶会创新idea！少样本目标检测，准确率高达95%！

沃恩智慧

908人浏览 · 2025-12-08 20:00:00

沃恩智慧 · 2025-12-08 20:00:00 发布

2张正常芯片图，精准定位0.1毫米微小划痕；4张病例影像，锁定罕见皮肤病灶。2025年CVPR、NeurIPS顶会的新成果，正让少样本目标检测彻底摆脱“数据饥荒”。放在以前，传统模型在小数据场景下根本撑不起场面，小众目标标注少，要么特征提不清晰，要么把相似物体搞混。工业质检里，漏检率常突破30%；医疗诊断中，结果更是不敢作为参考。现在，视觉提示+特征配准的新架构来了个大反转。IDEA研究院的Rex-Omni靠“下点预测”，零样本检测精度直接超过经典模型DINO；CAReg用跨类配准技术，工业缺陷检测AUC较传统方法提升11.3%，新类别还不用微调参数。具体来看，芯片质检仅需2张样本，准确率就达95%；罕见病诊断4张病例，识别精度能到91%。

论文er重点关注视觉提示、无监督配准、跨域泛化准没错。我整理了相关顶会/顶刊核心论文，部分还附带复现代码打包免费送，感兴趣的同学工种号沃的顶会 扫码回复 “少样本目标” 领取。

Domain-RAG: Retrieval-Guided Compositional Image Generation for Cross-Domain Few-Shot Object Detection

文章解析

跨域少样本目标检测（CD-FSOD）旨在仅用极少量标注样本在未见域中检测新物体。现有数据增强方法如copy-paste或文本到图像生成难以同时保证视觉真实性和域一致性。本文提出Domain-RAG，一种无需训练的检索引导组合图像生成框架，通过分解图像为前景与背景、基于语义和风格检索相似背景、利用生成模型合成域对齐的新背景，并将原始前景无缝融合其中，从而生成高质量且域一致的训练样本。该方法无需额外监督或训练，适用于CD-FSOD、遥感及伪装场景下的少样本检测任务，实验表明其显著优于强基线并达到新的最先进性能。

创新点

提出首个专为跨域少样本目标检测设计的检索引导图像生成框架Domain-RAG。

采用‘固定前景、适配背景’策略，在保留原始对象的同时实现背景的域对齐生成。

结合检索增强生成（RAG）思想，利用真实图像作为视觉先验指导背景合成，提升语义与风格一致性。

整个框架无需训练，可即插即用于现有检测器，特别适合1-shot等极端低资源场景。

支持多类型下游任务，包括遥感和伪装环境下的少样本检测，展现广泛适用性。

研究方法

首先将输入图像分解为前景与背景，使用图像修复模型恢复掩码区域以获得干净背景。

从大规模图像库（如COCO）中检索语义和风格上与修复背景相似的候选背景图像。

利用Redux技术将检索到的视觉线索转换为文本提示，驱动文本到图像生成模型合成新背景。

通过mask引导的生成模型将原始前景与生成的域对齐背景进行融合，形成最终图像。

全过程无需微调或额外标注，完全基于预训练模型与外部数据库完成。

研究结论

Domain-RAG能有效生成视觉逼真且域一致的训练样本，显著提升CD-FSOD性能。

相比copy-paste和纯文本引导生成方法，本方法在保持类别准确性和上下文连贯性方面更具优势。

在多个跨域少样本检测基准（包括自然图像、遥感、伪装场景）上均取得当前最优结果。

无需训练的设计使其具备高实用性与部署便捷性，尤其适用于标注稀缺的真实应用场景。

未来工作可扩展至更多模态或动态场景下的少样本检测任务。

Temporal Object-Aware Vision Transformer for Few-Shot Video Object Detection

文章解析

本文提出了一种新的少样本视频目标检测（FSVOD）方法，通过引入目标感知的时序建模机制，解决视频中因遮挡、外观变化和有限标注样本带来的检测难题。该方法利用视觉-语言预训练的Transformer模型（如OWL-ViT），通过筛选机制跨帧传播高置信度目标特征，实现高效特征演化并减少噪声积累。与依赖复杂区域提议的传统方法不同，本方法无需显式生成目标管（object tube），在多个基准上显著提升了检测精度。

创新点

提出一种新颖的目标感知时序建模方法，选择性地跨帧传播高置信度目标特征。

首次将大规模视觉-语言预训练模型（如OWL-ViT）适配用于少样本视频目标检测任务。

设计无需区域提议的端到端学习框架，直接基于少样本训练的检测头进行条件化检测。

通过融合历史检测特征增强时序一致性，提升对遮挡和外观变化的鲁棒性。

在多个FSVOD基准上实现显著性能提升，验证了方法在不同shot设置下的泛化能力。

研究方法

采用视觉-语言预训练的Vision Transformer作为骨干网络，提取具有强语义的图像特征。

构建支持集与查询视频之间的视觉提示匹配机制，实现少样本条件下的目标识别。

设计过滤机制，仅传播高置信度的目标特征至后续帧，避免低质量特征的噪声累积。

在解码器中融合当前帧与历史帧的目标表示，增强跨时间的目标一致性。

使用对比学习优化视觉编码器，提高对相似类别和部分可见目标的区分能力。

研究结论

所提方法在5-shot设置下于FSVOD-500、FSYTV-40、VidOR和VidVRD数据集上分别提升AP达3.7%、5.3%、4.3%和4.5%。

在1-shot、3-shot和10-shot配置下均表现出一致的性能增益，证明其良好的泛化性。

无需依赖复杂的区域或管提议网络即可实现强时序一致性，简化了检测流程。

结合视觉-语言先验知识显著增强了对新类别对象的检测能力。

代码已开源，为未来少样本视频理解研究提供了可复现的基础。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

使用概率图路径规划的机器人路径规划研究Octave（Matlab代码实现）

针对复杂未知环境下传统机器人路径规划算法适应性差、避障稳定性弱、全局搜索效率低的问题，本文开展基于概率图的机器人路径规划方法研究。概率图路径规划依托概率路线图建模思想，通过环境随机采样、节点连通性构建、最优路径检索的核心逻辑，摆脱了传统算法对环境精准建模的依赖，具备强环境适配性与高运算效率。本文系统阐述概率图路径规划的核心理论、运行机制与技术优势，基于Octave仿真平台搭建多场景机器人运动规划仿