51c视觉~合集55
要么生成的异常真实性不足、掩码精度低,且难以跨领域复用。试想一下,在工业质检、医疗影像诊断、日常物品瑕疵识别等场景中,无需任何示例缺陷样本,也无需针对特定领域微调模型,就能根据文字或图像提示,自动生成真实且符合语义的异常,还能精准输出缺陷掩码,大幅提升下游异常检测模型的性能。Anomagic引入对比掩码细化策略,通过计算输入正常图像与生成异常图像的像素级差异,结合预训练的MetaUAS模型,自动生
我自己的原文哦~ https://blog.51cto.com/whaosoft143/14351959
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#EvaNet
图像融合评估模型EvaNet:解耦模态分量,让评估指标更懂人类视觉
在计算机视觉领域,红外与可见光图像融合(Infrared and Visible Image Fusion, IVIF)一直是个热门话题。简单来说,就是把红外相机的“热感应”和可见光相机的“高清纹理”合二为一,从而在复杂环境下实现更清晰的场景理解。虽然生成算法层出不穷,但大家似乎都忽略了一个尴尬的现实:我们评价一张融合图像“好不好”的工具,既慢又不准。
今天要分享的这篇论文提出了一套名为 EvaNet 的统一评估框架,即 Evaluation Network(评估网络)的缩写,旨在构建一个更高效、更具一致性的评估体系。它的核心思路:不再死磕复杂的信号处理公式,而是用一个轻量级的深度学习网络去“模拟”并“优化”传统的评估指标。它不仅让评估速度提升了整整 1000 倍,还通过引入大语言模型(Large Language Model, LLM)的能力,让机器的打分更符合我们人类的直观感受。
- 论文地址: https://arxiv.org/abs/2604.02896
- 主要机构: 江南大学;英国萨里大学
- 代码仓库: https://github.com/AWCXV/EvaNet
- 录用期刊: TPAMI 2026
背景与动机:当模型跑完,评估还在排队
做过图像融合研究的朋友可能深有体会:训练一个模型可能只需要几个小时,但如果你想在几千张图片的测试集上跑完所有评估指标(如 VIF、Qabf 等),可能需要等上一整天。
目前的评估体系存在两个致命伤。首先是效率极低。传统的指标大多基于离散余弦变换(Discrete Cosine Transform, DCT)或小波变换(Wavelet Transform),这些算法在 CPU 上跑起来慢得像蜗牛。评估 3463 张图片,传统方法可能需要 24 小时,这直接导致很多研究者只能随机挑 10 张图来评估,数据的代表性大打折扣。
其次是一致性匮乏。现有的指标大多是从超分辨率或去噪任务中“借”来的。在没有标准参考图(Ground Truth)的情况下,这些指标往往假设红外和可见光信息是同等重要的。但在实际场景中,比如漆黑的深夜,可见光图像全是噪声,此时如果指标还强求保留可见光信息,打出来的分自然和人类的视觉感受南辕北辙。
效率与一致性问题的直观展示
方法详解:分而治之与 LLM 的“环境审计”
为了解决这些问题,这篇论文的研究团队提出了一套“分而治之”的策略。EvaNet 的核心架构不再是简单地对比融合图和原图,而是先进行“解耦”。
1. 核心流程:输入与输出
EvaNet 的 Input(输入) 包括融合后的图像 以及两张原始源图(红外 和可见光 )。 它的 Output(输出) 则是 8 个经过优化的质量评估指标(如 VIF、Qabf、SSIM* 等)。
2. 三分支协作架构
EvaNet 包含三个关键分支:
- 红外与可见光分支:利用预训练的 信息探测器(Information Probe, IP) 将融合图像 分解为 和 。IP 是一个极轻量级的自编码器结构,专门用于探测融合图中保留的模态特定信息。然后分别计算这两个分量与对应源图的相似度。这种做法避免了信息的混杂,能更精准地衡量每种模态保留了多少有效信息。
- 环境感知分支:这是本文的一大亮点。作者认为,评估指标应该具备“环境觉察”能力。他们利用 ChatGPT-4o 对场景进行“审计”,生成光照和遮挡程度的标签,用来训练这个分支。
EvaNet 整体架构图
3. 环境标签生成与 LLM 监督
为了训练环境分支,研究者并没有手动标注成千上万张图片,而是利用了 LLM。由于 LLVIP 等数据集包含许多背景相同、仅前景变化的序列,作者对每个场景抽取代表性样本,询问 GPT-4o 关于光照(Illumination)和遮挡(Obscuration)的评分。
LLM 辅助生成环境标签的过程
最终的评估得分 引入了一个环境惩罚项:
其中, 是环境分支预测的权重因子, 是模态失衡项(即可见光得分与红外得分之差)。这意味着,如果在黑夜场景下,可见光图像质量很差,但融合结果却强行保留了大量可见光噪声(导致 很大), 就会作为一个惩罚项降低最终得分。这直观上符合人类的逻辑:环境不好时,我们就该多看红外,少看此时“信噪比”较低的可见光。
网络架构细节
4. 训练策略:对比学习
为了让 EvaNet 学会区分“高质量融合”和“低质量噪声”,作者引入了 对比学习(Contrastive Learning) 策略。正样本对由解耦分量与对应的源图组成;负样本对则由源图与随机选择的无关图像组成。通过最小化均方误差(MSE)损失,网络能够学习到指标在不同相似度级别下的分布特征。
基于对比学习的训练策略
实验结果:千倍加速与感知对齐
EvaNet 的表现相对传统方法可以用“降维打击”来形容。
1. 令人惊叹的评估效率
在效率方面,研究人员在 LLVIP 测试集上进行了对比。传统方法计算 8 个指标需要超过 24 小时,而 EvaNet 仅需 10.8 秒。这种 1000 倍 的加速,让大规模数据集的全量评估变得轻而易举。而且,EvaNet 的模型极其轻量,参数量仅为 1.15 MB,单张 RTX 3090 即可轻松运行。
速度对比表
2. 指标一致性(MC)的提升
作者提出了一种新的度量指标 指标一致性(Metric Consistency, MC)。他们利用第三方参考(如 DeepIQA 模型或下游任务的排名)作为基准,衡量评估指标排名与参考排名之间的对齐程度。实验证明,EvaNet 预测的指标与人类视觉感知的一致性平均提升了 8.70%。
有趣的是,作者还对比了不同 LLM 作为监督信号的效果。结果显示,越先进的 LLM(如 GPT-5.2 或 Qwen3-Max)生成的环境标签,越能显著提升最终评估指标的一致性,且均优于人类手动标注的基准。
不同 LLM 对一致性得分的影响
3. 可解释性分析
通过归因分析(Attribution Analysis),我们可以清晰地看到 EvaNet 确实“读懂”了指标。比如在计算 Qabf 时,网络会重点关注图像的边缘和轮廓;而在计算 PSNR 时,则更关注全局的亮度区域。这种可解释性一定程度上证明了深度学习模型并非简单的“黑盒”,而是捕捉到了不同评估维度的物理内涵。
可视化归因分析
在实际案例中,EvaNet 成功纠正了许多传统指标的“误判”。例如,MetaFusion 方法在某些场景下会产生明显的伪影,传统 VIF 指标却给了它最高分;而 EvaNet 识别出了这些不自然的信息,将其排名从第 1 名降到了第 13 名,更符合人类的审美。
不同场景下的评估排名变化
写在最后
EvaNet 的出现,给图像融合领域提供了一项重要工具。长期以来,人们专注于模型结果的改进,而忽略了评价方法也很重要。尤其是作者引入 LLM 来生成环境弱监督信号的思路,这展示了在大模型时代,如何利用 LLM 的常识和推理能力,去解决传统底层视觉任务中难以标注、难以量化的环境感知难题。
....
#LASQ
从像素映射到分布估计:基于LASQ框架的低光照图像稳健增强
- 论文标题:Luminance-Aware Statistical Quantization:Unsupervised Hierarchical Learning for IlluminationEnhancement
- 作者:Derong Kong, Zhixiong Yang, Shengxi Li, Shuaifeng Zhi, Li Liu, Zhen Liu, Jingyuan Xia
- 机构:国防科技大学,北京航空航天大学
- 论文地址:https://arxiv.org/abs/2511.01510
- 代码仓库:https://github.com/XYLGroup/LASQ
- 录用会议:NeurIPS 2025
1. 前言
在计算机视觉研究中,低光照图像增强(LLIE)始终是一个具有挑战性的课题,广泛应用于夜间监控、自动驾驶以及移动终端摄影等实际场景。光照不足不仅会导致图像整体亮度下降,还会引发噪声放大、细节模糊等一系列问题。
传统增强方法虽然在一定程度上能够改善亮度,但往往依赖人工设定的超参数,对复杂光照条件的适应能力有限;而近年来兴起的深度学习方法则高度依赖大规模高质量数据,在跨场景应用时仍面临泛化能力不足的困境。
本文提出一种名为LASQ的新框架。它的核心是:打破“像素级”数值映射范式、摆脱高质量数据依赖,构建一种“物理建模+数据驱动”的新框架。 通过将像素级别的配对学习转化为亮差分布的估计问题,实现无参考图像下的低光照图像稳健增强,并具备较好的泛化性能。
2. 基于物理感知的亮差分布统计建模
LASQ摆脱了像素级函数映射的学习范式,构建具备物理规律映射的精确建模,设计了一款亮差域亮度分层统计模型。依据增强前后的图像亮度变化,构建了亮度变化坐标系:
通过观察海量数据在亮度变化坐标系的特征,结合坐标系中的幂律分布规律设计一款分层亮度自适应算子
其中表示区域亮度标量,、、是控制调整强度和对比度增益的超参数,表示的方差。
该算子以 为核心,不仅能够刻画区域内整体亮度水平,还通过方差项引入对局部对比度与亮度波动的自适应调节,从而在增强强度与细节保持之间取得平衡。
值得注意的是,不同数量的算子在实际作用中呈现出明显的分工特性:单一算子主要实现全局一致的亮度调制,而多算子配置则能够对不同亮度区间进行精细化调节。
在幂律分布的中间亮度区间,各类算子具有一致的响应行为,保证了整体亮度变化的稳定性;而在亮度分布的边界区域,仅高密度算子集合才能覆盖,从而实现对极暗或极亮区域的细粒度增强。
3. 马尔可夫链蒙特卡罗(MCMC)采样
基于上述观察,本文采用对称截断高斯分布对亮度自适应算子进行建模,使算子在亮度空间中自然聚集于具有代表性的区域,同时有效避免对极端亮度区间的过度增强。
这一设计不仅在理论上符合真实场景中亮度分布的统计规律,也契合人类视觉系统对亮度变化连续性与层次性的感知特性:全局曝光状态决定整体亮度基调,而局部光照差异则表现为对该基调的平滑修正。
其中、、。LASQ在该分布上引入MCMC采样机制,将原本难以直接处理的像素级亮度配对学习问题,转化为对亮度自适应算子分布的估计过程。
通过由粗到细的层级采样,模型从全局均衡亮度出发,逐步引入空间上更精细的局部自适应调整,在保证相邻状态高度相关、亮度演化平滑一致的前提下,实现对亮度的多层级、渐进式表征,从而在稳定性、物理合理性和感知一致性之间取得良好平衡。
MCMC边缘化推断公式可以写作:
马尔可夫链转移核可以表示为:
4. 物理建模与扩散模型耦合的智能学习机制
LASQ 以扩散模型为学习骨架,将传统亮度自适应算子的“采样过程”直接嵌入到扩散模型的正向扩散路径中,构建了一种全新的 “物理先验 + 智能学习” 协同范式。
通过时间映射机制,将扩散过程中的多个时间步与不同尺度的亮度归一化算子进行对齐,使得扩散模型在逐步注入噪声的同时,始终受到物理亮度一致性的约束。这样一来,模型在从粗到细的扩散过程中,不仅学习噪声分布的演化,还同步感知和建模光照变化的内在规律。
该耦合机制使扩散模型不再是“纯数据拟合器”,而是具备对真实照明退化过程的层级化理解,从而在无参考图像条件下实现更加稳定、自然且具备强泛化能力的图像增强效果。这种物理建模与扩散学习的深度融合,为低层视觉任务提供了一条可解释、可扩展的新路径。
5. 实验结果
从可视化结果来看,LASQ 在亮度自适应能力和细节还原方面表现尤为突出。在具备真实标注的标准数据集上,LASQ 所生成的结果在整体观感上已可与 URetinexNet、KinD++等监督方法相媲美,同时在暗部细节、亮度过渡的自然性上更具优势。
进一步引入非配对正常光照图像后,LASQ++ 能够更好地贴近目标域的整体色调分布,展现出更强的跨域适应能力。
相比之下,现有方法普遍存在不同程度的问题:部分方法亮度提升不足,画面依旧偏暗;部分方法虽然整体变亮,但结构细节模糊,或在局部区域出现明显过曝。
更重要的是,在真实复杂场景中,LASQ 能够有效抑制噪声放大、局部过曝和伪影的产生,始终保持自然的光照风格与稳定的细节表达,充分验证了其在真实环境下卓越的泛化能力。
在多数据集上的定量评测结果进一步印证了上述结论。
从定量分析表格可以看到,LASQ 在 LOLv1、LSRW 等带有标注的数据集上,其性能已接近主流监督方法的水平;而在 DICM、NPE、VV 等无参考或跨场景测试集上,LASQ 在多项感知评价指标上均优于现有方法,体现出其不依赖特定数据分布的内在泛化优势。
值得注意的是,尽管 LASQ++ 通过引入正常光照参考提升了颜色一致性,但这种针对目标域的适配在一定程度上削弱了模型的跨场景稳健性,导致部分指标略有下降。
这一现象也从侧面说明,LASQ 在“域适配能力”和“泛化鲁棒性”之间实现了一种更为均衡的折中,而 LASQ++ 则更侧重于目标域的视觉一致性。整体而言,定量结果系统性地验证了 LASQ 在亮度控制、细节保持以及跨场景适应方面的综合优势。
6. 总结
本文提出的LASQ 框架从光照物理连续性的角度重新定义了LLIE问题,将其从传统的像素级映射任务提升为一个可建模、可演化的随机过程。
通过将分层亮度分析与自适应MCMC采样机制相结合,LASQ能够刻画真实场景中由全局到局部逐级变化的光照结构,摆脱对成对监督数据的依赖,在提升泛化能力的同时兼顾整体亮度均衡与局部细节保真,有效避免了伽马偏置和监督学习中过拟合等问题。
更进一步,这一工作传达了一个重要观点:LLIE的核心不应仅是像素级函数逼近,而应迈向对光照时空演化规律的重建。
未来,结合动态参数化建模与软硬件协同设计,有望进一步缩小计算成像系统与生物视觉在低照度感知上的差距。
....
#UARE
底层视觉统一模型|北大团队提出UARE,一体化画质理解和增强
- 论文标题:UARE: A Unified Vision-Language Model for Image Quality Assessment, Restoration, and Enhancement
- 论文作者: Weiqi Li(李玮琦), Xuanyu Zhang(张轩宇), Bin Chen(陈斌), Jingfen Xie (谢静芬), Yan Wang (汪衍), Kexin Zhang (张珂新), Junlin Li(李军林), Li Zhang(张莉) and Jian Zhang†(张健), Shijie Zhao†(赵世杰)(†通讯作者)
- 作者单位:北京大学信息工程学院、字节跳动
- ArXiv版本:https://www.arxiv.org/abs/2512.06750
- 仓库地址:https://github.com/lwq20020127/UARE
任务背景:IQA与Restoration的长期割裂
在真实世界里,一张图“看起来不够好”往往不是单一问题:可能是噪声、模糊、压缩、低照度交织在一起。传统流程通常是:IQA(图像质量评估)负责打分/描述问题、恢复/增强模型负责修复。
这种范式将IQA与图像恢复分离建模,导致两类能力存在明显割裂:质量评估无法驱动增强模型做出对应的修改,增强模型也很少利用这些质量语义来对齐人的感知偏好,这导致了IQA和增强模型的协同潜力没有被充分挖掘。
针对上述问题,北大联合字节团队提出 UARE:一个统一的视觉语言大模型。UARE同时具备质量评估与恢复增强能力,并可以将质量语义显式用于驱动增强过程,从而形成“先分析-再修复”的增强范式,验证了IQA对增强模型的促进能力。
构建统一框架的挑战
- IQA 追求“描述得准确”,恢复/增强追求“画面更好看”,两者目标不同,直接联合优化容易互相干扰;
- 即使 IQA 生成了高质量的文字诊断,如何让恢复模型利用这些文本仍是关键挑战;
- 恢复任务内部也高度多样:退化类型/强度差异巨大,统一框架要在各类场景间保持平衡。
核心方法:MoT双专家架构+两阶段训练策略MoT 双专家架构:共享注意力、分离参数以缓解任务冲突
UARE 基于 Mixture-of-Transformers(MoT)设计双专家结构:质量理解专家侧重文本与理解表征;恢复专家侧重对 VAE latent 的建模与更新。
两者在 block 级共享 self-attention 以维持跨模态对齐,同时通过参数分离降低梯度相互干扰,从结构上缓解“评估目标”与“生成/恢复目标”的冲突。
在评估引导恢复设置中,UARE 输出的质量分析 token 被保留于共享序列中,作为恢复专家更新 latent 的条件信息,实现“先分析-再修复”的增强范式。
两阶段训练策略:渐进式恢复能力构建 +质量语义对齐联合微调
UARE 采用从易到难的渐进式训练:从单退化到多退化再到高阶混合退化,逐步获得鲁棒的恢复能力;随后通过质量理解与恢复增强的统一微调,完成质量语义与增强目标的对齐,实现质量信号对恢复性能的增益。
此外,UARE 以结构化的“分析—计划—结果”范式组织文本侧输出,强化质量语言与具体增强操作之间的对应关系。
实验结果
真实超分任务
在真实超分相关数据集上,UARE 在感知质量指标上表现领先,并在保真指标上保持与强基线可比;与此同时,UARE 能给出细粒度的质量诊断并据此改善纹理与文字区域等关键细节。
混合退化恢复
在 FoundIR 的混合退化测试子集上,UARE 在 PSNR、LPIPS、NIQE、MANIQA 等多个指标维度上整体保持前列表现,并展现出对退化类型与场景内容的较强识别能力,增强结果在细结构与小文字区域更具稳定性与自然性。
质量评估
在质量评估基准上,UARE 取得稳定的 PLCC/SRCC 结果,并在部分数据集上相对既有方法呈现显著优势,体现出“可评估、可解释、可迁移”的质量理解能力。
VILLA实验室简介
视觉信息智能学习实验室(VILLA)由北京大学长聘副教授张健于2019年创立,致力于视觉重建与生成、AIGC内容安全等前沿领域的研究,成立以来已在TPAMI、TIP、IJCV、CVPR、ICCV、NeurIPS等顶级期刊会议上发表论文120余篇,其开源项目在GitHub平台获得广泛关注,累计star数超过10k。实验室负责人张健副教授谷歌学术引用逾1.5万次,h-index达61,其单篇一作论文最高被引超1500次,累计荣获国际期刊/会议最佳论文奖6项及全球挑战赛冠军1项。
近期代表工作包括:图像条件可控生成模型T2I-Adapter、拖拽式细粒度图像/视频编辑DragonDiffusion/ReVideo、全景视频生成模型360DVD/OmniDrag、全景内容处理/增强方案ResVR/OmniSSR、零值域扩散重建模型DDNM、高效扩散超分方案AdcSR、动态场景重建框架HiCoM/OpenGaussian、实用图像压缩感知重建PCNet、多模态篡改检测大模型FakeShield、支持AIGC篡改定位与版权保护水印技术OmniGuard/EditGuard、多模态画质理解大模型Q-Insight/VQ-Insight等。多项技术已成功应用于产业界,获得国内外知名企业的产品化落地。
实验室动态可通过官网(https://villa.jianzhang.tech/)或张健老师个人主页(https://jianzhang.tech/)查看。
....
#ContextGen
精准布局+身份一致,多实例图像生成比肩 Nano Banana
现在的扩散模型(Diffusion Models),在单主体图像生成上已经表现得非常出色。但当任务升级为多实例图像生成(Multi-instance Image Generation, MIG)时,模型就陷入了两难:它很难同时做到精确控制多个物体的位置和保持多个主体的精细身份细节。
为了克服这种“控制-保真”的两难,来自浙江大学 ReLER 团队基于 Diffusion Transformer (DiT) 提出了一个名为 ContextGen 的生成框架。它的核心思想,是将布局信息(Layout)与参考图像信息(Reference)统一融入一个统一的上下文中,利用上下文学习生成既精准对位又身份稳定的多实例图像。
- 论文标题:ContextGen: Contextual Layout Anchoring for Identity-Consistent Multi-Instance Generation
- 作者:Ruihang Xu, Dewei Zhou, Fan Ma, Yi Yang
- 机构:浙江大学 ReLER 实验室
- 论文地址:https://arxiv.org/abs/2510.11000
- 代码仓库:https://github.com/nenhang/ContextGen
ContextGen 与现有开源和闭源模型对比
多实例生成的“双重难题”:位置不准 & 身份丢失
传统的图像生成方法,无论是专注于布局的 Layout-to-Image 模型,还是专注于身份的 Subject-Driven 模型,都无法完美应对多实例生成的需求:
- 布局模型的痛点:专注布局的方法,不仅大部分都缺乏对主体参考图像的显式支持,而且当布局复杂时,还经常出现实例遗漏和属性错误的问题。少数同时支持参考图像的模型,在生成的效果上也难以令人满意。
- 身份模型的痛点:专注身份的方法已经在定制化图像生成领域非常流行,但当参考图像数量增加(比如要生成三个以上的人和物体)时,模型极易出现身份混淆和特征丢失,无法维持每个实例的细节。
- 数据集的痛点:很多专注身份的方法都附带了庞大规模的高质量数据集,但是这些数据集基本都没有提供精确的布局与身份标注对,而且奇缺实例较多的复杂场景,限制了模型的训练效果。少数包含布局标注的数据集,除了缺乏复杂场景外这一“通病”外,其参考图像与真值图像之间也缺少足够的变化,限制了数据集的多样性。
ContextGen 如何实现布局控制和身份一致?
ContextGen 的整体架构基于 DiT,但其真正的创新之处在于设计了双重上下文控制机制,将位置和身份信息同时、高效地注入到生成过程中。
ContextGen 框架图
1. Contextual Layout Anchoring (CLA):实现“指哪打哪”
为了从实现精准的空间定位,ContextGen 引入了上下文布局锚定机制 (CLA) 。
CLA 将合成布局图像作为一种宏观的结构先验,将其融入到生成上下文中。通过一个层级注意力架构,CLA让注意力机制在文本、布局图像和待生成图像之间进行充分交互,确保模型在去噪的初始阶段和最终阶段都高度关注宏观的布局信息,从而实现对每个实例的精准锚定,确保它们出现在指定的位置上。
2. Identity Consistency Attention (ICA):保证“细节一致”
有了精准的定位还不够,必须保证身份细节不丢失。为此,ContextGen 设计了身份一致性注意力机制 (ICA) 。
ICA 将高保真参考图像加入到上下文,并部署在模型的中间层。它使用隔离式的注意力掩码,强制生成图像中某个实例的区域,只能与其对应的参考图像标记进行交互。这相当于给每个实例的身份细节加上了一把“锁”,有效避免了信息在不同主体间混淆或在压缩去噪过程中丢失。实验发现,这把“锁”不仅能缓解因重叠、压缩等原因导致的身份信息丢失,还能待生成尺寸增大时依然保持高保真度。
数据支持:发布首个大规模分层数据集 IMIG-100K
为了更好地训练这种复杂的双重控制能力,研究团队还同步推出了 IMIG-100K 数据集。这是首个为图像引导的多实例生成任务提供详细布局和身份标注的大规模、高质量、分层结构合成数据集。该数据集包括三种不同的复杂度层级,经历了严格的质量控制,并提供了人脸信息的特殊标注,确保了数据的多样性和实用性。
IMIG-100K 数据集示例
IMIG-100K 标注示例
深度优化:DPO 强化学习解放生成多样性
实验过程中,研究团队发现单纯的监督微调容易导致模型过拟合训练数据,僵硬复制布局,限制了生成图像的多样性。为此,他们引入了基于偏好优化(Direct Preference Optimization, DPO)的强化学习阶段。 在这个阶段使用布局图像作为非偏好样本,鼓励模型在保持布局一致性的同时,生成更多样化且高质量的图像。
DPO 前后对比
实验效果:布局精准,身份保真
为了验证 ContextGen 的性能,ReLER团队在多个主流的多实例生成基准上进行了大量实验。
身份保真超越 SOTA,比肩闭源巨头
在评估身份保留和特征一致性的 LAMICBench++ 任务上,ContextGen 体现出了非常突出的性能。从表格可以看到,在实例数量较多时,ContextGen 在两个身份一致性的关键指标(IDS, IPS)上均比肩甚至超过了 Nano Banana 等闭源模型。
LAMICBench++ 定量对比
定性对比显示,ContextGen 在复杂多实例场景下(多风格融合、多实例交互)能更准确地保留每个主体的身份和属性细节。
LAMICBench++ 定性对比1
LAMICBench++ 定性对比2
空间控制准确度大幅提升
在 COCO-MIG 基准测试中,ContextGen 的空间控制能力同样领先:实例级成功率提高了 3.3% ,空间准确性(mIoU)提高了 5.9% ,证明了 CLA 机制的有效性。在 LayoutSAM-Eval 基准上,ContextGen 在纹理和颜色正确性上也保持领先。
COCO-MIG 定量对比
COCO-MIG 定性对比
LayoutSAM-Eval 定性对比
前端支持:动动手指玩转自定义多实例
为了便于用户体验 ContextGen 的功能,团队还在项目文件中包含了一个简易的前端界面。用户只需上传参考图像,拖拽自定义布局,即可生成自己的多实例图像。

ContextGen 前端界面
写在最后
ContextGen 通过创新的双重上下文注意力机制,解决了多实例图像生成中位置精确控制与身份高度保真的难题。IMIG-100K 数据集的发布,也为该领域的后续研究提供了宝贵资源。ReLER 团队计划在未来进一步探究,如何更准确地理解文本意图,协调多模态参考信息,以实现更加智能化的图像生成。
....
#TurboDiffusion
从77分钟到22秒!清华等开源TurboDiffusion:视频生成速度最高提升205倍
这是一个激动人心的指标,所以在开源社区获得了极大的关注,来自清华大学、生数科技和UC伯克利的研究团队联手打造的视频生成加速框架——TurboDiffusion。
相信玩过AI视频生成的朋友都有过类似的体验:输入提示词,点击生成,然后就是一段漫长的等待,短则几分钟,长则数小时。一杯咖啡喝完了,视频还没“出炉”。这种“慢”极大地限制了视频生成技术的普及和应用。而TurboDiffusion的出现,就像是给视频生成模型装上了涡轮增压引擎,直接将端到端的生成速度提升了100到205倍,同时还基本不损失视频质量。
- 论文标题:TurboDiffusion: Accelerating Video Diffusion Models by 100–205 Times
- 作者机构:清华大学;生数科技;美国加州大学伯克利分校
- 论文链接:https://jt-zhang.github.io/files/TurboDiffusion_Technical_Report.pdf
- 代码仓库:https://github.com/thu-ml/TurboDiffusion
慢在哪里,如何“涡轮增压”?
视频扩散模型之所以慢,主要是因为它们需要在巨大的数据维度上进行成百上千次的迭代计算(即“采样步数”)来从噪声中还原出清晰的视频帧。每一步都涉及到庞大的神经网络计算,尤其是注意力(Attention)机制,计算量巨大。
TurboDiffusion的思路非常直接:既然多个环节都慢,那就对它们进行全方位的系统性优化。它不是一个全新的视频模型,而是一个可以应用在现有预训练模型上的“加速框架”。其核心技术“组合拳”包含四大法宝:
- 注意力加速 (Attention Acceleration):这是优化的重头戏。TurboDiffusion融合了两种技术,一是使用SageAttention进行低比特量化计算,二是引入可训练的稀疏线性注意力 (Sparse-Linear Attention, SLA),通过学习让注意力机制只关注最重要的信息,从而大幅减少计算量。
- 步数蒸馏 (Step Distillation):通过一种名为rCM的高效蒸馏方法,将原本需要上百步的采样过程,提炼压缩到仅需3到4步就能完成,而且质量损失很小。
- W8A8量化 (W8A8 Quantization):将模型中的参数和计算过程中的激活值都从传统的32位浮点数“压缩”成8位整数(INT8)。这不仅让模型体积减半,还能利用现代GPU的INT8 Tensor Cores进行超高速计算。
- 底层算子优化:团队还用Triton或CUDA重写了诸如LayerNorm等一些底层计算模块,进一步提升效率。
训练时,SLA微调和rCM蒸馏可以并行进行,最后将两者的参数更新合并。到了推理阶段,这些优化手段协同发力,最终实现了惊人的加速效果。
加速效果有多猛?
Talk is cheap, show me the numbers. 让我们看看在单个RTX 5090显卡上的实测数据。
从这个图表可以直观地看到,TurboDiffusion在多个主流视频生成模型上都取得了显著的加速。例如,在Wan2.1-T2V-14B-720P模型上,原始生成需要4648秒(约77分钟),而TurboDiffusion仅需22.7秒,实现了205倍的惊人加速。即使是对于参数量较小的模型,也实现了近百倍的速度提升。
上面这两张图的对比更具冲击力。同样是生成一个5秒的视频,在Wan2.1-T2V-1.3B-480P模型上,原始方法需要166秒,而TurboDiffusion仅需1.8秒,几乎达到了“实时”生成的水平。
更重要的是,加速并没有以牺牲质量为代价。论文中展示了大量TurboDiffusion与原始模型以及另一个加速框架FastVideo的生成效果对比。
E2E Time: 166s

Original
E2E Time: 1.8s
TurboDiffusion
例如,在上图这个东京街景的例子中,TurboDiffusion(1.8秒)生成的视频在细节和动态效果上,与需要166秒的原始版本相比几乎没有差别,但明显优于需要4.7秒的FastVideo。
再来看一个I2V(图像到视频)生成的例子,原始生成需要4183秒(近70分钟),而TurboDiffusion仅需35.4秒。
从这些对比可以看出,TurboDiffusion不仅实现了速度上的巨大突破,还保持了很高的生成质量,展示了其方法的优越性。
写在最后
这个项目开源不到两天,已经几百星标,可见社区对这种接地气的项目的欢迎程度。
作者在仓库中称代码和模型还在优化中,可能最终发布的论文指标会更好,感兴趣的同学可以持续关注。
....
#LTPE
图像超分新范式:LTPE 以局部纹理分布约束,兼顾视觉质量与参数效率
LTPE 用可微局部纹理模式估计替代 GAN,双分支协同“以纹理导纹理”,在 Urban100 等测试集 PI 提升 12–18%、LPIPS 降 15–20%,参数量仅为 ESRGAN 1/3,零虚假纹理。
在图像超分辨率(SR)领域,高频纹理的精准恢复始终是核心挑战。传统方法要么因依赖像素级损失导致纹理过度平滑,要么因采用生成对抗网络(GAN)引发虚假纹理与参数冗余问题。近期发表于TPAMI 2025的论文《Local Texture Pattern Estimation for Image Detail Super-Resolution》提出了一种全新解决方案,通过局部纹理模式估计(LTPE)策略,在不使用GAN的情况下实现了逼真纹理的高效恢复。本文将系统解析该方法的技术框架与实验成果。
论文信息
- 题目:Local Texture Pattern Estimation for Image Detail Super-Resolution 基于局部纹理模式估计的图像细节超分辨率
- 作者:Fan Fan, Yang Zhao, Yuan Chen, Nannan Li, Wei Jia, Ronggang Wang
01 研究背景:纹理恢复的两难困境
单图像超分辨率(SISR)的核心目标是从低分辨率(LR)图像中重建高分辨率(HR)内容,其中高频纹理的还原直接决定视觉质量。现有方法存在显著局限:
- 传统深度学习模型:基于L1/L2损失的逐像素优化虽能保持边缘清晰,但会平均化随机高频成分,导致纹理模糊(图2展示了边缘与纹理的结构差异)。
- GAN-based方法:通过对抗损失提升纹理逼真度,但全局语义约束宽松易产生虚假纹理,且模型参数规模庞大(如ESRGAN参数量达数百万)。
- 传统纹理增强策略:如反投影(BP)或字典学习,因依赖人工参数调整或过度关注稳定边缘,难以持续提升纹理质量。
论文观察到HR与LR图像的局部二值模式(LBP)存在显著差异(图1):HR图像的LBP图包含丰富高频变化,而LR插值图像的LBP图则呈现平滑分布。这一发现为基于纹理结构先验的恢复策略提供了关键启发。

图1:HR图像(上)与LR插值图像(下)的LBP特征对比,可见HR图像具有更丰富的局部纹理变化
02 核心方法:基于LTPE的双分支协同框架
论文提出的方法通过三个关键组件实现纹理增强:可微的LTPE模块、纹理增强分支与纹理融合SR分支,整体采用双分支架构(图5),在保持轻量级特性的同时实现精准纹理恢复。
2.1 可微局部纹理模式估计(LTPE)模块
传统LBP算子因含不可微符号函数,无法直接嵌入神经网络。LTPE模块通过改进设计实现端到端训练:
- 核心原理:采用8个3×3微分卷积核(中心值为1,邻域值为-1)模拟局部像素差异比较,通过加权求和与实例归一化(IN)生成纹理描述图(图6)。
- 优势:相比LBP,LTPE能更精准地聚焦真实纹理区域,抑制平滑区域的噪声响应(图7)。例如在平坦区域,LBP可能误判高频变化,而LTPE通过连续值输出避免了二值化的粗糙性。

图7:从左至右依次为原图、LBP图、LTPE图,可见LTPE对纹理区域的识别更精准
2.2 双分支架构设计
2.2.1 纹理增强分支
接收LR图像的LTPE图作为输入,通过4个局部纹理增强块(LTEB)重建HR级别的纹理模式。每个LTEB采用残差结构,专注于恢复毛发、树叶等高频细节(图7中d→e的增强效果)。该分支通过学习局部纹理分布规律,避免了GAN生成的随机性。
2.2.2. 纹理融合SR分支
以LR图像为输入,通过4个纹理融合增强块(TFEB)整合图像特征与纹理特征。关键创新在于纹理转移层(TTLayer):
- 先将增强后的纹理特征作为高频残差注入图像特征
- 通过可调节系数λ控制注入强度(实验验证0.2为最优值)
- 采用卷积层融合双通道特征,避免直接拼接导致的域差异问题
最终通过2个残差局部特征块(RLFB)与上采样模块生成SR结果。

图5:双分支架构示意图,左侧为纹理增强分支,右侧为融合SR分支,两者通过纹理转移层协同工作
2.3 多损失函数优化策略
为平衡纹理逼真度与结构一致性,采用四项损失加权组合:
- L1损失:约束像素级一致性,抑制整体失真
- Gram损失:通过VGG特征的Gram矩阵匹配,增强局部纹理多样性
- 纹理L1损失:确保预测LTPE图与真实值的一致性
- 纹理Gram损失:优化纹理特征的分布特性
这种组合既避免了单一损失导致的平滑效应,又通过纹理约束防止高频噪声污染。
03 实验验证:性能与泛化性分析
3.1 实验设置
- 数据集:DIV2K训练集(800张2K图像),7个测试集(Urban100、OST300等)
- 退化模型:4倍下采样+双三次插值(最大化高频信息损失)
- 评价指标:同时采用传统指标(PSNR、SSIM)与感知指标(PI、LPIPS、DISTS等)
3.2 与SOTA方法的对比
3.2.1 非GAN方法对比
在Urban100等数据集上,所提方法在感知指标上显著领先:
- PI(感知指数)提升12-18%,LPIPS(感知相似度)降低15-20%
- 主观对比显示(图10),在毛发、建筑细节等纹理密集区域,恢复效果远超RLFN、SwinIR等方法

图10:非GAN方法对比(从左至右:LR、GT、所提方法、RLFN、SwinIR),所提方法的纹理细节更丰富
3.2.2 GAN方法对比
与ESRGAN、RealESRGAN等相比:
- 客观指标:LPIPS与DISTS值相当,但参数规模减少60%以上
- 主观质量:在砖块、毛发等纹理上(图9),所提方法避免了GAN常见的结构失真(如砖块排列紊乱)

图9:GAN方法对比(左:GT,中:ESRGAN,右:所提方法),可见所提方法的纹理结构更贴合真实
3.2.3 用户研究
18名观察者对10组图像的评分显示,所提方法的平均意见得分(MOS)比次优方法高0.3-0.5分,验证了其视觉感知优势。
3.3 消融实验
关键组件的有效性验证:
- 纹理转移层:去除后LPIPS值下降11.3%,证明其在特征融合中的关键作用
- LTPE模块:替换为LBP后,纹理错误率增加23%
- Gram损失:单独使用会引入噪声,与LTPE结合后可提升感知质量
04 创新价值与未来方向
该研究的核心贡献在于:
- 理论突破:提出"以纹理导纹理"的非生成式策略,为纹理恢复提供新范式
- 工程设计:可微LTPE模块与纹理转移层的设计,实现了纹理特征的有效嵌入
- 性能平衡:在参数规模(仅为ESRGAN的1/3)与纹理质量间取得优异平衡
局限性方面,该方法在PSNR等传统指标上略有妥协。未来可通过以下方向改进:
- 结合生成模型,为纹理区域与边缘结构设计差异化损失
- 探索与AIGC模型的融合,利用大模型先验优化纹理一致性
该研究为超分辨率领域提供了一条摆脱GAN依赖的新路径,其局部纹理结构约束的思路也可扩展至图像修复、风格迁移等任务,具有重要的学术与应用价值。
....
#ConvRot
推理速度提升2.26倍,内存需求降低4倍!清华&华为提出DiT新型4-bit量化方案ConvRot
介绍一篇在消费级显卡上流畅运行超大文生图模型的新方案。这篇论文名为 《ConvRot: Rotation-Based Plug-and-Play 4-bit Quantization for Diffusion Transformers》,提出了一种名为 ConvRot 的新方法,能够在几乎不损伤图像生成质量的前提下,大幅压缩模型尺寸并提升推理速度。
简单来说,这项技术可以让强大的文生图模型(比如最近很火的FLUX.1系列)在运行时变得更“轻”、更“快”。实验数据显示,它实现了高达 2.26倍 的推理加速和 4.05倍 的内存压缩。最关键的是,这一切都是即插即用、无需重新训练的。
- 论文标题: ConvRot: Rotation-Based Plug-and-Play 4-bit Quantization for Diffusion Transformers
- 作者: Feice Huang, Zuliang Han, Xing Zhou, Yihuang Chen, Lifei Zhu, Haoqian Wang
- 机构: 清华大学;华为
- 论文地址: https://arxiv.org/abs/2512.03673
为什么我们需要给扩散模型“瘦身”?
近几年,扩散模型(Diffusion Models)在图像生成领域可以说是大放异彩,无论是 Midjourney 还是 Stable Diffusion,背后都有它的身影。尤其是基于Transformer架构的扩散模型(DiT),比如论文中提到的FLUX.1,参数量动辄上百亿,生成图片质量极高,但代价也非常“高”——巨大的内存占用和漫长的推理时间,通常需要高端数据中心级的GPU才能玩得转。
为了让这些模型能飞入寻常百姓家,学术界和工业界一直在探索模型压缩技术,而量化(Quantization) 就是其中的明星方案。它的核心思想很简单:用更少的比特数(比如从32位浮点数降到4位整数)来表示模型的权重和激活值。
然而,给DiT做低比特量化,尤其是4-bit这么极限的量化,会遇到一个棘手的拦路虎——异常值(Outliers)。想象一下,一组数据大部分都在0到10之间,突然冒出个5000,这个“鹤立鸡群”的5000就是异常值。它会严重扭曲量化的范围,导致其他正常数值的精度损失惨重,最终生成的图像质量大幅下降。
图示:低比特量化可能导致的图像质量下降,如出现色块(mosaicking)
现有方法的困境与ConvRot的破局之道
为了解决异常值问题,之前在大型语言模型(LLM)上,研究者们提出了一些基于旋转(Rotation-based) 的方法,比如 QuaRot。这类方法通过一个正交变换(旋转)将异常值的“能量”均匀地分散到其他数值上,从而让整个数据分布变得更平滑,更容易量化。
但是,把这些方法直接搬到DiT上却水土不服。研究者们发现DiT里存在一种LLM中不常见的“行异常值”(row-wise outliers)。标准的旋转方法(如基于Sylvester类型Hadamard矩阵的快速变换)在处理这种异常值时,不仅没能抚平它们,反而可能让它们“抱团”,变得更加极端,导致性能雪上加霜。
图示:当遇到行异常值时,传统的Hadamard矩阵会导致能量集中,加剧异常值问题。
此外,DiT中特有的 AdaLN(自适应层归一化)结构也破坏了原有方法中一些加速融合运算的技巧,使得旋转操作本身带来的额外计算开销变得难以忽视。
面对这些挑战,ConvRot 提出了两大创新来破局。
创新一:分组式正则哈达玛变换 (Group-wise RHT)
首先,ConvRot 不再对整个巨大的激活张量进行全局旋转,而是创造性地采用了分组(group-wise) 的策略。它将输入特征沿着通道维度切分成若干个小组,在每个小组内部进行独立的旋转。这种化整为零的思路,直接将旋转的计算复杂度从二次方级别 降低到了线性级别 ,极大地减少了计算开销。
图示:不同变换对异常值的处理方式。(a) SmoothQuant转移异常值。(b) QuaRot全局均匀分布能量。(c) ConvRot(本文方法)在滑动窗口内进行局部的平滑处理。
更重要的是,ConvRot 选用了一种特殊的旋转矩阵——正则哈达玛矩阵(Regular Hadamard Matrix, RHT)。与标准Hadamard矩阵不同,RHT具有更优秀的数学性质(最小的列差异性 column discrepancy),能够保证在旋转过程中同时有效地抑制“行异常值”和“列异常值”,避免了前述的异常值放大问题。
图示:在FLUX模型的激活值上,标准Hadamard变换将异常值从14.48放大到了106.19,而本文的Group-wise RHT则成功将其抑制到了9.26。
这个方法之所以叫 ConvRot (Convolutional Rotation),是因为这种在滑动窗口(分组)上进行矩阵乘法的操作,形式上与卷积操作有异曲同工之妙,融合了卷积和旋转的思想。
创新二:即插即用的ConvLinear4bit模块
基于 ConvRot 思想,论文设计了一个名为 ConvLinear4bit 的模块。这是一个封装好的、可以即插即用的线性层。开发者无需修改模型原有的复杂结构,只需要将DiT模型中的标准 Linear 层替换成这个 ConvLinear4bit 层,就能立刻拥有4-bit量化推理的能力。
这个模块内部无缝集成了一整套流程:RHT旋转 -> 4-bit量化 -> 4-bit矩阵乘法 -> 反量化。整个过程对用户透明,极大地降低了使用门槛。
图示:ConvRot 整体框架。右侧是分组RHT操作,左侧展示了 ConvLinear4bit 模块如何作为Linear层的替代品。
实验效果:速度与质量的双赢
那么,ConvRot 的实际效果如何呢?论文在120亿参数的 FLUX.1-dev 模型上进行了详尽的实验。
惊人的效率提升
ConvRot 实现了名副其实的“瘦身减负”。
- 内存方面:相比于原始的BF16模型(22.7 GiB),W4A4量化后的模型内存占用仅为 5.6 GiB,压缩了 4.05倍。这意味着原本需要A100/H100才能跑的模型,现在一张RTX 4090就能轻松驾驭。
- 速度方面:在4090上,50个step的推理时间从54.6秒缩短至 23.2秒,实现了 2倍以上 的加速。
表:在FLUX.1-dev模型上,ConvRot (W4A4) 与BF16基线及其他方法的内存与延迟对比。
保持高质量的视觉效果
当然,谈速度更要谈质量。ConvRot 在W4A4全量化下,虽然图像质量有轻微的、可感知的下降(主要体现在一些平滑区域的细节上),但已经达到了当前INT4方法中的顶尖水平。
图示:使用不同旋转尺寸生成的图像对比,可以看出即使在4-bit量化下,图像的主要内容和结构都得到了很好的保留。
更令人惊喜的是,论文还提出了一种混合精度策略。通过将模型中约20%的“敏感层”用稍高一点的8-bit精度(W8A8)来处理,其他层依然使用W4A4,最终生成的图像质量几乎可以与原始的BF16模型媲美,而性能开销增加不多。
表:端到端性能对比。可以看到,采用混合精度策略的ConvRot (W4A4+20%INT8) 在FID等指标上已经非常接近原始BF16模型。
图示:混合精度策略能有效改善纯W4A4量化带来的图像细节损失。
....
#LoVoRA
视频编辑界的新标杆!清华&华为等提出LoVoRA:自建数据+感知定位,无需辅助mask也能精准编辑
视频物体移除和添加是视频编辑中的两项基本任务,它们不仅要求精准的空间定位,还需要维持时间上的一致性以及与背景的完美融合。现有的方法大多依赖于用户提供显式的掩码(Mask)或参考图像来指导编辑,这不仅限制了扩展性,也增加了用户的使用门槛。为了解决这些痛点,清华大学、华为和中国科学技术大学的研究团队联合提出了一种全新的无掩码视频物体移除和添加框架——LoVoRA。
- 论文标题:LoVoRA: Text-guided and Mask-free Video Object Removal and Addition with Learnable Object-aware Localization
- 论文作者:Zhihan Xiao, Lin Liu, Yixin Gao, Xiaopeng Zhang, Haoxuan Che, Songping Mai, Qi Tian
- 作者机构:清华大学;华为;中国科学技术大学
- 论文链接:https://arxiv.org/abs/2512.02933
- 项目主页:https://cz-5f.github.io/LoVoRA.github.io
- 数据集:https://huggingface.co/datasets/cz-5f/LoVoRA
LoVoRA 引入了一种可学习的目标感知定位机制(Learnable Object-aware Localization),能够在没有外部控制信号的情况下,仅凭文本指令就实现端到端的精准视频编辑。此外,团队还构建了一个高质量的视频编辑数据集,通过光流引导的掩码传播技术,确保了时间上的连贯性。实验证明,LoVoRA 在编辑质量和语义跟随能力上均优于现有的 SOTA 方法。
研究背景与动机
随着扩散模型(Diffusion Models)的发展,视频生成的真实感和可控性有了质的飞跃。然而,在具体的“物体级”视频编辑任务(如“移除画面中的眼镜”或“在船上加一面旗帜”)中,现有的解决方案仍显得捉襟见肘:
- 依赖辅助输入:像 VideoComposer、AVID 等方法需要用户提供遮罩(Mask),而 VideoAnyDoor 等还需要参考图像。这使得编辑过程变得繁琐,一旦 Mask 画得不准,效果就大打折扣。
- 任务单一:现有模型通常只能专精于添加或移除中的一种,缺乏一个统一的框架来应对多样化的编辑需求。
- 定位困难:在没有 Mask 的情况下,如何让模型仅凭一句话就知道“该改哪里、不该改哪里”,是一个巨大的挑战。纯文本引导往往会导致全局的“过度编辑”或局部的“编辑不完整”。
为了打破这些限制,作者提出了 LoVoRA,旨在实现一个完全端到端、无掩码、仅需文本引导的通用视频编辑框架。
LoVoRA 核心技术与方法
LoVoRA 的核心创新在于两点:一是构建了一个高质量、带有密集运动掩码监督的视频编辑数据集;二是设计了一个集成在视频编辑骨干网络中的可学习目标感知定位机制。
LoVoRA 整体架构图。输入视频通过 VAE 编码,与噪声潜变量拼接后送入 DiT 骨干网络。扩散掩码预测器(DMP)利用 DiT 的中间特征预测时空掩码,引导模型关注编辑区域。
高质量数据集构建流水线
现有的数据集(如 InsViE-1M, Ditto-1M)在时间和空间分辨率上往往较低,且由于逐帧生成导致背景不一致。为了解决 “教模型在哪里编辑” 的问题,研究团队基于 NHR-Edit 图像编辑数据集,设计了一个五阶段的视频数据合成流水线:
- I2V 生成:利用 Wan2.2 模型将编辑前后的图像对转化为视频,保证背景的时空一致性。
- 掩码生成:结合 Grounding DINO 和 SAM2,在首相帧上生成精准的物体 Mask。
- 光流估计:使用 GMFlow 计算帧间光流。
- 掩码传播:通过光流将首帧 Mask 传播到整个视频序列,形成连续的光流引导掩码流(Optical Flow Guided Mask Propagation),作为密集的时空监督信号。
- 视频修复:使用 VACE 模型进行视频修复,最终生成成对的原始视频和编辑后视频。
图2:数据集构建流程。包含图像到视频转换、掩码生成、光流估计、掩码传播和视频修复五个步骤。
相比其他数据集,该数据集(包含 8K 视频对)提供了更精准的运动感知掩码(Motion-aware Masks)和光流监督,这对于训练模型“学会定位”至关重要。
数据集对比。本数据集在分辨率、帧率及 Prompt Following (PF) 和 Edit Quality (EQ) 指标上均表现优异。
可学习的目标感知定位
LoVoRA 模型建立在时空整流流(Rectified-Flow)视频编辑骨干网络之上。为了实现无 Mask 编辑,作者引入了一个轻量级的扩散掩码预测器(Diffusion Mask Predictor, DMP)。
- 工作原理:DMP 读取 DiT 骨干网络的中间层 Token 特征,通过一个简单的 MLP 和三线性插值,预测出一个软时空掩码(Soft Spatio-temporal Mask)。
- 训练策略:在训练阶段,模型利用数据集中构建的 Ground-Truth 掩码来监督 DMP 的学习(使用 BCE Loss)。同时,引入掩码加权损失(Mask-weighted Loss),强迫模型重点优化掩码区域内的流场预测,而忽略无关背景。
- 推理优势:关键点在于,DMP 仅在训练时用于辅助学习定位能力,推理时完全不需要任何 Mask 输入。模型已经内化了“听指令找位置”的能力。
扩散掩码预测器(DMP)的消融实验。对比可见,引入 DMP 后,模型能够更精准地定位编辑区域,而未加 DMP 的版本则容易出现定位漂移。
实验结果与分析
研究团队在 DAVIS 和自建的 LoVoRA-Bench 上进行了广泛的对比实验,对比了包括 VideoComposer, Senorita, Ditto, LucyEdit 等在内的多个先进模型。
定量评估
评价指标涵盖了文本对齐度(Text Alignment)、视频质量(Video Quality, 基于 VBench)以及基于 VLM(MiniCPM-V2.6)的语义评分(PF & EQ)。
物体移除任务对比。LoVoRA 在 VLM 评分(PF: 4.608, EQ: 4.882)上大幅领先,同时保持了极高的背景一致性。
物体添加任务对比。LoVoRA 同样表现出色,证明了其在不同任务上的通用性。
结果显示,LoVoRA 在绝大多数指标上都取得了最优或次优的成绩。特别是在VLM 语义评分上,优势明显,说明其生成的视频更符合人类的语言描述。
定性展示
物体移除与添加任务。无论是移除还是添加,LoVoRA 都能够精确地定位目标区域,干净地移除或无缝地插入物体,并以稳定的时间连贯性(temporal coherence)保留原始背景内容。
用户调研
作者还对比了包括商业软件 Kling(可灵)在内的系统。用户调研结果表明,LoVoRA 在编辑完整性(Editing Completeness)上优于现有的基于参考图像的方法,并且在整体体验上接近商业级产品,但 LoVoRA 拥有更强的指令遵循能力,不会像商业模型那样经常“擅自”修改背景细节。
写在最后
目前代码还没有开源,感兴趣的小伙伴可以关注一下后续进展~
一起来看看效果吧:
给人物加上眼镜:
,时长00:03
删除桥:
,时长00:05
删除木桩:
,时长00:05
在船上插上红旗:
....
#Pixel2Pixel
顶刊速递!:基于非局部自相似性的零样本去噪,真实RGB 与显微图像均获 SOTA
Pixel2Pixel 仅用一张噪声图,通过“非局部找亲戚+随机组队”打破噪声相关性,训练 5 层 CNN 完成零样本去噪,在 SIDD、FMD 等真实数据集上 PSNR 领先 0.8-1.5 dB,细节与色彩双双在线。
你有没有过这样的经历:拍了一张超有意境的夜景照,结果放大一看全是密密麻麻的噪点;显微镜下的细胞图像糊成一团,关键细节根本看不清?图像去噪,这个看似基础的任务,其实藏着不少门道。
传统去噪方法要么需要大量干净-噪声图像对当“教材”,要么在面对真实世界复杂噪声时掉链子。但今天要给大家介绍的这篇TPAMI 2025新论文,直接颠覆了我们对去噪的认知——只用单张噪声图像,就能实现超高质量去噪!它就是由Qing Ma等人提出的Pixel2Pixel,一个靠“像素自己教自己”的零样本去噪框架。
论文信息
- 题目:Pixel2Pixel: A Pixelwise Approach for Zero-Shot Single Image Denoising
- 像素对像素:一种用于零样本单图像去噪的逐像素方法
- 作者:Qing Ma, Junjun Jiang, Xiong Zhou, Pengwei Liang, Xianming Liu, Jiayi Ma
先聊聊:为什么去噪这么难?
在说Pixel2Pixel之前,咱们得先明白:去噪难在哪?
过去的深度学习去噪方法,要么是“监督派”——拿着海量干净图和对应噪声图当训练数据,让模型死记硬背“噪声长啥样”。但这种方法有个大问题:现实中的噪声千奇百怪(比如相机传感器噪声、低光噪声、显微镜噪声),训练数据里没见过的噪声,模型就抓瞎。
后来又出现了“自监督/零样本派”,试图摆脱对干净图的依赖。比如有些方法会从单张噪声图里扣一小块区域,用相邻像素当“伪干净样本”。但这些方法有个致命缺陷:太依赖局部相似性,没考虑真实噪声的空间相关性。
啥意思?真实世界的噪声可不是杂乱无章的,相邻像素的噪声往往“抱团”(比如相机传感器的热噪声)。如果采样的像素离得太近,噪声很可能高度相关,相当于用“带偏见的数据”训练模型,效果自然好不了。
01 Pixel2Pixel的核心思路:让像素“找亲戚”+“随机组队”
Pixel2Pixel之所以牛,就在于它跳出了“局部采样”的思维,用两个关键操作解决了上述问题:构建像素库和逐像素随机采样。咱们一步步来看。
第一步:给每个像素找“远房亲戚”——构建像素库
自然图像有个神奇的特性:非局部自相似性。简单说就是,图像里的图案会在不同地方重复出现(比如树叶的纹理、布料的花纹)。Pixel2Pixel就利用了这一点,给每个像素找“亲戚”。
具体怎么做呢?
- 拿一张噪声图,对每个像素(比如位置(i,j)的像素),先取它周围一小块区域(比如7x7的块)当“模板”;
- 在一个大窗口(比如40x40)里搜索和这个模板最相似的M个“远房亲戚”块(非局部的,离得远但长得像);
- 把这些相似块的中心像素拎出来,组成一个“像素库”。每个像素都有自己的“亲戚库”,整个图像就形成了一个巨大的4D张量(高度x宽度x通道xM)。
看下面这张图就明白了,每个像素都能在远处找到“长得像”的同伴,这些同伴虽然带着不同噪声,但核心内容是一致的:

第二步:让亲戚们“随机组队”——生成伪训练样本
有了像素库,接下来就是“训练数据”的生成。Pixel2Pixel玩了个聪明的操作:逐像素随机采样。简单说,就是对每个位置的像素,从它的“亲戚库”里随机挑两个不同的像素,组成一对“伪样本”(一个当输入,一个当目标)。这样一来:
- 生成的样本数量超级多(理论上能有M²×像素总数这么多),足够喂饱神经网络;
- 最重要的是,这些样本来自图像的不同位置,彻底打破了原始噪声的空间相关性(邻居变“网友”,噪声不抱团了)。
对比一下其他方法就知道多妙了:ZS-N2N只能固定从2x2小方块里采样,噪声相关性还在;而Pixel2Pixel的采样像素可能隔得很远,噪声几乎独立。看下面的噪声相关性对比,Pixel2Pixel生成的样本噪声相关性明显更低:

02 方法总体流程:从单张噪声图到干净图的魔法
把上面两步和网络训练串起来,就是Pixel2Pixel的完整流程,一目了然:
- 输入一张噪声图像;
- 为每个像素构建包含M个相似像素的“像素库”(利用非局部自相似性);
- 从像素库中随机采样,生成海量“伪样本对”;
- 用这些样本训练一个轻量CNN(5层卷积,结构简单但高效);
- 训练好的网络直接输出去噪结果。
整个过程不需要任何干净图像,也不需要提前知道噪声类型——管它是高斯噪声、椒盐噪声,还是相机实拍的复杂噪声,全能干掉!

03 实验结果:各种噪声下都碾压对手!
说再多理论不如看效果。Pixel2Pixel在各种噪声场景下的表现,只能用“惊艳”来形容。
3.1 合成噪声:零均值/非零均值通吃
先看合成噪声(实验室里能控制的噪声)。不管是高斯噪声(零均值)还是椒盐噪声(非零均值),Pixel2Pixel都稳坐第一。
比如高斯噪声(σ=50,高噪声水平),对比ZS-N2N、Self2Self等方法,Pixel2Pixel去噪后的图像既干净又保留了细节,而ZS-N2N还残留大量噪声,Self2Self则过度平滑:

再看椒盐噪声(像素随机变0或1),这种非零均值噪声很棘手,但Pixel2Pixel处理得干干净净,而其他方法要么去不彻底,要么糊成一片:

3.2 真实世界噪声:相机/显微镜图像大翻身
最能体现实力的还是真实场景。比如手机实拍的噪声图像(SIDD数据集),这些噪声复杂且有空间相关性,传统零样本方法表现拉垮,但Pixel2Pixel去噪后,细节清晰,色彩自然:

还有显微镜下的生物图像(FMD数据集),细胞、组织的细节对科研至关重要。Pixel2Pixel处理后,噪声没了,细胞边缘和内部结构看得清清楚楚,比其他方法强太多:

3.3 关键指标:PSNR全面领先
从定量指标(PSNR,数值越高越好)来看,Pixel2Pixel在所有测试集上都霸榜:
- 高斯噪声(Kodak24):比ZS-N2N高1-2dB,比Self2Self高0.5-1dB;
- 真实相机噪声(SIDD):比第二名MASH高0.8dB;
- 显微镜噪声(FMD):平均比其他方法高1.5dB以上。
这意味着它不仅视觉效果好,客观指标也硬气。
04 为什么Pixel2Pixel这么强?
总结一下它的核心优势:
- 零样本通用性:不用干净图,不用提前知道噪声类型,单张图就能搞定;
- 打破噪声相关性:非局部采样+随机配对,专治真实噪声的“抱团”问题;
- 利用图像自相似性:从全局找相似像素,即使局部细节被噪声破坏,也能从远处“借”信息修复;
- 轻量高效:5层CNN就能跑,训练快,适合实际应用。
写在最后:去噪技术的新方向
Pixel2Pixel的出现,不仅给图像去噪提供了一个新思路,更证明了“挖掘图像自身信息”的巨大潜力。对于那些难以获取干净样本的场景(比如医学成像、遥感监测、低光摄影),这种零样本方法简直是“及时雨”。
未来,或许我们手机拍的废片、显微镜下的模糊图像,都能靠这种“像素自救”技术重获新生。不得不说,让像素自己教自己去噪,这波操作太秀了!
....
#HP-Net
北大&大疆&同济提出HP-Net:基于热图池化的视频行为识别新范式
HP-Net 用“反馈池化”把姿态热图压缩成高维语义令牌,再与 RGB、文本做时空-运动协同融合,在 NTU-60/120、UAV-Human 等四数据集全面刷榜,极端光照遮挡下依旧鲁棒。
论文信息
- 作者: Mengyuan Liu, Jinfu Liu, Yongkang Jiang, Bin He
- 支持单位: 北京大学,大疆,同济大学
- 论文: https://arxiv.org/abs/2512.03837
- 代码: https://github.com/liujf69/HPNet-Action

01 HP-Net 到底解决什么问题?
缓解视频行为识别现有模态特征的缺陷:
- 原始视频帧背景复杂、噪声多
- 人体姿态信息缺失
- 人体热图信息冗余
- 基于反馈池化机制,均衡热图特征冗余和缺失
连接视频人体姿态估计和行为识别任务:
- 适用于受控实验、家居安防、空中无人机等环境
- 关键指标全面实现 SOTA 性能
- 支持RGB、文本、热图等多模态融合,实现多模态行为识别
- 与人体姿态估计正交,支持不同人体姿态估计网络
- 与视频人体检测正交,支持不同视频人体检测网络
02 HP-Net 源自什么动机?
在RGB视频行为识别中,一种常见的方式是获取人体姿态关节点,通过建模姿态的时空关系来实现人体行为识别。从RGB视频中估计人体姿态,存在原始RGB视频帧到离散姿态点的映射和转换,这一过程往往伴随着信息压缩和信息丢失的问题。如何合理利用姿态估计过程中产生的各种特征,例如不同阶段和不同分辨率的热图特征,是一个值得思考和探索的问题。
人体热图蕴含着大量人体运动的相关细节,同时也具有大量的冗余信息。论文的作者基于反馈的思想,首先从热图中估计人体姿态关键点,接着使用估计的人体姿态点来反馈池化不同阶段和不同尺度的热图,获取鲁棒、结构简洁和信息丰富的热图池化特征,用于视频人体行为识别。
相比于直接使用估计的人体姿态,基于反馈池化模块获取的热图池化特征,保留了更多关于人体运动的细节,具有更高维度的语义信息,与RGB、文本等模态具有互补性,适合用于视频行为识别等下游任务。
同时,为了实现更全面和鲁棒的视频行为识别,作者提出了空间-运动协同学习模块和文本细化调制模块,将提取的热图池化特征和RGB、文本等特征进行多模态融合,实现了多模态行为识别。
03 HP-Net核心模块解读
3.1 反馈池化模块
反馈池化模块使用RGB视频帧 作为输入,首先通过预训练人体姿态模型 获取不同阶段和不同尺度的热图特征 ,接着通过 的方法从热图中选取概率最高的坐标位置来估计人体姿态关键点 ,最后使用估计的人体姿态点来反馈池化特定范围 的热图,获取鲁棒、结构简洁和信息丰富的热图池化特征 。

3.2 空间-运动协同学习模块
空间-运动协同学习模块使用热图池化特征 作为输入,通过转换模块形成空间特征 和运动特征 ,接着使用三个独立的拓扑模型 来分别建模原始热图池化特征 ,空间特征 和运动特征 ,最后通过Concat的方式保留空间-运动热图池化特征 。空间-运动协同学习模块主要通过三个独立的拓扑模型(GCN或Transformer),来全面建模反馈池化模块获取的热图池化特征,同时设立不同的辅助损失来监督三个拓扑模型的有效训练。
3.3 文本细化调制模块
文本细化调制模块使用人体行为类别的文本作为输入,首先使用预训练文本编码器 来编码文本特征,接着使用空间-运动协同学习模块获取的热图池化特征 ,来细化调制文本特征,从而获取人体运动信息丰富的文本特征 。在具体实现上,文本细化调制模块会使用参数不共享的 网络,从热图池化特征 中获取缩放因子 和移位因子 ,来动态调整文本特征。
此外,作者还通过两个独立的投影层、逐通道减法和逐元素乘法来细化文本特征。最后,作者通过残差连接来融合原始文本特征,形成最终描述人体运动信息的文本特征 。
3.4 多模态行为识别
在作者提出的热图池化网络中,会进行RGB视频、文本和热图池化特征的多模态融合,充分利用多种模态的优势和互补性,实现鲁棒和全面的多模态行为识别。
在具体实现中,作者首先会通过视频Encoder从裁剪的人体RGB帧中提取RGB视频特征 ,接着会将RGB视频特征和人体运动信息丰富的文本特征 进行多模态融合,获取行为识别分类得分 。此外,作者使用了多流集成技术,将来自单流热图池化特征和多模态融合后的分类得分进行集成,实现了多流集成视频行为识别。
04 实验数据
作者在四个权威的公开视频数据集上进行了实验:NTU-RGB+D 60,NTU-RGB+D 120,UAV-Human和Toyota-Smarthome,涵盖受控实验、家居安防、空中无人机等场景,实现了全面的SOTA识别性能。


作者还探索了热图池化特征在GCN和Transformer架构建模的有效性,并与直接通过姿态估计网络、深度传感器获取的2D、3D姿态进行了公平对比,还通过T-SNE特征可视化等方法,全面论证了所提热图池化特征的有效性、泛化性和鲁棒性。


此外,作者还探索了热图池化网络在过曝、低光、遮挡等极端场景的表现性,同时展示了多流集成技术在单个样本识别和不同模态集成下的识别准确率。



相关讨论
作者创新性地回顾姿态估计和行为识别的关联,提出使用反馈池化机制来高效地获取信息丰富、鲁棒和结构简洁的热图池化特征,并与RGB、文本模态进行了有效融合,大量实验证明了热图池化网络的有效性、先进性和泛化性。作者对人体热图进行反馈池化的思想,不仅适用于视频人体行为识别任务,还可以迁移至视频人体手势识别、视频人体姿态估计等相关人体运动分析任务。
....
#FS-Diff
AVMS多模态数据集发布,FS-Diff 以语义驱动扩散统一融合超分范式
- 论文标题:FS-Diff: Semantic guidance and clarity-aware simultaneous multimodal image fusion and super-resolution
- 作者:接玉婵, 徐宇燊 , 李小松, 周富强, 吕建明, 李华锋
- 机构:华南理工大学、佛山大学、北京航空航天大学、昆明理工大学
- 发表信息:Information Fusion 2025
- 论文地址:https://doi.org/10.1016/j.inffus.2025.103146或https://arxiv.org/pdf/2509.09427
- 代码地址:https://github.com/XylonXu01/FS-Diff
作为一种重要的图像处理与信息融合技术,图像融合通过整合源图像中的互补信息,生成对场景全面、客观的场景解释。然而,在军事侦察、远距离探测等实际应用中,现有图像融合技术普遍存在目标与背景结构分辨率偏低、语义信息表征薄弱等核心缺陷,是当前研究的重要挑战。
为此,本工作提出 FS-Diff 模型,将图像融合与超分辨率重建统一建模为条件生成问题,借助清晰度感知机制的语义引导,实现自适应低分辨率感知与跨模态特征提取,为多模态融合统一框架构建提供有效技术路径。
此外,为拓宽图像融合与低空经济场景的应用边界,本工作还发布了无人机视角的AVMS数据集,其涵盖多种光照、场景及8991个目标标注,为多模态图像融合、超分、目标检测与语义分割等相关研究提供全新基准。
研究动机:解决多模图像融合与超分任务中的三重核心难题
图1. 在5个公开数据集及所构建的 AVMS 数据集上,FS-Diff方法以8倍放大倍数完成图像融合与超分辨率联合任务,展现出优异的融合性能。
解决问题一:低分辨率图像自适应处理失效:
在无人机航拍与高速无人系统中,由于成像距离较远,图像易出现结构破坏与分辨率退化。低分辨率多模态图像不仅削弱融合结果中的背景与目标清晰度,还会显著影响后续分割、检测等任务的性能。
现有针对低分辨率图像融合方法仅在低倍率下有效,难以自适应感知不一致且高倍率退化,从而无法满足实际应用中对性能与灵活性的要求。
解决问题二:跨模态语义不一致导致特征损失与信息缺失:
多模态图像之间存在固有结构差异与语义差异,融合方法需要同时保留全局结构与高层语义信息。然而现有方法难以有效解决跨模态特征对齐问题,导致融合过程中出现语义错配、全局结构信息不足与关键信息丢失,从而影响下游视觉任务的准确性。
解决问题三:缺乏面向无人机应用的多模态数据集:
现有多模态图像数据集多依赖手持设备拍摄,视场有限且缺乏航空视角数据,无法覆盖无人机拍摄中的多样光照(如白天、夜间、复杂天气)、多变拍摄距离与视角,且缺乏目标标注,难以支撑远距离拍摄场景下联合融合与超分辨率任务的训练及性能评估,限制了无人机系统在农业、军事等领域的多模态数据融合应用。
图2. FS-Diff的整体框架图
FS-Diff的解决方案
FS-Diff将图像融合与超分辨率统一为条件生成问题,通过前向扩散加反向去噪的流程实现端到端优化,核心框架包括三大关键模块。
- 双向特征 Mamba(BFM)模块:负责提取多模态图像的全局特征,通过将输入图像与噪声图像沿通道维度拼接,经 Vision Mamba 编码器处理,捕捉跨模态深层关联。解决传统方法全局特征提取能力不足的问题,增强对长距离依赖信息的建模。
- 清晰度感知机制(CLSE)与 清晰度感知CLIP模型(CA-CLIP): CA-CLIP基于预训练CLIP扩展,具备分辨率类型预测能力,可识别图像清晰/模糊状态。CLSE机制根据单模态模糊、双模态模糊等不同场景,自适应选择语义提取策略,通过跨注意力模块将语义信息注入融合过程。
- 提出的AVMS数据集: AVMS数据集是围绕多模态图像融合与超分辨率任务构建的航空视角基准数据集,核心解决现有数据集在航空场景覆盖、分辨率适应性、标注完整性等方面的不足,为无人机侦察、自动驾驶等实际应用提供高质量数据支撑。AVMS包含600组严格对齐的可见光与红外图像对,覆盖白天、黄昏、夜间、复杂天气4类光照条件,以及“居民区、道路、校园、公园、街道、体育场、停车场、农田,以及城市和乡村地区”等8个子场景。此外,提供8991个精确标注目标,标注格式适配目标检测、语义分割等高级视觉任务。
图3.(a)AVMS 数据集的图像对采集过程(b)后处理流程(c)场景分布情况
图4. AVMS数据集中的不同子场景可视化分布
实验验证
实验采用4个可见光-红外图像融合数据集:LLVIP、M³FD、MSRS,以及自主构建的AVMS数据集。医学图像融合实验则选用了哈佛医学图像数据集。为客观、全面地评估融合结果,采用了视觉信息保真度(VIF)、边缘保持质量指标(QAB/F)、结构相似性指数(SSIM)、峰值信噪比(PSNR)、感知图像块相似度(LPIPS)以及均方误差(MSE)。
定性、定量性能分析
图5 不同方法在哈佛医学图像数据集上的定性评价(放大倍数:8倍)
表1 不同方法在哈佛数据集上的定量评价(缩放因子:8倍)
如图5所示,对比方法获得的融合图像的结构与颜色信息普遍存在模糊甚至信息丢失的问题。例如,BDLFusion、U2Fusion与DDPM无法有效保留磁共振成像中的边缘骨骼信息,而CDD在正电子发射断层扫描与单光子发射计算机断层扫描图像上,不仅颜色信息保留效果欠佳,还出现了明显的图像失真。FS-Diff生成的融合图像能够出色保留医学图像的边缘细节、对比度与解剖结构,更符合临床场景对图像精度的需求。
表1中可以看出FS-Diff在VIF、QAB/F、SSIM、PSNR与LPIPS五项核心指标上均表现优异,仅在MSE指标上略逊于U2Fusion。
值得注意的是,对比方法的实验结果是通过“多模态高分辨率源图像先融合、再下采样至128×128”方式获取,而FS-Diff的结果是直接从16×16的低分辨率模糊图像重建并融合至128×128,即便在输入图像质量更差的情况下,FS-Diff的主观视觉效果与客观指标仍优于对比方法。
下游实验验证
图6 不同方法在LLVIP和AVMS数据集上的检测结果定性评价(缩放因子:8倍)。红色椭圆圈出的区域为:相较于FS-Diff,对比方法存在漏检的区域。
表2 FS-Diff在LLVIP和AVMS数据集上目标检测任务的定量评价(缩放因子:8倍)
从图6和表2中可以看出,单模态图像中的所有目标均出现漏检情况,且对比方法存在误检测区域;与之相反,得益于丰富的语义特征,FS-Diff 对“人”和“汽车”这类目标表现出更优异的检测性能,获得了较高的置信度分数,在mAP@0.5、mAP@0.75和mAP@0.5:0.95三项指标上均展现出最佳检测性能。
图7 不同方法在MSRS和AVMS数据集上的分割结果定性评价(缩放因子:8倍)
表3 FS-Diff在MSRS和AVMS数据集上分割任务的定量评价(缩放因子:8倍)
从图7可以看出,单模态低分辨率图像的分割效果整体劣于融合图像。此外,融合与超分辨率重建的分步处理会导致语义信息丢失与误差累积,使得对比方法无法完整保留分割区域。
与之相反,FS-Diff能够生成更精准的分割结果:例如在MSRS数据集上,其他方法难以准确分割“人”这一目标,而FS-Diff可有效突出热目标信息;在AVMS数据集上,CDD、Reconet、IGNet、Tardal、DIF与CoCoNet等方法均难以精准分割“公交车”。
从表3中可以看出FS-Diff在MSRS数据集上的mIoU较排名第二的DDFM高出3.596%,在AVMS数据集上的mIoU较排名第二的IGNet高出2.151%。
CLSE机制自适应清晰度判断的零样本泛化性评估:
图8 CLSE的清晰度判断在雾天低分辨率AVMS数据集上性能的定性评价(缩放因子:8倍)
表4 CLSE的清晰度判断对未见雾天低分辨率 AVMS 数据集融合结果的定量评价(缩放因子:8倍)
为评估CLSE机制中自适应清晰度判断的零样本泛化能力,在AVMS数据集上的复合低分辨率与有雾条件下开展了实验。在所有实验中,模型均未进行任何预训练,直接通过推理过程完成评估。
如表4和图8所示,在未见过的天气条件下,整合了清晰度判断机制的模型,相较于缺乏该机制的模型以及替换为预训练VGG19网络的模型,表现出更优异的性能。这种无需特定训练即可实现的跨条件性能提升,充分凸显了CLSE机制中清晰度判断模块的必要性。
消融实验
BFM在联合超分辨率与融合网络中发挥关键作用,能够助力网络感知并提取不同模态图像的全局信息;而CLSE机制则可自适应感知图像清晰度,并从输入图像中提取语义信息,为融合过程提供有效引导。表5和图9所示的消融实验结果表明,只有通过BFM与CLSE机制的协同作用,才能实现最优的融合性能。
表5 CLSE和BFM的消融实验
图9 CLSE与BFM机制消融研究的视觉比较
结语
FS-Diff模型基于CA-CLIP构建跨模态语义引导与感知(CLSE)机制,实现单/双源低分辨率图像清晰度的自适应感知及语义引导。结合BFM模块强化全局特征提取后,在语义驱动下经迭代去噪精炼端到端生成高分辨率融合结果,高效保留高倍放大所需的细节纹理与跨模态信息。
构建的航拍视角多场景(AVMS)数据集,含4类光照、8类场景及8991个精准标注目标,可为多模态融合、超分辨率等多任务提供训练与评估支撑,为航空视角多模态视觉研究确立新基准。
该成果已公开发表在《Information Fusion》,模型代码和数据集AVMS均已开源,将推动相关技术在自动驾驶、无人机农业等场景落地,并拓展其在智能交通、国防科技等领域的应用价值。
....
#TrackingWorld
港科大新作TrackingWorld:跟踪所有3D像素,精准估计相机轨迹!
TrackingWorld把单目视频重新当成“世界坐标系”下的密集跟踪任务:先用帧级上采样把稀疏2D轨迹扩到全像素,再联合优化相机位姿与动态背景,最终输出几乎逐像素的3D世界轨迹,在三大数据集上相机位姿与深度精度均领先。
TrackingWorld是一种针对单目视频,实现密集式、以世界为中心的3D跟踪的新方法。我们的算法能够准确估计相机的位置与姿态,并区分静态物体与动态物体的3D运动轨迹——这种技术并不局限于对单个前景物体的跟踪。该方法能够实现对几乎所有像素的密集跟踪,从而使得仅利用单目视频输入也能获得可靠的3D场景理解结果。

论文信息
标题:TrackingWorld: World-centric Monocular 3D Tracking of Almost All Pixels
作者:Jiahao Lu, Weitao Xiong, Jiacheng Deng, Peng Li, Tianyu Huang, Zhiyang Dou, Cheng Lin, Sai-Kit Yeung, Yuan Liu
机构:The Hong Kong University of Science and Technology、University of Science and Technology of China、The Chinese University of Hong Kong、The University of Hong Kong、Xiamen University、Macau University of Science and Technology
原文链接:https://arxiv.org/abs/2512.08358
代码链接:https://igl-hkust.github.io/TrackingWorld.github.io/
01 导读
单目3D跟踪技术旨在通过单一的单目视频来捕捉3D空间中像素的长期运动轨迹,近年来这一技术取得了快速进展。然而我们认为,现有的单目3D跟踪方法在区分相机自身的运动与前景中物体的动态运动方面仍存在不足,也无法有效追踪视频中新出现的动态物体。
为了解决这些问题,我们提出了TrackingWorld这一新型技术框架——该框架能够在以世界为中心的3D坐标系统中实现对几乎所有像素的密集3D跟踪。首先,我们设计了一种跟踪上采样算法,能够高效地将那些分布稀疏的2D跟踪轨迹转换为密集的2D跟踪数据;其次,为了使现有的跟踪方法能够适用于新出现的物体,我们将这种上采样算法应用于所有视频帧中,并通过剔除重叠区域中的重复跟踪数据来减少2D跟踪数据的冗余性;最后,我们构建了一个基于优化算法的框架,通过估算相机的姿态以及这些2D跟踪数据在3D空间中的位置,将这些2D跟踪轨迹反投影到以世界为中心的3D空间中。在大量合成数据集和真实世界数据集上的测试结果表明,我们的系统能够在以世界为中心的坐标框架中实现精确且密集的3D跟踪。
02 效果展示
DAVIS 数据集上的定性结果。我们的方法既能输出可靠的相机轨迹,又能实现以世界为中心的密集跟踪。第二行展示了针对时间间隔内的关键帧的 3D 跟踪结果,而第三行则展示了连续帧间的完整跟踪轨迹。

03 引言
在计算机视觉领域,对动态视频中的长期运动进行估计仍然是一个长期存在的挑战。细粒度运动跟踪对于理解物体动态、建模相机运动以及促进生成时间与几何上一致的视频至关重要。
近年来,密集二维像素跟踪已成为一个活跃的研究课题,并取得了显著进展,例如CoTrackers,该方法采用变换器(transformers)来迭代更新二维轨迹,推动了二维运动分析的发展。这一进展也激发了许多针对三维跟踪的近期研究。早期的三维跟踪工作,如OmniMotion,采用基于优化的方法来估计三维运动,而后续的前馈方法,如SpatialTracker和DELTA,则利用提取的特征以前馈的方式直接估计三维跟踪,而无需针对每个序列进行优化。这些三维跟踪方法在下游应用中展现出巨大潜力,包括详细的三维运动分析和高保真新视角合成,凸显了单目三维跟踪作为关键研究前沿的日益重要性。
在分析了所有现有的三维跟踪方法后,我们发现这些现有方法仍存在两个显著缺陷。首先,这些方法无法区分相机运动和动态物体运动。所有这些方法都假设相机静止,仅对相机坐标系内的三维流进行建模。然而,许多下游任务,如运动分析或新视角合成,都需要区分相机运动和动态物体运动。此外,一些近期研究也表明,在运动估计中显式考虑相机位姿可提高三维跟踪质量。只有一些非常近期的研究尝试在世界中心坐标系中估计三维轨迹,从而能够区分相机运动和动态物体运动。对于包含动态物体的单目视频,估计相机运动仍然具有挑战性,因为只有静态场景才能为相机位姿估计提供线索。
第二个缺陷是,现有方法大多局限于跟踪视频第一帧中的稀疏像素,无法跟踪所有帧中的所有像素(例如,中间帧中出现的新物体)。对所有像素进行跟踪会给所有跟踪方法带来巨大的计算复杂度。近期研究如DELTA提出利用神经网络对稀疏跟踪点进行上采样,以生成密集三维轨迹。然而,DELTA仍局限于跟踪视频的第一帧,如何估计所有帧所有像素的密集三维轨迹仍是一个尚未探索的问题。
04 主要贡献
在本文中,我们提出了TrackingWorld,这是一种三维跟踪方法,能够在世界中心坐标系内对单目视频中几乎所有帧的所有像素进行密集三维跟踪。“几乎所有”意味着我们会过滤掉一些噪声和离群轨迹,以确保鲁棒性和准确性。具体而言,TrackingWorld以单目视频和基础模型的单目估计结果作为输入,包括稀疏轨迹、深度图和粗前景动态掩码。然后,TrackingWorld为单目视频的几乎所有像素生成高质量的密集三维轨迹,并为每一帧生成相机位姿。TrackingWorld采用以下策略解决上述缺陷。
首先,为了实现对几乎所有像素的密集跟踪,我们利用DELTA的轨迹上采样器,并逐帧进行迭代跟踪。我们发现,DELTA的轨迹上采样模块适用于任意二维轨迹,TrackingWorld利用该模块将输入的稀疏二维轨迹上采样为密集二维轨迹。然后,我们不仅跟踪第一帧的像素,还在所有后续帧上重复这一过程。为了降低计算复杂度,我们观察到后续帧的许多区域已经在第一帧或之前的帧中出现过。因此,我们删除与这些重叠区域对应的冗余轨迹。
其次,为了准确分离相机运动和动态物体运动,我们从上采样后的密集二维轨迹和输入的估计深度图中估计三维轨迹和相机位姿。一个关键挑战在于估计的动态掩码不准确,这些掩码往往无法捕捉动态背景物体。这一局限性导致由动态背景物体干扰的次优光束平差(bundle adjustment),最终影响相机位姿估计和物体运动跟踪的准确性。因此,我们将初始静态区域中的所有点视为潜在动态点,但对相机位姿估计施加尽可能静态的约束,这有效地帮助我们排除动态背景点,以实现准确的相机位姿估计。最后,我们利用估计的相机位姿和深度图将所有二维轨迹转换为世界坐标系中的三维轨迹。
05 方法
TrackingWorld首先会提取出那些能够追踪静态背景结构以及新出现的动态物体的密集二维点轨迹。这些二维轨迹通过一个统一的优化框架被转换成以世界为中心的三维空间中的轨迹,该优化框架包括以下组成部分:
- 初始相机姿态估计
我们在视频片段层面估计出粗略的相机姿态,这一初步结果为后续的精细处理以及3D轨迹的重建提供了必要的基础。
- 动态背景优化
系统会识别出那些可能具有动态变化的区域,并将这些区域过滤掉,从而确保能够利用稳定的背景对应关系来准确地进行姿态优化。
- 以世界为中心的3D轨迹重建
通过精确的姿态数据与密集的对应关系,我们能够重建出详尽的3D轨迹,从而准确捕捉静态场景元素以及动态物体的运动轨迹。

06 实验结果
为了全面评估我们提出的方法是否能够在世界中心坐标系内有效实现对所有帧几乎所有像素的密集三维跟踪,我们从多个角度进行了评估:
- 相机位姿估计准确性;
- 密集三维轨迹的深度准确性;
- 稀疏三维跟踪性能;
- 密集二维跟踪结果的准确性。我们的实证分析表明,该方法在所有指标上均表现出优越性能,证实了其在随时间建立准确且一致的三维轨迹方面的有效性。
表1展示了我们的方法与现有方法的定量比较。为了恢复相机位姿,我们首先获得密集跟踪结果,然后通过优化过程细化相机位姿和世界中心密集跟踪。如表所示,无论密集跟踪是源自DELTA还是CoTrackerV3,我们的方法在所有三个数据集上均始终比先前方法实现更准确的位姿估计。



07 总结 & 未来工作
在本文中,我们提出了TrackingWorld,这是一种新颖的方法,能够在世界中心坐标系内对单目视频中所有帧的几乎所有像素进行密集三维跟踪。TrackingWorld的关键思想是显式分离相机运动和前景动态运动,同时密集跟踪新出现的物体。我们首先引入轨迹上采样器来密集化稀疏二维轨迹,并将其应用于捕捉新出现的物体。最后,我们设计了一个高效的基于优化的框架,将密集二维轨迹提升为一致的三维世界中心轨迹。跨多个维度的广泛评估证明了我们系统的有效性。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
....
#OpenSubject
港科大与美团联合发布大规模“视频衍生”主体驱动图像生成与编辑开源数据集
香港科技大学与美团联合推出开源项目 OpenSubject。该项目基于公开视频构建了一个超大规模主体驱动图像生成与编辑数据集,涵盖 250 万样本、435 万张图像,专门面向“指定人物 / 物体的个性化生成与编辑”这一前沿任务,聚焦多主体、复杂场景下的身份保持与语义一致性难题。
直击痛点:多主体 & 复杂场景的生成与编辑
主体驱动图像生成旨在在给定文本和参考图片的条件下,生成既“像这个人 / 物体”,又符合新场景、新动作描述的图像,是个性化内容创作、虚拟人物复刻、IP 角色运营、游戏与影视制作等应用的基础能力。但依然存在诸多挑战:
- 多主体合成:同时放入多个人物或人物+物体时,容易“串脸”、丢失某个主体身份,或搞混人物间关系;
- 复杂场景编辑:将场景中某个目标替换为参考人物时,模型常常“改多了”,把背景、其他非目标内容一起改坏;
- 数据源受限:以往数据集要么高度依赖合成,要么基于网页图片检索,难以兼顾真实多视角变化与大规模可扩展性。
核心创新:用“视频”作为主体与多视角先验
OpenSubject 提出利用视频作为身份与多视角先验: 同一个主体在视频中随时间变化,天然包含了不同视角、姿态、光照和环境,是学习“既稳定又多样”的主体表示的理想来源。
在此基础上,团队设计了一条 四阶段自动化数据构建流水线
- 视频筛选:仅保留分辨率 ≥ 720p、审美评分 ≥ 5.8 的高质量片段,确保画面清晰、主体稳定。
- 跨帧主体挖掘与配对:使用多模态大模型检测每帧主体类别,并做跨帧一致性约束;结合 Grounding-DINO 与几何规则剔除遮挡、残缺、虚焦样本,再用 DINOv2 特征选择外观差异最大的一对帧,既保证同一主体,又最大化视角与场景多样性。
- 身份保持参考图合成
- 生成任务:基于分割掩码做不规则外扩式 outpainting,借助 FLUX.1 Fill [dev] 合成包含主体的复杂场景输入图。
- 编辑任务:基于框引导 inpainting,将原图目标区域抹去,再由模型根据参考主体“填回去”,构造主体替换样本。
同时加入几何增强与不规则边界腐蚀,减少边缘条带、黑边等伪影。
- 验证与 Caption 生成:再次使用多模态大模型对合成结果进行伪影检测与物理合理性审查,不合格样本自动重生成。为每个样本生成“短描述 + 长描述”两种风格的 caption,覆盖生成类与编辑类指令。
OSBench:面向主体驱动生成与编辑的基准
为系统评估主体驱动模型的能力,团队同步提出 OSBench 统一基准,涵盖单主体 / 多主体生成与编辑四类子任务,并基于 VLM 评分体系,对提示遵从度、身份保持与编辑质量进行量化评估。
实验结果
在OSBench上显著提升了baseline模型性能。
在其他的的主体驱动benchmark和图像编辑benchmark上也大幅提升baseline的能力。
可视化比较不同模型。
项目已开源
- 论文地址:https://arxiv.org/abs/2512.08294
- 项目地址:https://github.com/LAW1223/OpenSubject
- Benchmark和数据集下载地址:
- https://huggingface.co/datasets/AIPeanutman/OpenSubject
- https://huggingface.co/datasets/AIPeanutman/OSBench
....
#Anomagic
华中科大×湖大×清华联合提出Anomagic:实现跨模态提示驱动的零样本异常生成
Anomagic用跨模态提示编码+对比掩码细化,把文本/图像提示直接变成逼真实异常与像素级掩码,无需微调即可在工业、医疗、消费等场景零样本生成缺陷,显著拉升下游检测上限。
Anomagic:跨模态提示驱动的零样本异常生成,为多领域缺陷检测注入新动能
论文名称: Anomagic: Crossmodal Prompt-driven Zero-shot Anomaly Generation
作者: Yuxin Jiang、Wei Luo、Hui Zhang、Qiyu Chen、Haiming Yao、Weiming Shen、Yunkang Cao
机构: 华中科技大学、湖南大学、清华大学、中国科学院自动化研究所
论文地址:https://arxiv.org/abs/2511.10020v1
代码仓库:https://github.com/yuxin-jiang/Anomagic
数据集仓库:
https://huggingface.co/datasets/yuxinjiang11/AnomVerse
HuggingFace 在线演示:
https://huggingface.co/spaces/yuxinjiang11/Anomagic
试想一下,在工业质检、医疗影像诊断、日常物品瑕疵识别等场景中,无需任何示例缺陷样本,也无需针对特定领域微调模型,就能根据文字或图像提示,自动生成真实且符合语义的异常,还能精准输出缺陷掩码,大幅提升下游异常检测模型的性能。这曾经是多领域异常生成的难题,而华中科技大学等机构联合提出的Anomagic技术,让这一设想成为了现实。
在工业制造、医疗影像、消费品检测等领域,异常检测是保障产品质量和诊断准确性的关键,但稀缺的异常样本一直是制约相关技术发展的核心瓶颈。此前的异常生成方法,要么依赖少量标注缺陷样本,只能生成已知类型的异常,无法适配新的缺陷类别;要么生成的异常真实性不足、掩码精度低,且难以跨领域复用。Anomagic的出现,构建了“跨模态提示编码-掩码精准细化-大规模数据集支撑”的完整技术框架,实现了零样本、多领域的高质量异常生成,为通用异常生成基础模型的发展奠定了基础。
01 整体技术框架
Anomagic的核心目标是实现零样本跨领域异常生成,其整体技术框架可分为三大核心模块,形成“数据支撑-模型生成-效果优化”的闭环,具体如下:
- 基础数据层:构建大规模、多领域的“异常-掩码-描述”三元组数据集AnomVerse,为模型训练提供充足且规范的语义与视觉数据;
- 核心生成层:基于潜扩散模型(LDM),结合LoRA轻量化微调,通过跨模态提示编码(CPE)融合文本与视觉语义,引导模型在指定区域生成符合提示的异常;
- 效果优化层:引入对比异常掩码细化策略,实现生成异常与掩码的像素级对齐,提升生成数据对下游检测任务的实用性。
整个框架在训练阶段完成跨模态语义理解与生成能力的学习,在推理阶段可直接接收用户自定义的文本/视觉提示,无需领域微调即可在不同场景下完成零样本异常生成。

02 核心创新技术点
为攻克零样本异常生成的模态局限与数据瓶颈,Anomagic在三大核心模块上实现了关键技术突破:
2.1 跨模态提示编码(CPE):解锁多模态精准语义控制
Anomagic创新性地融合视觉和文本双重语义,解决了单一模态提示语义可控性不足的问题,实现对异常生成的精细化引导。
- 区域聚焦的视觉引导:预训练CLIP提取异常特征,结合区域聚焦注意力机制(通过掩码弱化正常区域权重),精确捕捉裂纹、污渍或肿瘤等形态细节。
- 细粒度文本语义编码:针对长描述,采用分层编码策略,突破CLIP 77-token限制,经均值池化保留完整语义。
- 跨模态特征融合:通过模态专属交叉注意力模块,实现视觉缺陷特征与文本语义特征的双向交互,生成统一的跨模态语义特征,作为扩散模型的生成条件,确保生成的异常既匹配视觉形态,又符合文本描述。
2.2 对比异常掩码细化:实现缺陷与掩码精准对齐
此前的异常生成方法常存在“异常与掩码不匹配”的问题(如缺陷超出掩码范围或未填满掩码),严重影响下游检测模型的训练效果。Anomagic引入对比掩码细化策略,通过计算输入正常图像与生成异常图像的像素级差异,结合预训练的MetaUAS模型,自动生成高精度缺陷掩码,实现异常区域与掩码的像素级对齐,大幅提升生成数据的实用性。
2.3 AnomVerse数据集:填补多领域大规模异常数据空白
为解决高质量异常数据匮乏的问题,研究团队构建了AnomVerse数据集,这是目前规模最大的多领域“异常-掩码-描述”三元组数据集。
其数据构建管线如下:先收集13个公开数据集的异常图像和掩码,再利用多模态大语言模型,结合缺陷区域最小边界框和结构化模板(“图像展示了[物体描述],在[位置]存在[缺陷类型],该缺陷具有[细节特征]”),自动生成精准的缺陷描述,确保数据的语义一致性。

AnomVerse包含12,987个三元组样本,覆盖工业、纺织、消费品、医疗、电子五大领域的131种缺陷类型,远超此前的MMAD数据集(仅8,366个样本),为零样本、跨领域异常生成模型的训练提供了充足且多样的数据支撑。
03 技术流程:提示引导的修复式生成
Anomagic基于潜扩散模型(LDM)实现异常生成,整体流程分为训练和推理两个阶段:
3.1 训练阶段
从AnomVerse中采样“异常-掩码-描述”三元组,通过跨模态提示编码生成统一语义特征;将异常掩码膨胀得到修复掩码,对参考异常图像进行掩码处理后输入模型;利用修复式扩散损失,仅微调模型的交叉注意力层,让模型学会在掩码区域生成符合跨模态提示的异常。
3.2 推理阶段
用户输入自定义文本/视觉提示后,模型先通过多模态大语言模型从AnomVerse中检索匹配提示,生成跨模态语义特征;随机采样粗糙掩码后,在目标正常图像的掩码区域生成异常,最后通过对比掩码细化模块得到高精度缺陷掩码,完成零样本异常生成。
04 实验效果:多领域零样本生成能力的双重突破
大量实验证明,Anomagic在异常生成质量、下游检测性能上均远超现有方法,且可在工业、医疗、日常生活等多领域实现零样本异常生成,展现出卓越的泛化能力。
4.1 异常生成质量领先
在VisA工业数据集测试中,Anomagic的Inception Score(IS,衡量生成真实性)均值达2.16,Intra-cluster LPIPS距离(IL,衡量生成多样性)均值为0.39,全面超越DRAEM、RealNet等零样本方法,甚至优于依赖真实缺陷样本的少样本方法AnoGen。

从定性效果看,Anomagic生成的异常视觉逼真,且能实现缺陷与掩码的精准对齐,而传统方法要么异常失真,要么掩码粗糙。

4.2 下游检测性能显著提升
将Anomagic生成的异常样本用于增强INP-Former++检测模型后,模型在VisA数据集上的图像级F1分数达96.77%、像素级PRO指标达95.92%、像素级F1分数达54.00%,均超过AnoGen等方法增强后的模型,证明了生成数据的高实用性。

4.3 多领域零样本生成能力突出
Anomagic无需针对特定领域微调,即可根据用户提示在工业、医疗、日常生活等场景生成高保真异常:
- 工业领域:可生成PCB板短路、药片破损、金属零件裂纹等缺陷,且缺陷与掩码精准匹配;

- 医疗领域:可生成脑部MRI肿瘤、视网膜OCT病灶等异常,且保留医学影像的解剖学保真度;

- 日常生活场景:可生成水果磕碰、手机屏幕划痕等日常瑕疵,满足消费品检测需求。

05 结论
Anomagic构建了跨模态提示驱动的零样本异常生成基础框架,通过跨模态提示编码、对比掩码细化和AnomVerse数据集三大核心创新,打破了传统异常生成的模态局限与领域壁垒。该模型无需针对特定领域微调训练,即可根据用户自定义的文本或视觉提示,在工业、医疗、日常生活等多领域实现高质量、高精准度的异常生成,是一个可适配多样化用户提示的通用异常生成基础框架。想要快速搭建多领域缺陷生成系统,不妨试试Anomagic的开源代码,或许能为你的检测方案带来颠覆性提升!
最后,感谢阅读以及欢迎使用我们的代码
....
#LoVoRA
纯文本驱动视频编辑,清华&华为&中科大实现无需掩码/参考帧就能精准移除/添加对象
LoVoRA首次用可学习Diffusion Mask Predictor把文本语义映射为时变软掩码,无需掩码或参考帧即可完成视频对象的移除/添加,在DAVIS与自建Bench上同时拿下最高文本对齐度与时序一致性。
近年来,基于扩散的视频生成模型的最新进展极大地提高了视频编辑的真实感和可控性。然而,文字驱动的视频对象移除添加依然面临巨大挑战:
不仅需要精准定位目标对象,还要同时保持背景连续性、时序一致性以及语义匹配。
现有大多数方法在推理时必须依赖用户提供的掩码或参考帧来确定编辑区域,这不仅增加了使用门槛,也限制了模型在真实场景中的实用性和泛化能力。
为了解决上述难题,清华&华为&中科大团队提出LoVoRA(Learnable Object-aware Localization for Video Object Removal and Addition)——一个真正意义上文本驱动、无需掩码和参考帧的视频对象移除与添加框架。
论文地址:https://arxiv.org/abs/2512.02933
项目地址:https://github.com/cz-5f/LoVoRA.github.io
数据集:https://huggingface.co/datasets/cz-5f/LoVoRA
LoVoRA 能够仅凭文本提示精准定位编辑区域,并进行时序一致、背景自然的视频编辑,无需任何人工掩码或外部控制信号。大量实验和用户评测表明,LoVoRA 在编辑质量、背景一致性、时序稳定性等指标上均优于现有基线方法。


01 数据集构建
现有的基于指令的视频编辑数据集,例如InsViE, Ditto, Senoritia, ICVE-SFT等,具有显著先进的文本引导视频操作。
然而,它们仍然存在一些局限性:低空间和时间分辨率;由逐帧生成引起的背景不一致;以及对象添加和移除场景的覆盖范围有限。
为了克服这些问题,团队构建了一个高质量的数据集,专门用于视频中的对象级添加和擦除,这是框架的基础。数据集建立在高保真图像编辑数据集NHR-Edit上,并通过多级pipeline合成为时间一致的视频编辑序列。
与之前的工作相比,数据集提供了更好的背景一致性,准确的对象级时空掩码,与编辑语义一致的鲁棒文本指令。此外,它还提供密集的运动掩码监督,使LoVoRA中的目标感知编辑定位能够进行训练和评估。

给定一对高质量的图像编辑三元组Is, It, p(源图像、目标图像与编辑指令),通过一个统一的多阶段合成流水线将其转化为具有时空监督的视频编辑对Vs, Vt:
a. 使用基于文本的图像到视频生成器(Wan2.2)在保持场景布局与背景一致性的前提下,将单帧图像扩展为时间上连贯的源视频Vs,其中场景描述pscene由InternVL3提取以确保文本与视觉语义的初步对齐;
b. 随后针对编辑指令在源/目标图像的首帧上进行对象定位:通过Grounding-DINO获取目标边界框并调用 SAM2 提取高质量二值分割掩码,经过形态学平滑得到初始掩码M1。
c. 为将该静态掩码扩展为全视频的时序掩码流,采用GMFlow估计源视频的稠密光流并对掩码进行反向光流拼接与传播,同时引入双向流一致性检测以处理遮挡与位移误差,从而得到平滑且与运动相符的掩码序列{Mt}Tt=1。
d. 最后,基于得到的掩码流、源视频以及文本指令,用VACE进行视频内填充生成编辑后视频Vt,该步骤既保证了被编辑区域的语义变化(对象移除或插入),又维护了背景与运动的全局一致性。
为保证语义与质量的稳定性,整个流水线还通过InternVL3自动生成并校验文本指令,对生成样本应用面积与运动幅度阈值筛选(即保证掩码面积与视频运动量落在合理区间)以剔除弱信号样本。
最终构建的数据集包含每对Vs, Vt, p所需的全部信息:时序掩码、像素级光流以及语义对齐的指令文本,这些密集的时空与语义监督为训练 LoVoRA 的可学习定位与编辑模块提供了关键支持。

02 模型

LoVoRA 的核心思想,是在一个统一的端到端框架中,通过文本即可完成视频中对象的移除与添加,而不依赖任何推理阶段的掩码、参考帧或手工控制信号。
为实现这一点,团队构建了一个基于时空VAE与3D DiT的视频编辑架构:模型首先将输入视频编码到潜空间,通过通道拼接方式同时接收原视频的潜变量与噪声潜变量,再由3D DiT在文本指令的跨模态引导下逐步对潜空间进行结构化重建,从而生成与语义一致、运动自然的编辑后视频。
这一架构能够同时建模空间细节、时间一致性与文本语义,使LoVoRA可以在复杂场景中保持背景结构和时序连贯性。
仅靠文本并不足以让模型可靠地决定“应该在哪里编辑”,因此进一步提出了一个轻量的可学习对象定位机制Diffusion Mask Predictor(DMP)。
该模块从DiT的中间特征中学习预测一个随时间变化的软掩码,用于表示哪些区域与当前编辑最相关。通过在训练过程中结合数据集中提供的时序掩码监督,DMP逐渐学会将模型的编辑能力集中到目标对象上,而在推理阶段无需任何显式掩码即可实现自动定位。这一机制有效避免了传统方法的过度编辑或漏编辑问题,显著提升了空间精度与时序稳定性。
在两者结合下,LoVoRA实现了真正意义上的文本驱动、完全mask-free的视频对象编辑。基础架构保证了整体视频的自然性与一致性,而可学习的对象定位使模型能够精准理解文本语义并聚焦于关键区域,从而在对象移除与添加两类任务中,都能生成高质量、语义一致、时序稳定的视频结果。
03 实验与分析
定量分析: 在DAVIS与LoVoRA-Bench的综合测试中,LoVoRA在文本对齐度、视频质量与VLM评估(包括Prompt Following与Edit Quality)等关键指标上全面领先主流视频编辑方法。
无论是对象移除还是对象添加任务,LoVoRA都在大多数指标上取得最佳或次优结果,体现出在语义一致性、对象级操作精度、背景稳定性与运动连续性上的显著优势。
与Ditto等注重外观增强但容易牺牲局部准确性的模型不同,LoVoRA在保持整体画面美观的同时,显著提升了编辑的可控性;而相比依赖参照帧的Senorita,LoVoRA在无辅助输入条件下仍展现出高度竞争力,证明了可学习定位机制的有效性。总体来看,各项定量指标验证了LoVoRA在文本理解、定位精度与编辑质量上的强综合表现。

定性分析: 从可视化结果中可以观察到LoVoRA在复杂场景下对对象的精准定位与自然编辑能力。对于移除任务,LoVoRA能够干净地擦除目标对象,几乎不留残影或结构性破坏,同时完整保留原有的纹理、光照与背景几何;
对于添加任务,插入的对象在颜色、光影、透视关系与运动轨迹上都能与环境无缝融合,甚至在遮挡关系、快速运动等困难场景中也保持稳定。而多种基线方法常出现模糊边界、背景扭曲、时序跳变或编辑区域偏移等问题——这些在 LoVoRA 中均得到改善,展现出更高的真实感与一致性。

04 结语
LoVoRA提供了一种面向未来的视频编辑范式:无需任何手工掩码,仅凭一句自然语言即可驱动对象级别的准确、自然且时序一致的视频修改。
结合新构建的数据集与可学习的对象定位策略,LoVoRA 在语义理解、空间精度与时间稳定性上均取得了领先表现,全面超越现有的指令式视频编辑模型。
研究表明,让模型在训练阶段学习“隐式定位”是实现通用、高可控、可扩展视频编辑的有效途径,也为后续面向开放世界的视频编辑与创作工具奠定了基础。
....
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐
所有评论(0)