ICCV'2025|无需训练,任意输入!AnyI2V让一张草图也能精准动起来
作者|李自治,复旦大学研究生
引言
近年来,视频生成技术,尤其是基于扩散模型的文本到视频(T2V)和图像到视频(I2V)合成,取得了显著突破。然而,现有方法在运动控制与空间布局方面仍存在不足:T2V依赖文本提示,缺乏对空间结构的精确掌控;I2V虽能以图像作为起始条件提供空间基准,但受限于输入模态,缺乏灵活性与可扩展性。
针对这些挑战,我们提出 AnyI2V —— 一个全新的免训练视频生成框架。AnyI2V 能够将任意模态的条件图像与用户自定义的运动轨迹相结合,在不增加额外训练开销的前提下,实现对物体运动的精确控制。该方法不仅支持传统RGB图像,还能灵活适配三维模型、点云、草图等多样输入模态,拓展了可控视频生成的应用边界。
论文标题:《AnyI2V: Animating Any Conditional Image with Motion Control》
论文链接:https://arxiv.org/abs/2507.02857
项目主页:https://henghuiding.com/AnyI2V/

现存问题及挑战
随着对高质量、个性化视频内容需求的不断增长,现有技术路线面临以下瓶颈:
-
T2V的局限性:仅依赖文本提示,难以提供精确的空间与运动控制。
-
I2V的限制:虽然通过首帧图像建立了空间约束,但只能接受真实图像作为输入,难以支持更灵活的条件模态。
-
ControlNet的高成本:尽管支持多模态输入,但需要针对每个模态单独训练模型,成本高昂、数据依赖强,且预训练的模型,在不同基模之间的迁移性不足。
因此,如何在无需训练的前提下,实现多模态输入 + 精确运动控制的统一解决方案,成为该领域的关键挑战。

方法介绍
在上述分析的基础上,我们提出了一个免训练协同控制框架,将任意模态的静态空间条件与用户定义的动态运动轨迹相结合。
我们的方法基于两点观察:
-
视频帧的整体空间布局和结构信息,主要由去噪过程早期阶段的特定内部特征所决定。通过注入不同的特征作为结构引导,如下图所示,我们发现残差特征与自注意力查询特征特别有效地编码了图像的结构。这一观察表明,T2V模型可以通过注入这一结构特征达成初始帧的控制。

-
在探索如何实现连贯的运动控制时,我们分析了模型不同特征在时间维度上的稳定性与实体表征的结构是否合理。如下图的PCA降维可视化所示,部分特征(如注意力图)在跨帧时表现出较低的一致性。然而,我们观察到空间自注意力层中的自注意力查询特征展现出两个至关重要的特性:高度的时间一致性和强大的实体表征能力。
这意味着,在视频序列中,自注意力查询特征能够稳定地锁定同一个物体,将其作为一个连贯的整体来对待。这一观察表明自注意力查询特征可以作为一个锚点,只需通过优化来对齐这个锚点在不同帧间的位置,就能引导物体产生连贯的运动。

基于上述观察,我们设计一套流程:
一、 初始空间控制:通过结构保留的特征注入
利用观察1,我们设计了一套免训练的引导机制。我们首先从条件图像中提取关键的结构特征(残差与查询特征)。为防止外观风格的泄露,我们引入一个特征去偏差操作将结构与风格分离。最终,将提取后的结构特征注入生成过程,确保第一帧在精确匹配输入布局的同时,其外观由文本提示灵活决定。
二、 动态运动控制:通过物体轨迹对齐
利用观察2,我们设计了一个零样本轨迹对齐框架。该框架以自注意力查询特征作为锚点。在生成过程中,我们根据用户定义的运动轨迹,通过实时优化潜在变量来对齐各帧中目标物体。为提升对不规则物体的控制精度,我们还引入了一个自动生成的语义掩码,仅在第一帧的物体上选取几个兴趣点,它就能自动生成动态掩码以约束优化区域。
综上所述,AnyI2V整体的流程图如下所示:


下图表明了AnyI2V的灵活性,不仅能支持ControlNet不支持的模态图像作为条件输入,还能够支持混合的条件图像。

下表为该方法与过去方法的对比。过去方法采用了ControlNet + 运动控制两个阶段。AnyI2V显著优于过去的免训练方法,也与基于训练的方法产生了具有竞争力效果。


结论
我们发现,现有视频生成框架在空间布局的灵活指定与动态运动控制之间存在设计上的不匹配。基于这一发现,我们提出了一个具备空间-运动控制能力的免训练框架AnyI2V。
该方法包括:一个结构保留的特征注入机制,用于从任意模态的输入中建立视频的初始空间布局;以及一个零样本的轨迹对齐框架,通过引导模型内部最稳定的特征,来精确执行用户定义的运动。实验结果表明,该框架有效结合了多样化空间输入的灵活性与精确运动控制的优势,在不进行任何模型训练的前提下,于可控视频生成任务上取得了良好的表现。
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐

所有评论(0)