机器人域的视频生成模型:应用、研究挑战和未来方向
26年1月来自普林斯顿和Temple U的论文“Video Generation Models in Robotics: Applications, Research Challenges, Future Directions”。视频生成模型已成为物理世界的高保真模型,能够合成高质量视频,捕捉智体与其环境之间基于多模态用户输入的精细交互。它们强大的功能解决许多基于物理模拟器长期面临的挑战,推动其在
26年1月来自普林斯顿和Temple U的论文“Video Generation Models in Robotics: Applications, Research Challenges, Future Directions”。
视频生成模型已成为物理世界的高保真模型,能够合成高质量视频,捕捉智体与其环境之间基于多模态用户输入的精细交互。它们强大的功能解决许多基于物理模拟器长期面临的挑战,推动其在诸多领域的广泛应用,例如机器人技术。例如,视频模型能够实现逼真且符合物理规律的可变形体模拟,而无需做出过于简化的假设,这正是基于物理的模拟中的一个主要瓶颈。此外,视频模型可以作为基础世界模型,以精细且富有表现力的方式捕捉世界的动态特性。因此,它们克服仅使用语言抽象在描述复杂物理交互方面表达能力不足的问题。本综述回顾视频模型及其在机器人领域作为具身世界模型的应用,涵盖模仿学习中经济高效的数据生成和动作预测、强化学习中的动力学和奖励建模、视觉规划以及策略评估。此外,重点阐述阻碍视频模型可靠集成到机器人领域的重要挑战,包括指令执行不佳、出现违反物理定律等幻觉以及生成不安全的内容,以及数据整理、训练和推理成本高昂等根本性限制。提出应对这些开放性研究挑战的潜在未来方向,旨在激励相关研究,并最终促进更广泛的应用,尤其是在安全至关重要的环境中。
如图所示:
在机器人领域,视频模型已越来越多地被用作具身世界模型。高保真的世界建模为机器人策略的高效评估奠定可信基础。传统上,策略评估需要建立真实世界的机器人工作站以进行在线策略推理轨迹展开(rollout),考虑到相关的硬件和人力成本,这一过程成本高昂。视频模型在不影响评估结果可靠性的前提下规避了这一瓶颈。作为高保真世界模型,视频模型还能提供准确的动态和奖励预测,这对于使用强化学习(RL)训练机器人策略至关重要。此外,视频模型支持低成本的机器人数据生成,这在模仿学习中尤为重要。尽管数据缩放已被证明是提升最先进机器人策略性能的关键因素,但收集专家演示数据的成本极高,构成显著的限制。视频模型无需依赖人类监督即可实现可扩展的数据生成,从而解决这一紧迫挑战。来自视频模型的专家演示还可通过运动重定向直接应用于机器人。除了生成成功的任务演示外,视频模型还能合成失败的视频轨迹,使机器人策略具备纠正行为,从而提高鲁棒性。此外,生成的数据可通过视觉规划进行优化,以计算更优的机器人轨迹。
学习型世界模型
许多机器人算法需要机器人环境模型,以高效学习在现实世界中有效的策略,尤其是当现实世界交互成本过高或存在安全风险时。例如,强化学习(RL)方法通常需要智体与环境进行大量交互才能学习有用的行为,而这在现实世界中通常成本高昂。世界模型能够在几乎不需要现实世界交互的情况下,为训练这些策略提供可扩展的数据收集途径。
本质上,世界模型预测智体环境因交互而产生的演变。传统上,基于物理的模拟器已被用作预测机器人动作动态效果的世界模型。然而,基于物理的模拟器通常利用简化的物理引擎来近似物理定律,以保证计算可行性,这引入限制其真实性的归纳偏置(例如在模拟非刚性物体时)。重要的是,这些近似往往会导致机器人领域中的模拟与现实差距,阻碍在模拟中训练的机器人策略向现实世界的成功迁移。此外,机器人操作任务变得越来越复杂,进一步加剧这些挑战。
学习型世界模型已成为解决这些挑战的有效方案。可以将学习型世界模型大致分为两类:马尔可夫基于状态的世界模型和视频世界模型。
扩散/Flow-Matching视频模型
扩散建模和Flow Matching的出现改变图像和视频生成的技术现状,实现高保真视频生成,能够捕捉细粒度的真实感和电影级效果。由于扩散建模和Flow Matching具有相似性,为简洁起见,本文仅限于扩散模型。
扩散模型已成为生成模型的一种强大形式,通过建模迭代去噪过程来合成数据。总结如图所示:
现代视频扩散模型支持多种生成模态,可实现不同粒度的可控视频生成。视频扩散模型通常通过通道拼接、交叉注意力或自适应归一化,将条件输入引入视频生成过程。通道拼接沿着通道维度增强输入或潜表示,当条件信号与目标输出空间对齐时(如在图像到视频生成、深度引导或姿态条件控制中)最为有效。这种方法强制实现强像素级对应,并对生成过程施加严格的结构约束。相比之下,交叉注意捕捉中间视频特征(查询)与条件信号(K和V)之间的交互,使其成为文本提示等语义性、非空间条件的主流方法。最后,自适应归一化方法使用全局条件向量调节归一化层的尺度和偏移参数,通常用于(标量)全局属性控制(如目标帧率或运动强度)——这些属性会影响整体生成统计信息,而非局部结构。
视频扩散模型支持的主要条件模态包括文本提示、输入图像以及运动或轨迹基元。文本到视频(T2V)生成需要将高级语义描述转换为时间连贯的视觉序列。图像到视频(I2V)生成流程根据参考图像(通常是第一帧)和可选的文本提示合成视频。将运动轨迹编码为坐标图、光流场、关键点热力图或施加的力,通过通道拼接、密集交叉注意力或专门的条件适配器注入。
视频联合嵌入预测架构模型
联合嵌入预测架构(JEPA)方法,从互联网规模的视频中学习世界模型,用于潜空间中的未来预测、视频理解和规划。与优先考虑逼真视频生成的扩散/Flow Matching视频模型不同,视频JEPA模型旨在通过在视频数据上进行自监督训练,学习有效的潜表示。这些潜表示构成下游任务(如视频问答、运动理解和动作识别)中稳健视频理解的基础组件,可通过在JEPA模型提取的潜特征上训练特定任务模型来实现。
世界模型捕捉智体施加动作后环境的演变。然而,鉴于动态交互的随机性(通常无法通过简化的物理定律完全描述),建模物理交互极具挑战性。尽管早期的世界模型能够有效学习高级场景动态,但在建模复杂的动态变化(尤其是高保真建模)方面仍存在困难。值得注意的是,在机器人领域的细粒度交互任务(如灵巧操作)中,这些模型往往无法预测机器人动作的细微变化所产生的影响——而这些细微变化对任务的成功至关重要。
对于高保真世界建模,这些模型通常需要大量围绕此类动态事件的训练数据以进行有效监督,但在许多实际应用中,这些数据往往难以收集。更传统的基于物理的模拟器可作为世界模型;然而,其能力通常受到基于简化对象模型和动态模型的限制性假设的限制。例如,基于物理的模拟器通常难以处理可变形体模拟,这类模拟需要更高保真的动态模型。重要的是,这些假设导致基于物理的模拟器面临模拟与现实差距问题,例如通过使用原始目标形状、外观和视觉条件等。机器人领域的近期研究试图通过利用视频模型作为具身世界模型,来解决这些局限性。
视频模型能够高质量地预测物理世界的未来状态,而无需大规模带动作标签的数据集。通常,近期的方法对预训练视频模型进行微调,以自回归方式合成高精度的4D场景表示,反复基于先前生成的视频帧生成未来帧。根据所维护的场景表示,视频世界模型可分为两类,即隐式视频世界模型和显式视频世界模型,如图所示。
视频模型的高保真世界建模能力支持广泛的下游机器人应用,包括:
(i)模仿学习中的高效数据生成与动作预测;
(ii)强化学习中的富表达性动态和奖励建模;
(iii)可扩展的策略评估;
(iv)视觉规划。
模仿学习中的低成本数据生成与动作预测
近年来,机器人领域的研究取得了令人瞩目的进展,这得益于在大规模专家演示上进行的模仿学习——这种方法规避了与显式建模机器人和环境之间动态交互相关的众所周知的挑战。例如,最先进的VLA模型在通用语言条件机器人操作方面展示卓越的能力,表现出强大的任务和环境泛化能力,以及在存在干扰时的稳健恢复行为。事实证明,在模型和训练数据规模方面扩展基础模型对于实现这些显著的性能飞跃至关重要——在互联网规模数据上训练的LLM的成功进一步凸显这一点。尽管这种推进机器人学习的路径具有巨大潜力,但收集大规模专家演示的相关成本(如时间和人力成本)构成了显著挑战。为解决这一挑战,近期研究采用视频生成模型作为专家演示的低成本数据生成器,消除人类监督数据收集的相关开销。同时,近期研究探索将视频模型用作模仿学习中的策略骨干网络,旨在利用动态预测和策略学习之间的协同作用,为拟议的机器人动作提供基础。
一般而言,机器人数据生成方法通过端到端方法或模块化方法从生成的视频中恢复机器人动作,如图所示:
将视频模型用作策略骨干网络时,统一视频-动作方法训练机器人策略,以基于语言指令和初始观测,联合预测视频和动作。尽管大多数统一视频-动作方法利用VLA架构构建这些策略,但近期研究直接将预训练视频模型适配于联合视频和动作生成。
强化学习中的动态和奖励建模
最先进的机器人策略通常通过模仿学习进行训练——这种方法与强化学习(RL)相比训练效率更高,但在训练数据分布之外的泛化能力较差。尽管强化学习(RL)规避了这一挑战,但强化学习(RL)需要指定动态和奖励模型,而这在许多实际问题中通常并非易事。此外,强化学习(RL)的样本效率较低,需要大量训练数据才能达到与模仿学习策略相当的性能水平。近期研究试图通过将生成式视频模型用作强化学习(RL)中富表达性的动态和奖励模型,来解决这些局限性,如图所示。
可扩展的策略评估
除策略学习外,视频模型还支持可靠的策略评估,该评估在不同环境和任务设置中具有可重复性。由于固有的硬件和人力成本极高,机器人操作策略的现实世界评估极具挑战性——对于通用机器人策略而言尤其如此,这类策略通常需要在大量操作环境中进行评估。例如,每次硬件试验都需要人工监控,以重置环境、观察策略推理轨迹展开(rollout)并记录成功分数,这一过程成本高昂。尽管硬件评估是黄金标准,但模拟中的策略评估是最佳可用替代方案——尤其是随着视觉保真度、系统识别和材料属性精细调整的近期改进。然而,基于物理的模拟需要大量的设置时间,因为每个真实环境都需要手动重建,包括仔细调整照明和材料属性等多个参数,以最小化模拟与现实差距。相比之下,视频模型提供更高保真、更可扩展的策略评估框架,能够建模基于物理的模拟器难以处理的复杂机器人-环境交互(例如可变形体模拟)。
视觉规划
机器人规划是模仿学习的一种有效替代方案,能够实现超出训练数据集分布的出色泛化。然而,设计能够准确预测场景动态的高保真模型通常被证明极具挑战性。为解决这些缺点,近期研究探索将视频模型用于视觉规划——视觉规划指的是合成图像或视频帧序列,展示完成由语言指令和初始观测指定的任务所需的步骤。通过利用视频模型中编码的训练数据的广泛多样性,这些方法无需大规模专家演示或显式动态模型,即可解决广泛的机器人任务。
视觉规划方法通常使用基于采样的轨迹优化方法(如无梯度交叉熵方法)或基于梯度的方法(如梯度下降或L-M优化器),优化生成的视频规划。优化程序通常嵌入在模型预测控制(MPC)框架中,便于通过传感器反馈在规划过程中纳入新的观测。基于视频模型的视觉规划方法可利用动作引导或无动作方法创建可行的机器人轨迹。
动作引导的视觉规划方法采用三步法:生成动作提议;使用视频模型作为动态预测模块,基于这些动作提议合成视频轨迹;随后基于目标函数评估所得到的视频轨迹。大致而言,动作提议通常通过基于采样的方法、学习型方法或VLM生成。
无动作视觉规划方法不利用动作提议进行规划。相反,这些方法直接从文本条件视频模型生成视频规划,并将视频帧用作规划的图像子目标。
视频模型的评估指标
为根据人类判断评估视频生成质量,需要各种指标来评估视频模型的视觉质量、时间连贯性、生成多样性和物理常识。尽管存在许多传统的图像质量指标[97,98,247],但这些指标无法评估生成视频的时间连贯性。为解决这一限制,近期研究引入特定于视频的指标,可同时从空间和时间维度衡量视频质量。此外,面向应用的指标也同样重要。例如,在策略评估中,动作条件视频生成模型的有效性取决于其预测策略成功率的能力;而在策略学习中,则取决于生成的演示数据是否能产生性能更优的策略。
视频模型的评估基准
尽管视频模型具备令人印象深刻的能力,但即使生成的视频视觉质量很高,也往往会违背特定的期望质量(如物理一致性)。已有研究引入基准,从视觉质量、动态一致性和指令遵循等多个标准评估视频模型的性能。通过从多个维度评估视频模型,这些基准不仅识别出最先进的视频模型,还突出了未来研究的关键领域。
通常,现有基准表明,即使在扩展这些模型后,视频模型仍无法遵循物理定律——尽管其美学质量和时间连贯性往往会随着规模的扩大而提高。虽然许多现有基准评估视频模型生成视频的整体质量或物理一致性,但仅有少数基准评估生成视频的安全性。这些安全基准对视频模型的安全性进行全面评估,表明其倾向于生成违反安全准则的非法或不道德视频。
幻觉与物理定律违背
尽管视频模型具备令人印象深刻的能力,但往往会产生幻觉,生成不切实际的视频帧——这些帧可能时间不一致,或与物理现实不符。在文本到视频(T2V)生成中,近期研究探索了不同类型的幻觉,包括主体消失、遗漏错误、数值变异、视觉不协调和主体畸形,并提出了幻觉检测器。在机器人领域,鉴于准确的未来预测在策略评估和视觉规划等应用领域中的关键作用,幻觉问题尤为重要。
增强条件输入对缓解物理定律违背的效果有限。具体而言,视频模型通常无法遵循支配对象运动和交互的物理定律。已有研究表明,这些模型生成的视频违背基本原理,如牛顿运动定律、能量和质量守恒定律以及重力效应,这表明它们缺乏对这些定律的理解。此外,当在推理时遇到某项任务时,这些模型倾向于模仿最接近的训练样本,限制了其对新(未见过)任务的泛化能力。在这种情况下,视频模型倾向于按特定顺序(颜色、大小、速度和形状)将训练数据中对象的颜色、大小、速度和形状迁移到新任务中的对象。
此外,现有研究表明,视频模型难以生成物理逼真的固体-固体交互,这表明视频模型不理解对象的材料属性、动量守恒定律和对象的不可穿透性。视频模型还表现出对流体力学和质量守恒的基本理解不足,生成不切实际的液体流动视频(例如,将饮料倒入杯子中,但杯子中的液体体积没有相应变化)。然而,生成物理逼真的数据在机器人领域至关重要(例如,在机器人学习中,生成的数据用作训练策略的专家演示),这凸显了向视频模型传授物理理解的必要性。此外,提示工程和缩放技术无法充分解决这一挑战,这表明需要新架构和训练技术来解决这一问题。
不确定性量化
不确定性量化(UQ)技术广泛应用于传统深度神经网络,以检查这些难以解释的模型的可信性。尽管LLM的快速发展推动了对大型生成模型不确定性量化(UQ)的研究,以解决严重的幻觉问题,但图像和视频生成模型的不确定性量化(UQ)方法仍未得到充分探索。同时,由于时空关系的复杂性,将现有不确定性量化(UQ)方法扩展到视频生成模型面临重大挑战。
指令遵循
与早期语言模型类似,文本条件视频模型难以遵循输入提示中指定的用户指令,这构成了一项显著限制。尽管这些模型通常在训练过程中通过引导以与条件输入对齐,但现有引导机制无法提供足够的监督,以生成与输入提示一致的视频。一般而言,最先进的视频模型往往无法完成指定任务,因为它们无法将条件输入中的预期动作提取并转移到指定的智体(agent)。已有研究表明,视频模型通常能够正确生成包含输入提示中指定智体的视频,但仅能部分遵循指定动作,在某些情况下甚至完全无法将指定动作纳入生成的视频。
此外,视频模型通常无法在视频中生成高质量文本——即使视频的其他组件具有高保真度。当输入提示明确要求文本注释时,这一限制尤为明显。此外,通过输入提示控制相机运动仍然是视频模型的一项主要挑战。即使要求生成相机视角固定且无摇摄的视频,视频模型也倾向于模仿其训练视频(这些视频通常包含相机运动),导致不遵守输入提示。
视频模型的评估
目前仍缺乏用于评估视频模型的统一框架,尤其是在机器人应用场景中。现有视频模型评估指标通常要么评估其生成视频的感知质量,要么评估其语义一致性。尽管在内容生成中可能优先考虑视觉质量,但在机器人领域,物理一致性和预测准确性更为关键。
安全内容生成
许多视频模型缺乏足够的安全防护机制,阻碍了其在众多现实世界应用中的集成。已有研究表明,视频模型倾向于生成包含犯罪、冒犯性活动、暴力或虚假信息的不安全内容——这可能阻碍其在敏感应用中的采用。尽管安全性至关重要,但仅有少数研究探索提高视频模型安全性的方法。应对这一挑战对于推动视频模型在机器人领域的更广泛应用至关重要。
安全的机器人交互
除了安全的视频合成外,机器人还必须与其环境中的其他物体和智体安全交互。机器人领域的安全性大致可分为两类:(i)物理安全,即避免所有形式的碰撞;(ii)语义安全,即避免常识认为具有潜在危害的情况(如向其他智能体投掷尖锐物体)。这些形式的安全性在视频模型的机器人应用中尚未得到充分探索。然而,许多机器人任务的成功很大程度上依赖于满足这些安全约束(例如在视觉规划中)。
动作估计
最先进的模仿学习机器人策略需要高质量数据,而这些数据在真实世界中通常难以收集且成本高昂。尽管视频生成模型可以解决这一挑战,但它们生成的视频通常不包含动作标签帧——而这对于学习机器人策略至关重要。一些方法已探索从视频中估计机器人动作;然而,这些方法通常无法达到细粒度任务中模仿学习所需的高精度,这阻碍了当前整合视频模型的策略学习框架的有效性。
长视频生成
为了在机器人任务中充当有效的世界模型,视频模型必须预测足够长的未来时间范围,以匹配通常长达数分钟的机器人任务持续时间。然而,最先进的视频模型仅限于生成仅几秒长的视频。这些时长对于许多机器人问题(如视觉规划)中的明智决策而言是不够的。当前的视频生成流程需要扩展多个短视频片段以创建更长时长的视频;然而,这种方法通常会引入伪影,降低所得视频的时间连贯性和物理一致性。尽管最先进的视频模型在短时长视频生成任务中表现出色,但将这些模型扩展到机器人任务所需的更长时间范围仍然是一个开放挑战。
数据整理成本
高质量数据对于训练能够在各种任务中合成高保真、物理一致视频的视频模型至关重要。除视频质量外,训练数据的多样性也极大地影响生成视频的保真度——尤其是对于文本条件或动作条件视频模型,这些模型需要广泛的数据覆盖才能获得理想结果。尽管互联网上存在大量视频,但许多视频缺乏良好的视觉质量和描述性文本注释,这构成了一项挑战。具体而言,许多现有数据集注重规模而非质量,聚合了数千万个视频及其字幕。因此,这些数据集存在视频字幕不准确、描述性差、视频模糊以及时间不一致片段之间镜头快速切换等问题,这些都会对训练产生负面影响。最先进的方法通常依赖昂贵的数据预处理流程来识别高质量的视频数据用于训练。该流程大致包括三个阶段:(i)视频分割;(ii)视频过滤;(iii)视频注释。在视频分割阶段,使用经典镜头检测工具将候选视频数据按时间分割为短的连续片段。在此阶段,移除过短的视频。然后,通过视频过滤器使用评估视觉质量、文本质量、运动平滑度和抖动等指标(通常利用学习的模型)处理所得片段。随后,许多方法利用VLM对处理后的视频进行注释,将文本描述与视频数据配对,以监督视频模型。通常对VLM进行微调,以实现更高质量的视频字幕生成。这些过程通常需要人工监督进行评估,从而增加了数据整理的成本。
训练和推理成本
最先进的视频模型需要大量计算资源进行训练和推理。尽管训练视频模型的真实成本通常是保密的(尤其是对于闭源模型),但最具成本效益的最先进开源视频模型的训练成本仍高达数十万美元。视频模型通常具有数十亿个参数,这是其训练成本高昂的主要原因之一。尽管潜在扩散减少这些模型所需的参数数量,但相应的训练成本降低通常并不充分。因此,有关视频模型训练的研究在很大程度上仍然局限于预算充足的大型研究团队。此外,近期的发展(如用于细粒度输入条件控制的无分类器引导)引入额外的计算开销。降低训练和推理成本对于推进视频模型在机器人领域的更广泛应用至关重要。
此外,高保真视频模型通常受到推理速度显著较慢的限制。尽管在某些用例中足够,但较慢的推理速度在许多机器人应用(如视觉规划)中构成重要挑战——在这些应用中,闭环执行需要向规划器提供实时反馈以确保稳健性。现有视频模型规划器通常需要几秒钟才能为单个场景生成可行的动作轨迹,这对于实时操作而言速度不够快。
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐


所有评论(0)