V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning
Meta提出V-JEPA 2自监督视频模型,通过100万小时互联网视频预训练实现世界理解与预测。该模型在动作分类(Something-Something v2达77.3%准确率)和动作预测(Epic-Kitchens-100召回率@5达39.7%)任务中表现优异。结合语言模型后,在视频问答任务中达到SOTA(如PerceptionTest 84.0分)。更重要的是,仅用62小时机器人数据微调后,V

标题:V-JEPA 2:自监督视频模型实现理解、预测与规划
原文链接:https://arxiv.org/pdf/2506.09985
源码链接:https://github.com/facebookresearch/vjepa2
博客文章:https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks
摘要
现代人工智能的一项重大挑战是通过观察实现对世界的理解和行动学习(LeCun, 2022)。本文提出一种自监督方法,结合互联网规模的视频数据和少量交互数据(机器人轨迹),开发能够在物理世界中实现理解、预测和规划的模型。我们首先在包含超过100万小时互联网视频的视频和图像数据集上,预训练一个无动作联合嵌入预测架构V-JEPA 2。V-JEPA 2在运动理解任务中表现优异(在Something-Something v2数据集上达到77.3%的top-1准确率),在人类动作预测任务中实现最先进性能(在Epic-Kitchens-100数据集上达到39.7%的召回率@5),超越了以往的任务特定模型。此外,将V-JEPA 2与大型语言模型对齐后,我们在80亿参数规模下,在多个视频问答任务中取得最先进性能(例如,在PerceptionTest上达到84.0分,在TempCompass上达到76.9分)。最后,我们展示了如何通过使用Droid数据集中不到62小时的无标签机器人视频,对潜在动作条件世界模型V-JEPA 2-AC进行后训练,将自监督学习应用于机器人规划任务。我们在两个不同实验室的Franka机械臂上零样本部署V-JEPA 2-AC,通过基于图像目标的规划实现物体的抓取和放置。值得注意的是,这一成果无需在这些环境中的机器人上收集任何数据,也无需任何任务特定的训练或奖励。该研究表明,通过互联网规模数据和少量机器人交互数据的自监督学习,能够构建出可在物理世界中进行规划的世界模型。
1 引言
人类在执行新任务和在陌生环境中操作时,具备适应和泛化能力。多项认知学习理论表明,人类通过整合低级感官输入来表征和预测未来状态,从而构建内部世界模型(Craik, 1967; Rao and Ballard, 1999),并且这些理论进一步认为,该世界模型会影响我们在任何时刻的感知,在帮助我们理解现实方面发挥关键作用(Friston, 2010; Clark, 2013; Nortmann et al., 2015)。此外,预测我们的行动对世界未来状态的影响,对于目标导向的规划也至关重要(Sutton and Barto, 1981, 1998; Ha and Schmidhuber, 2018; Wolpert and Ghahramani, 2000)。构建能够从视频等感官数据中学习世界模型的人工智能体,有望使其像人类一样理解物理世界、预测未来状态,并在新场景中有效规划,进而开发出能够处理前所未见任务的系统。
以往的研究探索了基于状态-动作序列的交互数据开发预测性世界模型,通常还依赖环境的显式奖励反馈来推断目标(Sutton and Barto, 1981; Fragkiadaki et al., 2015; Ha and Schmidhuber, 2018; Hafner et al., 2019b; Hansen et al., 2022)。然而,现实世界中交互数据的有限可用性限制了这些方法的可扩展性。为解决这一局限,近期的研究结合互联网规模视频和交互数据,训练用于机器人控制的动作条件视频生成模型,但在基于模型的控制实现机器人执行方面仅取得有限成果(Hu et al., 2023; Yang et al., 2024b; Bruce et al., 2024; Agarwal et al., 2025)。特别是,这一研究方向往往侧重于评估预测的真实性和视觉质量,而非规划能力,这可能是由于通过生成视频进行规划的计算成本较高。
在本研究中,我们基于自监督假设,构建主要通过观察获取世界背景知识的世界模型。具体而言,我们采用联合嵌入预测架构(JEPA)(LeCun, 2022),该架构通过在学习到的表征空间中进行预测来实现学习。与完全基于交互数据学习的方法不同,自监督学习允许我们利用互联网规模的视频——这些视频描述了状态序列,但未直接观察动作——来学习表征视频观测结果,并在该学习到的表征空间中构建世界动态的预测模型。此外,与基于视频生成的方法不同,JEPA方法专注于学习场景中可预测部分的表征(例如,运动物体的轨迹),同时忽略生成目标所强调的不可预测细节,因为生成目标需要进行像素级预测(例如,田野中每根草叶或树上每片叶子的精确位置)。通过规模化JEPA预训练,我们证明其能够生成具有最先进理解和预测能力的视频表征,并且此类表征可作为动作条件预测模型的基础,实现零样本规划。
图1 V-JEPA 2 概述。利用100万小时的互联网规模视频和100万张图像,我们采用视觉掩码去噪目标(Bardes等人, 2024;Assran等人, 2023)对V-JEPA 2视频模型进行预训练,并通过将该模型与大型语言模型(LLM)骨干网络对齐,将其应用于动作分类、物体识别、动作预测和视频问答等下游任务。预训练完成后,我们还可以冻结视频编码器,在学习到的表征之上,利用少量机器人交互数据训练一个新的动作条件预测器,并将这个名为V-JEPA 2-AC的动作条件模型,通过模型预测控制循环中的规划,应用于下游机器人操作任务。
我们的方法V-JEPA 2采用分阶段训练流程,首先在互联网规模视频上进行无动作预训练,然后使用少量交互数据进行后训练(见图1)。在第一阶段,我们采用掩码去噪特征预测目标(Assran et al., 2023; Bardes et al., 2024),模型在学习到的表征空间中预测视频的掩码片段。我们训练的V-JEPA 2编码器参数规模高达10亿,训练数据包含超过100万小时的视频。实验证实,规模化自监督视频预训练通过基于探针的评估以及将编码器与语言模型对齐用于视频问答(Krojer et al., 2024; Pătrăucean et al., 2023; Liu et al., 2024c; Cai et al., 2024; Shangguan et al., 2024),提升了编码器的视觉理解能力,包括广泛的运动和外观识别能力。
在互联网规模视频预训练之后,我们利用第一阶段学习到的表征,在少量交互数据上训练动作条件世界模型V-JEPA 2-AC。我们的动作条件世界模型是一个3亿参数的Transformer网络,采用块因果注意力机制,能够基于动作和先前状态自回归预测下一视频帧的表征。仅使用来自Droid数据集(Khazatsky et al., 2024)的62小时无标签交互数据,我们证明了训练潜在世界模型的可行性——给定子目标,该模型可用于在Franka机械臂上规划动作,并从零样本角度在新环境中通过单目RGB相机执行抓取操作任务。
总而言之,我们表明,通过视频学习的联合嵌入预测架构可用于构建能够理解物理世界、预测未来状态并在新场景中有效规划的世界模型;这一成果通过利用互联网规模视频和少量交互数据实现。具体而言:
- 理解——基于探针的分类:规模化自监督视频预训练产生的视频表征可应用于多种任务。V-JEPA 2擅长编码细粒度运动信息,在需要运动理解的任务(如Something-Something v2)中表现优异,使用注意力探针达到77.3%的top-1准确率。
- 理解——视频问答:V-JEPA 2编码器可用于训练多模态大型语言模型,以处理视频问答任务。我们在需要物理世界理解和时间推理的多个基准测试中,观察到80亿参数语言模型类别的最先进性能,例如MVP(44.5%的配对准确率)、PerceptionTest(84.0%的测试集准确率)、TempCompass(76.9%的多项选择准确率)、TemporalBench(36.7%的多二进制短问答准确率)和TOMATO(40.3%的准确率)。特别是,我们证明了无需语言监督预训练的视频编码器,能够与语言模型对齐并实现最先进性能,这与传统认知相悖(Yuan et al., 2025; Wang et al., 2024b)。
- 预测:大规模自监督视频预训练提升了预测能力。V-JEPA 2在Epic-Kitchens-100人类动作预测任务中使用注意力探针,达到39.7%的召回率@5,相较于之前的最佳模型实现了44%的相对提升,取得最先进性能。
- 规划:我们证明,通过仅使用来自热门Droid数据集的62小时无标签机器人操作数据对V-JEPA 2进行后训练得到的V-JEPA 2-AC,可部署在新环境中,通过给定子目标的规划解决抓取操作任务。无需在实验室的机器人上训练额外数据,也无需任何任务特定的训练或奖励,该模型成功处理了抓取操作任务,例如在新环境中对未知物体进行抓取和拾取-放置。
论文的其余部分结构如下:2节描述V-JEPA 2的预训练流程,包括实现超越Bardes等人(2024)原始V-JEPA方案规模化的关键要素。3节介绍利用预训练V-JEPA 2模型训练任务无关动作条件世界模型V-JEPA 2-AC的方法。4节展示通过基于模型的规划,将V-JEPA 2-AC用于机器人控制。由于V-JEPA 2-AC在学习到的表征空间中建模世界动态,其能力本质上取决于V-JEPA 2表征空间中捕获的信息,因此我们在5节进一步探索V-JEPA 2在视频理解任务中的性能,在6节探索其在预测任务中的性能。最后,在7节展示V-JEPA 2可与语言模型对齐用于视频问答。8节讨论相关工作,9节总结全文。

图2 多阶段训练 (左图)我们首先在互联网规模的图像和视频数据上,采用视觉掩码去噪目标(Bardes等人, 2024;Assran等人, 2023)预训练V-JEPA2视频编码器。视频片段被分割为令牌序列,并通过丢弃部分令牌施加掩码。编码器随后处理掩码后的视频序列,为每个输入令牌输出嵌入向量。接着,编码器的输出与一组指定掩码块位置的可学习掩码令牌拼接,再由预测器处理。最后,预测器的输出通过L1损失回归到预测目标,该预测目标由EMA编码器计算,其权重定义为编码器权重的指数移动平均。(右图)预训练后,我们冻结视频编码器,在学习到的表征之上学习新的动作条件预测器V-JEPA2-AC。我们采用自回归特征预测目标,基于过去的视频帧、动作和末端执行器状态,预测未来视频帧的表征。我们的动作条件预测器采用块因果注意力模式,使得特定时间步的每个块特征都能关注当前和之前时间步的块特征、动作及末端执行器状态。
2 V-JEPA 2:规模化自监督视频预训练
我们在包含超过100万小时视频的视觉数据集上预训练V-JEPA 2。自监督训练任务基于表征空间中的掩码去噪,构建于V-JEPA框架之上(Bardes等人, 2024)。本文中,我们通过探索更大规模的模型、增加预训练数据量、引入时空渐进分辨率训练策略,扩展了V-JEPA框架,从而能够高效预训练超出16帧短视频片段的模型。
2.1 方法论
表征空间中的掩码去噪
V-JEPA的目标是从经过掩码处理的视频视图x中,预测视频y的学习表征,即随机丢弃部分块后的视图(图2左图)。任务元架构包括编码器 E θ ( ⋅ ) E_{\theta}(\cdot) Eθ(⋅)(用于提取视频表征)和预测器 P ϕ ( ⋅ ) P_{\phi}(\cdot) Pϕ(⋅)(用于预测掩码视频部分的表征)。编码器和预测器通过以下目标同时训练:
m i n i m i z e θ , ϕ , Δ y ∥ P ϕ ( Δ y , E θ ( x ) ) − s g ( E θ ‾ ( y ) ) ∥ 1 , ( 1 ) \begin{array}{r} \begin{array}{rlr} minimize_{\theta ,\phi ,\Delta _{y}}&\left\| P_{\phi }(\Delta _{y},E_{\theta }(x))-sg(E_{\overline {{\theta }}}(y))\right\| _{1},&&(1) \end{array} \end{array} minimizeθ,ϕ,Δy
Pϕ(Δy,Eθ(x))−sg(Eθ(y))
1,(1)
其中 Δ y \Delta_{y} Δy是指示丢弃块位置的可学习掩码令牌。损失函数采用停止梯度操作 s g ( ⋅ ) sg(·) sg(⋅)和编码器网络权重θ的指数移动平均 θ ˉ \bar{\theta} θˉ,以防止表征崩溃。损失仅应用于掩码块的预测结果。
架构
编码器 E θ ( ⋅ ) E_{\theta}(\cdot) Eθ(⋅)和预测器 P ϕ ( ⋅ ) P_{\phi}(\cdot) Pϕ(⋅)均采用视觉Transformer(Dosovitskiy等人, 2020)(简称ViT)参数化。为了在视觉Transformer中编码相对位置信息,我们采用旋转位置编码(RoPE),而非Bardes等人(2024)使用的绝对正余弦位置嵌入。我们通过将特征维度划分为三个大致相等的段(对应时间、高度和宽度轴),并对每个轴的段分别应用一维旋转,实现了传统一维RoPE的三维扩展(Su等人, 2024)。我们发现,相较于绝对正余弦位置嵌入(Vaswani等人, 2017),使用三维RoPE有助于稳定最大规模模型的训练。为了用Transformer编码器处理视频,我们首先将其分割为大小为2×16×16(T×H×W)的管块序列,并采用与Bardes等人(2024)相同的多块掩码策略。
关键规模化要素
本节介绍并研究四个额外的关键要素,这些要素使V-JEPA预训练原理能够规模化,从而得到我们的V-JEPA 2模型。
- 数据规模化:通过利用和整理额外数据源,将数据集规模从200万个视频增加到2200万个。
- 模型规模化:将编码器架构从3亿参数扩展到10亿以上参数,从ViT-L升级到ViT-g(Zhai等人, 2022)。
- 更长训练时长:采用预热-恒定-衰减学习率调度,简化超参数调优,并将训练迭代次数从9万次扩展到25.2万次,有效利用额外数据。
- 更高分辨率:利用预热-恒定-衰减调度,在预热和恒定阶段训练较短、低分辨率的片段,在最终衰减阶段提高分辨率和/或片段长度,从而高效规模化到更高分辨率视频和更长视频片段。
本节其余部分将更详细地描述每个要素,并使用下述评估协议量化每个要素的影响。
评估协议
模型预训练的目标是向编码器注入通用视觉理解能力。因此,我们通过在六个运动和外观分类任务上评估模型学习到的表征质量,来验证模型和数据设计选择:Something-Something v2(Goyal等人, 2017)、Diving-48(Li等人, 2018)、Jester(Materzynska等人, 2019)、Kinetics(Kay等人, 2017)、COIN(Tang等人, 2019)和ImageNet(Deng等人, 2009)。我们采用冻结评估协议:冻结编码器权重,在其表征之上训练特定任务的4层注意力探针,以输出预测类别。本节主要关注六个理解任务的平均准确率。有关任务、评估协议和结果的更多细节,请参见第5节。
2.2 规模化自监督视频学习
我们首先总结规模化分析的关键发现,研究四个关键要素对下游任务平均性能的影响。图3展示了这些规模化干预对六个分类任务平均准确率的影响,基线为在200万视频上预训练的V-JEPA目标ViT-L/16模型。将数据集从200万视频增加到2200万视频(VM22M),准确率提升1.0个百分点。将模型从3亿参数扩展到10亿参数(ViT-g/16),额外提升1.5个百分点。将训练从9万次迭代扩展到25.2万次迭代,再提升0.8个百分点。最后,在预训练和评估期间同时提高空间分辨率(256→384)和时间长度(16→64帧),性能提升至88.2%,相较于ViT-L/16基线累计提升4.0个百分点。每一项单独的变化都带来了积极影响,证实了视频自监督学习(SSL)中规模化的潜力。
图3规模化要素,使用ViT-L/16模型作为基线,展示规模化干预对六个图像和视频分类任务(SSv2、Diving-48、Jester、Kinetics、COIN、ImageNet)平均准确率的影响。
2.3 预训练数据集
接下来,我们将描述构成预训练数据集的视频和图像来源,以及数据整理方法。
扩大数据集规模
我们通过整合公开可用的数据源构建了大规模视频数据集。本研究使用公开数据源,便于其他研究人员复现实验结果。该数据集包含来自Something-Something v2数据集(SSv2)的第一视角视频(Goyal等人, 2017)、来自Kinetics 400、600和700数据集的第三人称动作视频(Kay等人, 2017; Carreira等人, 2018, 2019)、来自HowTo100M的YouTube教程视频(Miech等人, 2019),以及来自YT-Temporal-1B的通用YouTube视频(Zellers等人, 2022,我们简称其为YT1B)。为了增加预训练数据的视觉覆盖范围,我们还纳入了ImageNet数据集的图像(Deng等人, 2009)。为实现图像和视频的联合预训练,我们对图像进行时间上的重复,将其视为所有帧均相同的16帧视频。训练过程中,我们按照经验手动调整的权重系数从每个数据源中采样。最终形成的数据集名为VideoMix22M(简称VM22M),包含2200万个样本。表1列出了这些数据源及其权重信息。

表1 VideoMix22M(VM22M)预训练数据集。为构建观测预训练数据集,我们整合了四个不同的视频源和一个图像数据集。训练过程中采用源特定采样概率,并对YT1B进行基于检索的整理,以减少噪声内容(如卡通或剪贴画风格内容)。

图4 数据缩放与整理。我们在不同的数据组合上训练并对比模型。所有模型均为ViT-L/16,遵循Bardes等人(2024)的方法,采用余弦学习率调度训练9万次迭代。(左图)对比在VM2M数据集和我们的VM22M数据集上预训练的ViT-L/16模型性能。在VM22M数据集上训练使平均性能提升1个百分点,在Kinetics-400、COIN和ImageNet等基于外观的任务上性能提升更为显著。(右图)对比在YT1B上预训练的ViT-L/16模型与在我们的Curated-YT1B数据集(采用基于聚类的整理方法)上预训练的模型性能。使用整理后的数据集训练使平均性能提升1.4个百分点,证明了数据整理的有效性。
图4(左图)对比了在VM22M上预训练的ViT-L/16模型与在Bardes等人(2024)的较小数据集(200万个视频)VideoMix2M上训练的同类模型性能。与VM2M相比,在VM22M上训练的模型在视觉理解任务上的平均性能提升了1个百分点。在Kinetics-400、COIN和ImageNet等基于外观的任务上,性能提升更为显著,这表明增加视觉覆盖范围对这类任务至关重要。
数据整理
YT1B是一个大型视频数据集,包含140万小时视频,与Kinetics和Something-Something v2等较小视频数据集相比,它未经整理且过滤较少。由于未经整理和不平衡的数据会影响模型性能(Assran等人, 2022; Oquab等人, 2023),我们通过改进现有的基于检索的整理流程来处理视频,从而对YT1B进行过滤。具体而言,我们从YT1B视频中提取场景,为每个场景计算嵌入向量,然后采用基于聚类的检索过程(Oquab等人, 2023),根据由Kinetics、Something-Something v2、COIN和EpicKitchen训练数据集构成的目标分布选择视频场景。数据集构建流程的详细信息见附录A.2。与Oquab等人(2023)类似,我们确保目标验证集中的视频均不包含在初始的未经整理的数据池中。
图4(右图)对比了在未经整理的YT-1B数据上预训练的ViT-L模型与在我们的Curated-YT-1B数据集上训练的同类模型在视觉理解评估中的平均性能。使用整理后的数据集训练,模型平均性能比未经整理的基线提升了1.4个百分点。值得注意的是,在ViT-L规模下,基于Curated-YT-1B训练的模型与基于完整VM22M数据集训练的模型性能相当。然而,更大规模的模型从VM22M训练中获益更多(见附录A.2),这表明将Curated-YT-1B与其他数据源结合可提升可扩展性。
2.4 预训练方案
扩大模型规模
为探究模型的缩放特性,我们训练了一系列编码器模型,参数规模从3亿(ViT-L)到10亿(ViT-g)不等。所有编码器的架构细节见附录表12。请注意,每个编码器均采用相同的预测器架构,类似于ViT-small。图5(左图)报告了这些编码器在视觉理解任务上的平均性能。将模型规模从3亿参数(ViT-L)扩大到10亿参数(ViT-g),平均性能提升了1.5个百分点。运动和外观理解任务均从缩放中获益,其中SSv2提升了1.6个百分点,Kinetics提升了1.5个百分点(参见表4)。这些结果证实,自监督视频预训练能够有效利用更大的模型容量,最高可支持10亿参数的ViT-g模型。
图5 模型缩放。我们探索了模型规模和输入视频分辨率的影响。所有模型均在VideoMix22M预训练数据集上训练。(左图)六个理解任务的平均性能随模型规模的变化。模型以恒定学习率训练,直到下游任务性能趋于平稳,然后以64帧、256×256分辨率进行冷却,并报告冷却后的性能。将模型规模从3亿参数扩大到10亿参数,平均性能提升了1.7个百分点。(中图)在A100 GPU上,ViT-g模型训练384×384分辨率视频时,不同每片段帧数对应的训练时间(GPU天)。对比渐进分辨率训练(25.2万次迭代,16帧/256×256分辨率,随后是1.2万次冷却迭代,384×384分辨率)与全分辨率训练的预计时间。渐进式训练可实现高达8倍的加速,显著降低预训练的计算需求。(右图)ViT-g模型在冷却阶段增加视频时长对下游性能的影响。即使在推理/评估阶段仅使用16帧片段,在训练的冷却阶段增加视频时长也能使平均任务性能提升0.7个百分点。
训练调度
V-JEPA 2模型训练采用预热-恒定学习率调度,随后是冷却阶段(Zhai等人, 2022; Hägele等人, 2024)。与Hägele等人(2024)的研究类似,我们发现该调度与半余弦调度(Loshchilov和Hutter, 2016)性能相当;此外,由于可以从恒定阶段的不同检查点启动多个冷却运行,该调度还使长时间训练的探索更具成本效益。我们简化了Bardes等人(2024)的方案,保持教师EMA和权重衰减系数固定,而非采用递增调度,因为这些变化对下游理解任务的影响极小。图3显示,将训练调度从9万次迭代扩展到25.2万次迭代,ViT-g模型的平均性能提升了0.8个百分点,验证了延长训练时长的益处。该调度还通过在冷却阶段逐步提高视频分辨率,为渐进式训练提供了便利。
高效渐进分辨率训练
尽管大多数先前的视频编码器专注于16帧的短视频片段(约几秒)(Bardes等人, 2024; Wang等人, 2024b, 2023),我们探索了在更高空间分辨率下训练长达64帧(16秒)的片段。然而,随着时长和分辨率的增加,训练时间会急剧增长——在64×384×384输入上训练我们的ViT-g模型大约需要60个GPU年(见图5,中图)。为减少训练时间,我们采用了渐进分辨率策略(Touvron等人, 2019; Oquab等人, 2023),在保持下游性能的同时提高训练效率。我们的训练过程始于预热阶段:在16帧、256×256分辨率的视频上训练,线性预热学习率1.2万次迭代;随后是主训练阶段:以恒定学习率训练22.8万次迭代;最后是冷却阶段:在1.2万次迭代中线性衰减学习率,同时提高视频时长和分辨率。因此,训练更长时长、更高分辨率视频所带来的额外计算开销仅在最终冷却阶段产生。这种方法实现了高效的高分辨率训练:如图5(中图)所示,对于能够处理64帧、384×384分辨率输入的模型,与在所有训练阶段均以全分辨率从头训练相比,渐进式训练使GPU时间减少了8.4倍。此外,我们仍能观察到能够处理更长时长和更高分辨率输入的模型所带来的益处,详情如下。
扩大视频的时间和空间分辨率
图5探讨了输入视频分辨率对下游任务性能的影响。在预训练阶段将片段时长从16帧增加到64帧,同时保持16帧的固定评估时长,平均性能提升了0.7个百分点(图5,右图)。此外,我们发现,在评估阶段提高视频时长和分辨率,所有任务的性能均显著提升(参见表4和附录A.4.2)。这些结果表明,视频自监督预训练从训练和评估阶段增加的时间分辨率中获益。尽管我们尝试将视频片段进一步扩展到更长(128帧和256帧),但在这组理解任务中,超过64帧后未观察到进一步的性能提升。
3 V-JEPA 2-AC:学习动作条件世界模型
预训练后,V-JEPA 2模型能够对视频中的缺失部分进行预测。然而,这些预测并未直接考虑智能体可能采取的动作所产生的因果效应。在本节描述的下一阶段训练中,我们重点通过利用少量交互数据,使模型适用于规划任务。为此,我们在冻结的V-JEPA 2视频编码器之上,学习一个帧因果动作条件预测器(图2右图)。我们在来自Droid数据集(Khazatsky等人, 2024)的数据上训练模型,该数据集包含通过遥操作收集的桌面式Franka Panda机械臂实验数据。我们将得到的动作条件模型称为V-JEPA 2-AC,并在4节中展示V-JEPA 2-AC可用于基于模型的规划循环中,在新环境中规划动作。
3.1 动作条件世界模型训练
我们的目标是利用预训练后的V-JEPA 2模型,获得一个潜在世界模型,该模型可通过闭环模型预测控制,用于具身智能系统的控制。为实现这一目标,我们训练V-JEPA 2-AC——一个自回归模型,能够基于控制动作和本体感受观测,预测未来视频观测的表征。
本节将针对配备固定第三人称相机的桌面机械臂,描述该框架的具体实例,其中控制动作对应末端执行器指令。模型使用来自原始Droid数据集的约62小时无标签视频进行训练,这些视频通常为3-4秒的短视频,记录了配备两指夹具的7自由度Franka Emika Panda机械臂的动作。此处的无标签视频指的是,我们不使用任何额外元数据(如奖励信息、演示中执行的任务类型,或演示是否成功完成所尝试的任务)。相反,我们仅使用数据集中的原始视频和末端执行器状态信号(数据集中的每个视频都附带元数据,指示每一帧的末端执行器状态——三个维度表示位置,三个维度表示姿态,一个维度表示夹具状态)。
模型输入
在每次训练迭代中,我们从Droid数据集中随机采样4秒的视频片段 mini-batch,为简化起见,丢弃所有短于4秒的视频,最终得到包含不到62小时视频的数据集子集。视频片段的采样分辨率为256×256,帧率为4帧/秒(fps),得到16帧的片段,记为 ( x k ) k ∈ [ 16 ] (x_{k})_{k \in[16]} (xk)k∈[16],其中每个 x k x_{k} xk代表单个视频帧。机器人在每次观测中的末端执行器状态记为序列 ( s k ) k ∈ [ 16 ] (s_{k})_{k \in[16]} (sk)k∈[16],其中 s k s_{k} sk是相对于机器人基座定义的实值7维向量。 s k s_{k} sk的前三个维度编码末端执行器的笛卡尔位置,接下来的三个维度以 extrinsic 欧拉角的形式编码其姿态,最后一个维度编码夹具状态。我们通过计算相邻帧之间末端执行器状态的变化,构建动作序列 ( a k ) k ∈ [ 15 ] (a_{k})_{k \in[15]} (ak)k∈[15]。具体而言,每个动作 a k a_{k} ak是一个实值7维向量,表示帧k和帧 k + 1 k+1 k+1之间末端执行器状态的变化。我们对采样的视频片段应用随机缩放裁剪增强,宽高比采样范围为(0.75, 1.35)。
损失函数
我们将V-JEPA 2编码器 E ( ⋅ ) E(\cdot) E(⋅)用作图像编码器,独立编码给定片段中的每个帧,得到特征图序列 ( z k ) k ∈ [ 16 ] (z_{k})_{k \in[16]} (zk)k∈[16],其中 z k : = E ( x k ) ∈ R H × W × D z_{k}:=E(x_{k}) \in \mathbb{R}^{H ×W ×D} zk:=E(xk)∈RH×W×D, H × W H ×W H×W表示特征图的空间分辨率,D表示嵌入维度。在实际应用中,我们的特征图使用ViT-g编码器编码,形状为16×16×1408。请注意,在该后训练阶段,编码器保持冻结状态。特征图、末端执行器状态和动作的序列按时间交错为 ( z k , s k , a k ) k ∈ [ 15 ] (z_{k},s_{k}, a_{k})_{k \in[15]} (zk,sk,ak)k∈[15],并通过Transformer预测器网络 P ϕ ( ⋅ ) P_{\phi}(\cdot) Pϕ(⋅)处理,得到下一状态表征预测序列 ( z ^ k + 1 ) k ∈ [ 15 ] (\hat{z}_{k+1})_{k \in[15]} (z^k+1)k∈[15]。标量值的教师强制损失函数最终计算为:
L t e a c h e r − f o r c i n g ( ϕ ) : = 1 T ∑ k = 1 T ∥ z ^ k + 1 − z k + 1 ∥ 1 = 1 T ∑ k = 1 T ∥ P ϕ ( ( a t , s t , E ( x t ) ) t ≤ k ) − E ( x k + 1 ) ∥ 1 , \mathcal{L}_{teacher-forcing }(\phi):=\frac{1}{T} \sum_{k=1}^{T}\left\| \hat{z}_{k+1}-z_{k+1}\right\| _{1}=\frac{1}{T} \sum_{k=1}^{T}\left\| P_{\phi}\left(\left(a_{t}, s_{t}, E\left(x_{t}\right)\right)_{t \leq k}\right)-E\left(x_{k+1}\right)\right\| _{1}, Lteacher−forcing(ϕ):=T1k=1∑T∥z^k+1−zk+1∥1=T1k=1∑T
Pϕ((at,st,E(xt))t≤k)−E(xk+1)
1,
其中 T = 15 T=15 T=15。我们还计算两步滚动损失,以提高模型在推理时执行自回归滚动的能力。为简化表述并略微重载符号,令 P ϕ ( a ^ 1 : T ; s k , z k ) ∈ R H × W × D P_{\phi}(\hat{a}_{1: T} ; s_{k}, z_{k}) \in \mathbb{R}^{H ×W ×D} Pϕ(a^1:T;sk,zk)∈RH×W×D表示从 ( s k , z k ) (s_{k}, z_{k}) (sk,zk)开始,通过自回归运行V-JEPA 2-AC,使用动作序列 ( a ^ i ) i ∈ [ T ] (\hat{a}_{i})_{i \in[T]} (a^i)i∈[T]得到的最终预测状态表征。则滚动损失可表示为:
L r o l l o u t ( ϕ ) : = ∥ P ϕ ( a 1 : T , s 1 , z 1 ) − z T + 1 ∥ 1 . ( 3 ) \mathcal{L}_{rollout }(\phi):=\left\| P_{\phi}\left(a_{1: T}, s_{1}, z_{1}\right)-z_{T+1}\right\| _{1} . (3) Lrollout(ϕ):=∥Pϕ(a1:T,s1,z1)−zT+1∥1.(3)
在实际应用中,我们使用 T = 2 T=2 T=2计算滚动损失,因此仅通过一个递归步骤对预测器求导。
总体训练目标因此为:
L ( ϕ ) : = L t e a c h e r − f o r c i n g ( ϕ ) + L r o l l o u t ( ϕ ) , ( 4 ) L(\phi):=\mathcal{L}_{teacher-forcing }(\phi)+\mathcal{L}_{rollout }(\phi), (4) L(ϕ):=Lteacher−forcing(ϕ)+Lrollout(ϕ),(4)
并针对预测器权重 ϕ \phi ϕ最小化该目标。为便于说明,图6展示了教师强制损失和滚动损失的训练过程,其中 T = 4 T=4 T=4。

图6 V-JEPA 2-AC训练。V-JEPA2-AC以自回归方式训练,利用教师强制损失和滚动损失。(左图)在教师强制损失中,预测器接收当前帧表征的编码作为输入,学习预测下一时刻的表征。(右图)滚动损失涉及将预测器的输出反馈作为输入,使模型能够训练预测多个时刻ahead 的状态。通过优化这两个损失的总和,V-JEPA 2-AC通过减少滚动过程中的误差累积,提高了准确预测未来的能力。
架构
预测器网络 P ϕ ( ⋅ ) P_{\phi}(\cdot) Pϕ(⋅)是一个3亿参数的Transformer网络,包含24层、16个注意力头、1024维隐藏层维度和GELU激活函数。输入到预测器的动作、末端执行器状态和平坦化特征图,通过独立的可学习仿射变换处理,映射到预测器的隐藏维度。类似地,预测器最后一个注意力块的输出通过可学习仿射变换处理,映射回编码器的嵌入维度。我们使用3D-RoPE实现来表示平坦化特征图中每个视频块的时空位置,而仅对动作和姿态令牌应用时间旋转位置嵌入。我们在预测器中使用块因果注意力模式,使得特定时间步的每个块特征都能关注同一时间步和之前时间步的动作、末端执行器状态及其他块特征。
3.2 通过规划推断动作
能量最小化
给定目标状态的图像,我们通过规划利用V-JEPA 2-AC处理下游任务。具体而言,在每个时间步,我们通过最小化目标条件能量函数,为固定的时间范围规划动作序列。然后执行第一个动作,观测新状态,并重复该过程。令 s k s_{k} sk表示当前末端执行器状态, x k x_{k} xk和 x g x_{g} xg分别表示当前观测帧和目标图像,它们通过视频编码器分别编码得到特征图 z k z_{k} zk和 z g z_{g} zg。给定规划范围T,我们通过最小化目标条件能量函数,优化机器人动作序列 ( a i ∗ ) i ∈ [ T ] (a_{i}^{*})_{i \in[T]} (ai∗)i∈[T]:
使得 ( a i ∗ ) i ∈ [ T ] : = a r g m i n a ~ 1 : T E ( a ^ 1 : T ; z k , s k , z g ) (a_{i}^{*})_{i \in[T]}:=argmin_{\tilde{a}_{1: T}} \mathcal{E}(\hat{a}_{1: T} ; z_{k}, s_{k}, z_{g}) (ai∗)i∈[T]:=argmina~1:TE(a^1:T;zk,sk,zg)。如图7所示,模型通过选择使世界模型想象的未来T步状态表征与目标表征之间的L1距离最小的轨迹,推断动作序列 ( a i ∗ ) i ∈ [ T ] (a_{i}^{*})_{i \in[T]} (ai∗)i∈[T]。在实际应用中,我们在每个规划步骤中使用交叉熵方法(Rubinstein, 1997)最小化式(5),并且仅在机器人上执行第一个动作,然后重新规划,即采用滚动时域控制。
图7规划。我们通过最小化世界模型想象的未来T步状态表征与目标表征之间的L1距离,为固定的时间范围T规划动作序列。L1损失通过交叉熵方法(Rubinstein,1997)针对动作 ( a k ) k ∈ [ T ] (a_{k})_{k\in[T]} (ak)k∈[T]进行优化。具体而言,在每个规划步骤中,我们从初始化为零均值和单位方差的高斯分布序列中,采样规划范围内每个点的动作坐标。前k个动作轨迹的总体统计量用于更新高斯分布的均值和方差。该过程重复多次迭代,最终返回高斯序列的均值作为选定的动作轨迹。
4 规划:零样本机器人控制
本节展示如何通过模型预测控制,利用V-JEPA 2-AC实现抓取、到达和拾取-放置等基本机器人技能。我们重点关注视觉目标指定的任务,并证明V-JEPA 2-AC能够零样本泛化到新环境。
4.1 实验设置
基线模型
我们将V-JEPA 2-AC的性能与两个基线模型进行比较:一个是通过行为克隆训练的视觉-语言-动作模型,另一个是基于视频生成的世界模型。
第一个基线模型基于支持目标图像条件的Octo视觉-语言-动作模型(Octo Model Team等人, 2024)。我们从该模型的octo-base-1.5版本的开源权重开始,该版本在包含超过100万条轨迹的Open-X Embodiment数据集上预训练。我们通过行为克隆,利用事后重标记(Andrychowicz等人, 2017; Ghosh等人, 2019),结合图像目标和末端执行器状态,在整个Droid数据集上微调Octo模型。具体而言,在训练过程中,我们从Droid数据集中采样轨迹的随机片段,并在轨迹中向前均匀采样最多20个时间步的目标图像。我们使用官方开源代码进行微调,包括所有标准的Droid优化超参数,并利用256×256分辨率的单侧图像视图输入、两个先前帧的上下文以及4个未来动作的范围。
第二个基线模型基于Cosmos视频生成模型(Agarwal等人, 2025)。我们从无动作Cosmos模型(带连续令牌器的潜在扩散-7B)的开源权重开始,该模型在2000万小时的视频上训练,并使用官方发布的动作条件微调代码在Droid上微调该模型。为了提高在Droid上的训练性能,我们:(i) 降低学习率以匹配视频条件Cosmos方案中使用的学习率;(ii) 移除视频条件中的dropout以改善训练动态;(iii) 将噪声水平提高 e 2 e^{2} e2倍,因为我们观察到使用较低噪声因子训练的模型难以利用条件帧中的信息。尽管Cosmos技术报告(Agarwal等人, 2025)提到将世界模型用于规划或模型预测控制是未来的应用方向,但据我们所知,这是首次报道使用Cosmos模型进行机器人控制的尝试。
机器人部署
所有模型均零样本部署在两个不同实验室的Franka Emika Panda机械臂上(配备RobotiQ夹具),这两个实验室均未出现在Droid数据集中。视觉输入通过未校准的低分辨率单目RGB相机提供。机器人使用完全相同的模型权重和推理代码,以及基于操作空间控制的类似底层控制器。我们对V-JEPA 2-AC世界模型和Cosmos世界模型使用阻塞控制(即系统等待最后一个指令动作完成后,再向控制器发送新动作),并对Octo模型尝试阻塞和非阻塞控制,报告两种选项中的最佳性能。当使用V-JEPA 2-AC和Cosmos进行规划时,我们将每个采样动作约束在以原点为中心、半径为0.075的L1球内,这对应于每个单独动作的末端执行器最大位移约为13厘米,因为大动作相对于模型而言是分布外的。
4.2 结果
单目标到达任务
首先,我们在单目标到达任务上进行评估,该任务要求机器人根据单个目标图像,将末端执行器移动到空间中的指定位置。该任务用于衡量机器人对动作的基本理解,以及通过单目RGB相机对场景的三维空间理解(包括深度感知)能力。
图8单目标到达任务.单目标到达任务要求根据单个目标图像,将末端执行器移动到空间中的指定位置。该任务用于衡量对动作的基本理解,以及通过单目RGB相机对场景的三维空间理解(包括深度感知)能力。在每个步骤中,我们利用V-JEPA2-AC,通过最小化模型想象的未来状态表征与目标帧表征之间的L1距离,规划动作序列。然后执行第一个动作,在下一个步骤中重新规划。规划过程中,我们仅在以原点为中心、半径为0.075的L1球内采样单个动作。因此,单个步骤中笛卡尔距离目标的最大可实现减小量为0.13(约13厘米)。
图8展示了在三个不同的单目标到达任务中,机器人执行过程中末端执行器与目标位置之间的欧几里得距离变化。在所有情况下,模型都能将末端执行器移动到距离目标位置不到4厘米的范围内,并选择能够使误差单调减小的动作。这类似于视觉伺服(Hill, 1979),即利用相机的视觉反馈来控制机器人的运动。然而,与视觉伺服的经典方法不同,V-JEPA 2-AC通过在无标签的真实世界视频数据上训练实现了这一功能。
图9可视化了 Δ y \Delta y Δy到达任务中,式(5)所定义的V-JEPA 2-AC能量景观。该景观以单个笛卡尔控制动作为变量,在固定 Δ z = 0 \Delta z=0 Δz=0的情况下,扫描 Δ x \Delta x Δx和 Δ y \Delta y Δy的取值。能量函数在真实动作附近达到最小值,这进一步证明模型无需精确传感就能合理推断动作的效果。值得注意的是,V-JEPA 2-AC诱导的能量景观相对平滑且局部凸,这有助于规划的顺利进行。
图9 V-JEPA 2-AC能量景观.单目标到达任务中,末端执行器笛卡尔控制动作的能量景观(固定 Δ z = 0 \Delta z=0 Δz=0,扫描 Δ x \Delta x Δx和 Δ y \Delta y Δy);目标图像与起始帧相关的真实动作位于 ( Δ x , Δ y ) = ( 0 , − 0.1 ) (\Delta x, \Delta y)=(0,-0.1) (Δx,Δy)=(0,−0.1)处。我们发现能量函数在 ( Δ x , Δ y ) ≈ ( 0 , − 0.05 ) (\Delta x, \Delta y) \approx(0,-0.05) (Δx,Δy)≈(0,−0.05)附近达到最小值,表明模型无需精确传感就能合理推断动作的效果。
抓取操作任务
接下来,我们在更具挑战性的抓取物体操作任务上评估所有模型,即抓取、带物到达和拾取-放置。表2和表3报告了成功率,结果为10次试验的平均值,每次试验的任务设置有所不同(例如物体位置、起始姿态等)。对于抓取和带物到达任务,模型仅接收单个目标图像;对于拾取-放置任务,除最终目标外,我们还向模型提供两个子目标图像:第一个子目标图像显示物体被抓取的状态,第二个子目标图像显示物体位于目标位置附近的状态。模型首先针对第一个子目标优化动作4个时间步,然后自动切换到第二个子目标优化10个时间步,最后针对第三个目标优化4个时间步。拾取-放置任务的机器人执行示例见图10。实验室1中所有单个任务的起始帧和目标帧见附录B.2。抓取任务需要通过视觉反馈进行精确控制,以正确夹持物体;带物到达任务要求模型在握持物体的同时移动,这需要对直觉物理有基本理解以避免物体掉落;拾取-放置任务则测试这些原子技能的组合能力。

表2标题:零样本机器人操作。所有模型均零样本部署在两个不同实验室的、配备RobotiQ夹具的Franka机械臂上。给定每个任务的图像目标,所有模型通过闭环运行推断动作序列以实现目标。成功率为10次试验的平均值,每次试验的任务设置有所不同(例如物体位置、起始姿态等)。
表3标题:规划性能。对比使用V-JEPA 2-AC世界模型和Cosmos世界模型,通过模型预测控制(MPC)实现的闭环机器人操作性能。两种模型均使用交叉熵方法(Rubinstein, 1997),在单个NVIDIA RTX 4090 GPU上优化动作序列。对于每种机器人技能,我们在10个任务上评估每个模型并取平均值。Cosmos是基于潜在扩散的动作条件视频生成模型,使用80个样本、10次优化迭代和1的规划范围,每个规划步骤计算单个动作需要4分钟。值得注意的是,在每个动作4分钟的规划时间下,完整的拾取-放置轨迹需要超过1小时。相比之下,V-JEPA 2-AC世界模型在每次优化迭代中使用10倍多的样本,每个动作仅需16秒,且在所有考虑的机器人技能上都取得了更高的性能。

图10 拾取-放置任务.V-JEPA 2-AC在多目标拾取-放置任务中的闭环机器人执行过程。高亮帧表示模型完成子目 标并切换到下一个目标的时刻。第一个目标图像显示物体被抓取的状态,第二个目标图像显示物体位于指定位置附近的状态,第三个目标图像显示物体被放置在指定位置的状态。模型首先针对第一个子目标优化动作4个时间步,然后自动切换到第二个子目标优化10个时间步,最后针对第三个目标优化4个时间步。机器人动作通过目标条件规划推断得出。V-JEPA2-AC模型能够在两个不同实验室的Franka机械臂上,在各种物体配置和杂乱环境中,零样本执行拾取-放置任务。
所有模型在到达任务上都取得了较高的成功率,但在涉及物体交互的任务上,性能差异更为明显。我们观察到所有模型的成功率都取决于所操作的物体类型。例如,杯子最容易通过将一个手指伸入物体内部并围绕杯口夹持来抓取,但如果模型产生的控制动作不够精确,机器人会错过杯口,导致抓取失败;操作盒子时,虽然有更多可行的抓取配置,但模型需要更精确的夹具控制,以确保手指张开到足够宽度来抓取物体。我们发现,对于所有模型而言,不同物体类型导致的成功率差异,是由次优动作和每个物体特有的操作挑战共同造成的。尽管如此,V-JEPA 2-AC模型在所有任务中都取得了最高的成功率,这凸显了潜在规划在机器人操作中的可行性。
表3对比了V-JEPA 2-AC与基于潜在扩散的Cosmos动作条件视频生成模型的规划性能。两种模型均使用交叉熵方法(Rubinstein, 1997),在单个NVIDIA RTX 4090 GPU上优化动作序列,并如式(5)所示,通过在模型的潜在空间中编码目标帧来构建能量函数。Cosmos模型在每个规划步骤中,使用80个样本、10次优化迭代和1的规划范围,计算单个动作需要4分钟。尽管Cosmos在到达任务上取得了80%的高成功率,但在物体交互任务上的性能较弱。值得注意的是,在每个动作4分钟的规划时间下,完整的拾取-放置轨迹需要超过1小时的机器人执行时间。相比之下,V-JEPA 2-AC世界模型在每次优化迭代中使用10倍多的样本,每个动作仅需16秒,且在所有考虑的机器人技能上都取得了更高的性能。未来的工作中,我们可以通过利用额外的计算资源进行规划、减少每个时间步使用的样本和优化迭代次数、在世界模型的想象空间中训练前馈策略以初始化规划问题,或者在V-JEPA 2-AC的情况下利用基于梯度的规划,来进一步减少两种模型的规划时间。
4.3 局限性
对相机位置的敏感性
由于V-JEPA 2-AC模型在给定末端执行器笛卡尔控制动作的情况下,预测下一视频帧的表征,且无需任何显式的相机校准,因此它必须通过单目RGB相机输入隐式推断动作坐标轴。然而,在许多情况下,机器人基座在相机帧中不可见,因此推断动作坐标轴的问题没有明确的解,这会导致世界模型产生误差。在实际实验中,我们手动尝试了不同的相机位置,最终选择了在所有实验中表现良好的位置。附录B.4对V-JEPA 2-AC世界模型对相机位置的敏感性进行了定量分析。
长时域规划
世界模型的长时域规划受到多种因素的限制。首先,自回归预测存在误差累积问题:随着自回归滚动步数的增加,表征空间预测的准确性会下降,从而难以可靠地进行长时域规划。其次,长时域规划会增大搜索空间:规划时域的线性增加会导致可能的动作轨迹数量呈指数增长,从而使长时域规划在计算上具有挑战性。另一方面,长时域规划对于解决非贪心预测任务(例如无需图像子目标的拾取-放置任务)是必要的。未来探索用于长时域规划的世界模型,将能够解决更多复杂且有趣的任务。
图像目标
与许多先前的目标条件机器人操作研究一致(Finn and Levine, 2017; Lynch et al., 2020; Chebotar et al., 2021; Jang et al., 2022; Liu et al., 2022; Gupta et al., 2022),我们当前的优化目标设定假设可以获取视觉目标。然而,在实际环境中部署机器人时,以语言形式表达目标可能更为自然。未来的工作可以将潜在动作条件世界模型与语言模型对齐,通过自然语言实现更通用的任务指定。第7节中描述的V-JEPA 2与语言模型的对齐结果,可能为此提供一个起点。
5 理解:基于探针的分类
如前所述,表征空间世界模型(如V-JEPA 2-AC)的能力本质上受限于学习到的表征空间中编码的状态信息。本节及后续章节将探究V-JEPA 2学习到的表征,并在视觉分类任务上对比V-JEPA 2编码器与其他视觉编码器的性能。
视觉分类任务可侧重于外观理解或运动理解。外观理解任务通常可利用输入视频片段单帧中可见的信息解决(即使分类标签描述的是动作),而运动理解任务则需要多个帧才能正确分类视频(Goyal等人, 2017)。为确保对运动和外观理解能力的均衡评估,我们选择了三个运动理解任务:Something-Something v2(SSv2)、Diving-48和Jester,这些任务要求模型理解人类手势和动作;外观理解任务则选择Kinetics400(K400)、COIN和ImageNet(IN1K),涉及动作、场景和物体识别。实证结果表明,V-JEPA 2在运动理解任务上优于最先进的视觉编码器,在外观理解任务上也具有竞争力。
5.1 注意力探针
我们利用每个任务的训练数据,在冻结的编码器输出之上训练一个4层注意力探针。该注意力探针由四个Transformer块组成,最后一个块用带有可学习查询令牌的交叉注意力层替代标准自注意力层。按照标准流程,推理时从视频中采样固定帧数的多个片段,然后对所有片段的分类对数概率进行平均。我们保持分辨率与V-JEPA 2预训练时的分辨率相近。附录C.2详细分析了注意力探针的层数影响,并提供了下游任务中使用的片段数量、片段大小和其他超参数的完整细节。
5.2 评估协议
我们在运动和外观任务上,将V-JEPA 2与多个其他视觉编码器进行性能对比:DINOv2(带寄存器)(Darcet等人, 2024)是当前自监督图像学习的最先进模型;SigLIP2(Tschannen等人, 2025)和感知编码器 P E c o r e G PE_{core}G PEcoreG(Bolya等人, 2025)是图像-文本对比预训练的两个最先进模型;此外还考虑了两个视频编码器:自监督的V-JEPA(Bardes等人, 2024)和主要依赖视觉-文本对比预训练的InternVideo2s2-1B(Wang等人, 2024b)。
我们对所有基线模型和V-JEPA 2采用相同的评估协议,即在冻结的编码器之上学习注意力探针,与Bardes等人(2024)的方法类似。我们按照Oquab等人(2023)的流程将基于图像的模型适配到视频任务,拼接每个输入帧的特征。对于InternVideo2s2-1B,ImageNet任务使用其图像位置嵌入,视频任务则将其位置嵌入从4帧插值到8帧,生成与V-JEPA 2相近的令牌数量。尽管采用相同的评估协议,但基线编码器的训练数据不同(例如,DINOv2训练于LVD-142M, P E c o r e G PE_{core}G PEcoreG训练于MetaCLIP),因此无法直接对比。我们仅能在系统层面对比不同方法,即在训练协议和数据存在差异的情况下,基于一致的评估协议进行比较。我们还纳入了文献中使用类似冻结协议(但注意力头架构可能不同)的现有结果,特别是VideoMAEv2(Wang等人, 2023)、InternVideo-1B和6B(Wang等人, 2024b)以及VideoPrism(Zhang等人, 2024c)在我们所考虑的分类任务上的已报道结果(如有)。完整的评估流程和超参数见附录C.1。
5.3 结果
表4报告了V-JEPA 2、我们评估的其他编码器以及文献中其他显著结果的分类性能(表4标题:动作和物体分类。报告了V-JEPA 2模型在动作和物体分类任务上的性能,所有模型均在64帧、256×256分辨率下预训练,V-JEPA 2 ViT-g384除外(其预训练分辨率为384×384),并与最先进的图像和视频编码器进行对比)。V-JEPA 2 ViT-g(256分辨率)在运动理解任务上显著优于其他视觉编码器,其在SSv2上的top-1准确率达到75.3%,而InternVideo为69.7%, P E c o r e G PE_{core}G PEcoreG为55.4%。V-JEPA 2在外观任务上也具有竞争力,在ImageNet上达到84.6%的准确率(相较于V-JEPA提升了4.6个百分点)。总体而言,与其他视频和图像编码器相比,V-JEPA 2在所有六个任务上的平均性能最佳。更高分辨率、更长时长的V-JEPA 2 ViT-g384在所有任务上均进一步提升,平均性能达到88.2%。
6 预测:基于探针的动作预测
动作预测任务是指给定动作发生前的上下文视频片段,预测未来的动作。利用Epic-Kitchens-100(EK100)基准测试(Damen等人, 2022),我们证明V-JEPA 2的动作预测性能随模型规模的增大而稳步提升。此外,尽管仅使用在V-JEPA 2表征之上训练的注意力探针,V-JEPA 2仍显著优于此前专门为此任务设计的最先进方法。
6.1 任务说明
EK100数据集包含45个厨房环境中以第一视角录制的100小时烹饪活动视频。EK100中的每个视频都标注了动作片段,包括开始时间戳、结束时间戳和动作标签。数据集包含3568个独特的动作标签,每个标签由一个动词和一个名词类别组成,共97个动词类别和300个名词类别。EK100动作预测任务要求从动作片段开始时间戳之前的上下文视频片段中,预测名词、动词和动作(即联合预测动词和名词)。上下文结束与动作片段开始之间的时间间隔为预测时间,默认设置为1秒。由于给定上下文可能对应多个未来动作,任务采用平均类别召回率@5作为性能指标(Damen等人, 2022)。
6.2 预测探针
在冻结的V-JEPA 2编码器和预测器之上,训练一个注意力探针以实现未来动作预测。具体而言,我们采样一个在动作开始前1秒结束的视频片段,将该视频上下文输入V-JEPA 2编码器;预测器接收编码器表征以及对应未来1秒帧的掩码令牌,预测未来视频帧的表征;将预测器和编码器的输出沿令牌维度拼接,输入到与第5节架构类似的注意力探针中。不同之处在于,预测探针的最终交叉注意力层学习三个查询令牌(而非一个),每个查询输出分别输入不同的线性分类器,以预测动作类别、动词类别和名词类别。对每个分类器独立应用焦点损失(Lin等人, 2017),然后求和后通过探针的共享注意力块反向传播。附录D.1提供了更多细节和评估超参数。
6.3 基线模型
我们将模型与三个专门为动作预测训练的基线模型进行对比:InAViT(Roy等人, 2024)是一种利用显式手-物交互建模的有监督方法;Video-LLaMA(Zhang等人, 2023)和PlausiVL(Mittal等人, 2024)均为利用大型语言模型的方法,参数规模高达70亿。

6.4 结果
表5总结了EK100动作预测基准测试的结果(表5标题:预测:人类动作预测。与EK100动作预测基准测试的最先进模型对比,报告了EK100验证集上动词、名词和动作的平均类别召回率@5。V-JEPA 2的性能随模型规模线性增长,在所有模型规模下均优于此前的最先进模型)。我们对比了V-JEPA 2的ViT-L、ViT-H和ViT-g编码器,参数规模从3亿到10亿不等,三者均使用32帧、8帧/秒、256×256分辨率的视频上下文;同时报告了使用384×384分辨率的ViT-g384的结果。V-JEPA 2的动作预测召回率@5随模型规模呈线性增长趋势:3亿参数的V-JEPA 2 ViT-L的召回率@5为32.7%;将模型规模扩大到10亿参数,动作召回率@5提升5.3个百分点,达到38.0%;此外,V-JEPA 2从更高分辨率的上下文中获益,384×384分辨率的V-JEPA 2 ViT-g384相较于256×256分辨率的其他模型,召回率@5进一步提升1.7个百分点。
V-JEPA 2显著优于此前的最先进模型PlausiVL,即使其参数规模仅为3亿,而PlausiVL的参数规模为80亿。特别是V-JEPA 2 ViT-g384在动作召回率@5上比PlausiVL提升了12.1个百分点,相对提升44%。
图11可视化了V-JEPA 2在EK100验证集上三个样本的预测结果,包括两个成功案例和一个失败案例(图11标题:EK100预测可视化。(左图):上下文帧中的四个选定帧;(中图):按可能性排序的模型预测结果;(右图):1秒预测时间后的后续帧。展示了两个模型预测成功的示例和一个预测失败的示例)。在两个成功示例中,V-JEPA 2不仅以top-1置信度正确识别了动作,还基于给定上下文提出了合理的top-2至top-5动作。例如,在第一行中,正确动作是“清洗水槽”,但考虑到场景中存在水龙头和墙壁,“打开水龙头”或“清洁墙壁”也是合理动作;模型还预测了“冲洗海绵”,这是当前正在执行的动作,可能假设该动作在1秒后仍在进行。在失败案例中,V-JEPA 2仍提出了“关门”和“放下香料包”等合理动作,但未能准确识别物体类别“茶叶包”。
6.5 局限性
V-JEPA 2和EK100基准测试存在一些局限性。首先,V-JEPA 2并未完全解决EK100任务,存在动词、名词或两者均预测错误的情况,附录D.2分析了这些错误的分布。其次,本文重点关注1秒预测时间的动作预测,V-JEPA 2在更长时间范围的预测中准确率会下降,详见附录D.2。第三,EK100基准测试仅限于厨房环境,词汇表固定且明确,我们尚不清楚V-JEPA 2在其他环境中的泛化能力,这限制了基于EK100训练的模型的实用性和适用性。最后,EK100中的动作选自固定类别集合,无法泛化到训练集中未包含的动作类别。
7 理解:视频问答
本节探索V-JEPA 2执行开放语言视频问答(VidQA)的能力。为赋予模型语言能力,我们采用LLaVA系列模型(Li等人, 2024b)推广的非令牌化早期融合(Wadekar等人, 2024)架构,将V-JEPA 2作为视觉编码器,训练多模态大型语言模型(MLLM)。在这类MLLM中,通过一个可学习的投影器模块(通常是MLP)将视觉编码器的输出块嵌入映射到LLM的输入嵌入空间,实现视觉编码器与大型语言模型的对齐。随后,MLLM可通过端到端训练或冻结视觉编码器的方式进行训练。VidQA的MLLM中使用的编码器大多是图像编码器,这些编码器对视频输入逐帧独立应用(Qwen Team等人, 2025; Zhang等人, 2024b)。此类编码器的典型代表包括CLIP(Radford等人, 2021)、SigLIP(Tschannen等人, 2025)和感知编码器(Bolya等人, 2025),选择这些编码器主要是因为它们通过图像-标题对预训练,实现了与语言的语义对齐。据我们所知,本研究首次使用无语言监督预训练的视频编码器训练用于VidQA的MLLM。
MLLM在下游任务上的性能还高度依赖于对齐数据。本实验使用包含8850万个图像-文本和视频-文本对的数据集,与训练PerceptionLM(Cho等人, 2025)所用数据集类似。为验证V-JEPA 2编码器的有效性,首先在7.2节的受控数据设置中,使用1800万个样本的子集,将V-JEPA 2与其他最先进的视觉编码器进行对比;然后在相同的受控设置中,7.3节展示扩大视觉编码器规模和输入分辨率均能持续提升VidQA性能;最后在7.4节,使用完整的8850万个样本扩大对齐数据规模,测试V-JEPA 2与语言对齐的极限。结果表明,在受控数据设置中,V-JEPA 2在开放式VidQA任务上的性能与其他视觉编码器相比具有竞争力;扩大对齐数据规模后,V-JEPA 2在多个VidQA基准测试中取得最先进性能。
7.1 实验设置
视频问答任务
我们在PerceptionTest(Pătrăucean等人, 2023)上进行评估,该基准测试评估模型在记忆、抽象、物理和语义等不同技能上的表现;此外,在用于物理世界理解的MVP数据集(Krojer等人, 2024)上进行评估,该数据集采用最小视频对评估框架,以减轻文本和外观偏差;同时在TempCompass、TemporalBench和TOMATO(Liu等人, 2024c; Cai等人, 2024; Shangguan等人, 2024)上进行评估,以探究模型的时间理解和记忆能力;最后,使用MVBench(Li等人, 2024c)和TVBench(Cores等人, 2024)评估模型的通用理解能力,其中MVBench对单帧外观特征存在偏差(Krojer等人, 2024; Cores等人, 2024),而TVBench是文献中提出的用于通用和时间理解的替代基准测试,可减轻此类偏差。
视觉指令微调
为评估V-JEPA 2表征在视觉问答任务上的性能,我们采用LLaVA框架(Liu等人, 2024a)的视觉指令微调流程,将V-JEPA 2与LLM对齐。该过程通过一个可学习的投影器模块(通常是MLP)将视觉编码器输出(或视觉令牌)转换为LLM输入。遵循Liu等人(2024b)的方法,我们通过渐进式三阶段流程训练MLLM:阶段1,仅在图像标题数据上训练投影器;阶段2,在大规模图像问答数据上训练整个模型;阶段3,在大规模视频标题和问答数据上进一步训练模型。通过这种分阶段训练方式,LLM对视觉令牌的理解逐步提升。视觉编码器既可以冻结,也可以与MLLM的其他部分一起微调。我们探索了这两种设置:冻结视觉编码器能更清晰地反映视觉特征的质量,而微调视觉编码器能获得更好的整体性能。视觉指令训练的更多细节见附录E。
7.2 与图像编码器的对比
为分离视觉编码器对MLLM性能的贡献并与V-JEPA 2进行对比,我们设计了受控设置:使用相同的LLM骨干网络和训练设置,训练配备不同最先进编码器的独立MLLM。在该受控设置中,我们使用Qwen2-7B-Instruct(Yang等人, 2024a),冻结视觉编码器,使用1800万个图像和视频-文本对齐样本。首先将预训练分辨率为512×512的V-JEPA 2与DINOv2(Oquab等人, 2023)、SigLIP-2(Tschannen等人, 2025)和感知编码器(Bolya等人, 2025)进行对比。
结果表明,在冻结设置下,V-JEPA 2表现出具有竞争力的性能,在所有测试基准测试中均优于DINOv2、SigLIP和感知编码器(PE)(表6),仅在PerceptionTest上略逊于SigLIP和PE。在主要关注时间理解的基准测试(MVP、TemporalBench和TVBench)上,性能提升尤为显著。此外,由于我们仅更换了视觉编码器,这一结果证明,与传统认知不同(Tong等人, 2024; Li等人, 2024b; Liu等人, 2024d; Yuan等人, 2025),无语言监督训练的视频编码器能够优于有语言监督训练的编码器。该结果还表明,在VidQA中使用视频编码器而非图像编码器,可提升时空理解能力,凸显了开发更优视频编码器的必要性(表6标题:冻结编码器设置下现成图像编码器与V-JEPA 2的对比。所有实验使用相同的LLM骨干网络(Qwen2-7B-Instruct)、数据和训练设置,冻结视觉编码器。PerceptionTest准确率报告为微调后验证集的准确率)。

7.3 扩大视觉编码器规模和输入分辨率
已有研究(Fan等人, 2025)表明,扩大视觉编码器规模和输入分辨率可显著提升自监督图像编码器的VQA性能。因此,我们将V-JEPA 2的参数规模从3亿扩大到10亿,输入分辨率从256像素提升到512像素,结果如表7所示(表7标题:扩大视觉编码器规模和分辨率。将视觉编码器的参数规模从3亿扩大到10亿,输入分辨率从256像素提升到512像素。所有实验使用相同的LLM骨干网络(Qwen2-7B-Instruct)、数据和端到端训练(未冻结视觉编码器)设置。PerceptionTest准确率报告为微调后验证集的准确率。扩大V-JEPA 2编码器规模和分辨率可提升VidQA任务的平均性能)。在输入分辨率固定为256像素的情况下,将视觉编码器容量从3亿参数扩大到10亿参数,PerceptionTest准确率提升0.9个百分点,TVBench提升3.3个百分点,MVBench提升1.2个百分点。此外,将输入分辨率提升到512像素,所有下游任务的性能均进一步提升,例如PerceptionTest提升2.2个百分点,TemporalBench提升4.0个百分点,TVBench提升3.3个百分点。这些结果表明,进一步扩大视觉编码器规模和输入分辨率是提升VidQA性能的一个有前景的方向。
7.4 通过扩大数据规模提升最先进性能
在受控设置中深入了解V-JEPA 2训练MLLM的能力后,我们研究了扩大对齐数据集规模对提升VidQA最先进性能的影响。正如Cho等人(2025)所观察到的,扩大训练数据规模通常能使下游任务性能实现跨越式提升。为此,我们将MLLM训练数据规模从1800万扩大到完整的8850万(4.7倍)。虽然提高模型分辨率有助于提升下游性能,但也带来了在LLM输入中容纳大量视觉令牌的挑战。因此,我们选择V-JEPA 2 ViT-g384,每个帧产生288个视觉令牌。遵循Cho等人(2025)的方案训练V-JEPA 2 ViT-g384,使用Llama 3.1作为骨干网络。为简化训练过程,我们使用无池化的MLP投影器。扩大训练设置的细节见附录E。

表8标题:与最先进模型的对比。使用完整的8850万样本对齐数据集,采用与PLM 8B(Cho等人, 2025)相同的方法训练,使用Llama 3.1作为骨干网络。下游评估结果显著提升,在80亿参数模型类别中取得最先进结果。V-JEPA 2的PerceptionTest准确率报告为微调后测试集的准确率;其他所有结果均为零样本结果。
扩大数据规模使下游基准测试性能全面提升,在多个基准测试(PerceptionTest、MVP、TempCompass、TemporalBench和TOMATO)上取得最先进结果(表8)。与当前最先进的PerceptionLM 8B(Cho等人, 2025)相比,V-JEPA 2在PerceptionTest测试集上的准确率提升1.3个百分点,在MVP的配对准确率上提升4.8个百分点,在TempCompass的准确率上提升4.2个百分点,在TemporalBench的短问答段多二进制准确率上提升8.4个百分点,在TOMATO的准确率上提升7.1个百分点。V-JEPA 2在TVBench和MVBench上的性能虽未超过PerceptionLM,但仍显著优于其他相关基准模型(InternVL 2.5、Qwen2VL和Qwen2.5VL)。这些结果凸显了扩大视觉-语言对齐训练数据的必要性,并证明了无语言监督预训练的编码器(如V-JEPA 2)在足够规模下能够取得最先进结果。
8 相关工作
世界模型与规划
早在Sutton和Barto(1981)以及Chatila和Laumond(1985)的研究中,人工智能研究人员就致力于构建能够利用世界内部模型(既建模世界动态,也映射静态环境)实现高效规划和控制的智能体。以往的研究已在模拟任务(Fragkiadaki等人, 2015; Ha和Schmidhuber, 2018; Hafner等人, 2019b,a; Hansen等人, 2022, 2023; Hafner等人, 2023; Schrittwieser等人, 2020; Samsami等人, 2024)以及现实世界的移动和操作任务(Lee等人, 2020; Nagabandi等人, 2020; Finn等人, 2016; Ebert等人, 2017, 2018; Yen-Chen等人, 2020)中对世界模型进行了研究。世界模型方法要么直接在像素空间中学习预测模型(Finn等人, 2016; Ebert等人, 2017, 2018; Yen-Chen等人, 2020),要么在学习到的表征空间中学习(Watter等人, 2015; Agrawal等人, 2016; Ha和Schmidhuber, 2018; Hafner等人, 2019b; Nair等人, 2022; Wu等人, 2023b; Tomar等人, 2024; Hu等人, 2024; Lancaster等人, 2024),要么利用更结构化的表征空间(如关键点表征)(Manuelli等人, 2020; Das等人, 2020)。以往在机器人任务中表现出现实世界性能的方法,均训练了任务特定的世界模型,且依赖于机器人部署环境中的交互数据。这类方法的评估重点是展示世界模型方法在已探索任务空间内的性能,而非对新环境或未见过物体的泛化能力。本研究训练了一个任务无关的世界模型,并证明了其对新环境和新物体的泛化能力。
近期一些研究结合互联网规模视频和交互数据,训练用于自主机器人的通用(任务无关)动作条件视频生成模型(Bruce等人, 2024; Agarwal等人, 2025; Russell等人, 2025)。然而,迄今为止,这些方法仅展示了在给定机器人动作的情况下生成视觉上合理的规划的能力,尚未证明能够利用这些模型实际控制机器人。
其他研究探索了将生成建模整合到策略学习中(Du等人, 2024; Wu等人, 2023a; Zhao等人, 2025; Zhu等人, 2025; Du等人, 2023; Zheng等人, 2025; Rajasegaran等人, 2025)。与这类研究不同,我们的目标是通过模型预测控制利用世界模型,而非通过策略学习,以避免需要专家轨迹的模仿学习阶段。这两种方法相互独立,未来可结合使用。与本研究最接近的是Zhou等人(2024)和Sobal等人(2025)的研究,他们表明可以分阶段或端到端学习世界模型,并利用其零样本解决规划任务。但这些以往的研究重点是小规模规划评估,而本研究表明,类似原理可以规模化应用于解决现实世界的机器人任务。
机器人控制的视觉-语言-动作模型
近期现实世界机器人控制中的模仿学习方法取得了显著进展,通过利用在互联网规模视频和文本数据上预训练的视频-语言模型,并通过专家演示的行为克隆对其进行微调(或适配)以预测动作,学习到的策略具有越来越强的泛化能力(Driess等人, 2023; Brohan等人, 2023; Black等人, 2024; Kim等人, 2024; Bjorck等人, 2025; Black等人, 2025)。尽管这些方法展示了良好的泛化结果,但由于缺乏明确的世界预测模型,且未利用推理时计算进行规划,目前尚不清楚它们是否能够学习预测训练数据中未演示的行为。这类方法需要高质量的大规模遥操作数据,且只能利用成功的轨迹。相比之下,本研究专注于利用任何交互数据,无论其来自与环境的成功交互还是失败交互。
视觉基础模型
计算机视觉中的视频基础模型表明,大规模观测数据集(包含图像和/或视频)可通过自监督学习方法(基于图像(Grill等人, 2020; Assran等人, 2023; Oquab等人, 2023; Fan等人, 2025)、基于视频(Bardes等人, 2024; Carreira等人, 2024; Wang等人, 2023; Rajasegaran等人, 2025)、弱语言监督(Wang等人, 2024b; Bolya等人, 2025)或其组合(Tschannen等人, 2025; Fini等人, 2024)),用于学习在广泛下游任务中表现良好的通用视觉编码器。然而,以往的研究往往侧重于在与大型语言模型对齐后,通过基于探针的评估或视觉问答任务进行理解能力评估。尽管这类任务推动了研究进展,但视觉系统的一个重要目标仍是使智能体能够与物理世界交互(Gibson, 1979)。除了视觉理解任务的结果外,本研究还探究了大规模视频自监督学习如何实现零样本解决新环境中的规划任务。
9 结论
本研究表明,通过互联网规模数据和少量机器人交互数据的自监督学习,联合嵌入预测架构能够构建出可在物理世界中进行理解、预测和规划的世界模型。V-JEPA 2在需要运动理解的动作分类和人类动作预测任务上取得最先进性能;与大型语言模型对齐后,V-JEPA 2在视频问答任务上的性能也优于以往的视觉编码器;此外,利用V-JEPA 2的表征对动作条件世界模型V-JEPA 2-AC进行后训练,能够实现现实世界机器人的零样本抓取操作任务(如拾取-放置)。这些发现表明,V-JEPA 2是朝着开发能够有效感知和作用于环境的先进人工智能系统迈出的重要一步。
未来工作
V-JEPA 2存在一些局限性,未来有几个重要的研究方向可解决这些问题。首先,本研究专注于需要预测未来约16秒的任务,这使得仅通过单个目标图像就能规划较简单的操作任务(如抓取和带物到达)。然而,要将其扩展到更长时域的任务(如拾取-放置或更复杂的任务)且无需子目标,还需要进一步的建模创新。开发能够在不同抽象层次上跨多个时空尺度进行预测的分层模型,是一个有前景的方向。
其次,如4节所述,V-JEPA 2-AC目前依赖于以图像目标形式指定的任务。尽管这对于某些任务可能很自然,但在其他情况下,基于语言的目标指定可能更合适。扩展V-JEPA 2-AC以接受基于语言的目标(例如,通过一个能够将基于语言的目标嵌入到V-JEPA 2-AC表征空间的模型),是未来另一个重要的研究方向。7节中描述的V-JEPA 2与语言模型的对齐结果,可能为此提供一个起点。
最后,本研究将V-JEPA 2模型的规模扩大到了适中的10亿参数。2节的结果表明,在扩大到该规模的过程中,性能持续提升。以往的研究已探索将视觉编码器扩大到200亿参数(Zhai等人, 2022; Carreira等人, 2024)。未来还需要进一步的研究,开发可扩展的预训练方案,以实现随着规模扩大性能的持续提升。
思考
motivation:
(1)利用Internet 规模的视频/图像(百万小时级)来学习对物理世界的通用表征,而不是仅依赖稀缺的交互/行为数据,期望把“观察得到的世界模型”用于下游预测与规划。
(2)传统像素级生成的目标会把注意力浪费在不可预知的细节上(叶子、草等),而 JEPA 风格的“表示空间预测”能聚焦可预测、重要的动力学信息,从而更适合当作世界模型用于规划。
(3)通过先大规模动作无关预训练 → 冻结编码器 → 用少量机器人交互数据训练动作条件预测器(V-JEPA 2-AC),实现从观测到动作规划的可迁移流程,目标是零样本在新机器人/新实验室执行任务。
核心创新:
(1)将 JEPA 表征预测范式首次成功扩展到超大规模视频世界模型。一种在表示空间(latent space)而非像素空间进行预测的自监督视频模型,证明“不生成像素,也能学到强世界模型”,并且能规模化。
(2)提出一套可扩展的视频自监督训练工程范式。 设计了渐进分辨率 + 时长训练策略(progressive resolution & cooldown),显著降低算力成本同时提升性能。构建并使用 VideoMix22M数据集验证大规模“无动作、无标签”视频的有效性。
(3)将“纯观测”视频预训练的表征成功迁移为动作条件世界模型。在冻结编码器的前提下,仅用少量机器人交互数据,训练动作条件预测器(V-JEPA 2-AC)。打破“世界模型必须靠大量动作数据学习”的隐含假设。
(4)基于潜在空间想象的零样本规划。 在表示空间中进行动作条件 rollout,并通过能量最小化 + CEM 搜索完成规划。不需要行为克隆、不需要任务微调,即可在新实验室、新物体、新机器人设置中完成抓取与操作。
(5)统一了视频理解、预测与规划三类能力。同一个预训练视频模型:可对齐 LLM,解决视频问答与物理推理;可用于动作预测与未来状态推断;可作为机器人世界模型进行规划。
附录
A V-JEPA 2预训练
A.1 预训练超参数
如2.4节所述,我们的训练流程包括两个阶段:1)恒定学习率阶段;2)冷却阶段。对于所有模型,在第一阶段训练直到观察到IN1K、COIN和SSv2任务的性能趋于平稳或下降,然后启动冷却阶段。
(表9标题:预训练超参数。大型计算机视觉模型预训练的常用参数,报告了主要训练阶段和冷却阶段的参数)
第一阶段的训练始于1.2万次迭代的学习率预热,随后在该阶段剩余部分保持恒定学习率。每6万次迭代进行一次评估。冷却阶段始于5.25e-4的学习率,然后线性下降到最终学习率。在两个阶段中,所有其他超参数均保持不变。
在冷却阶段,我们在保持帧率不变的情况下增加每个片段的帧数,因为我们发现向模型输入更多帧数会带来显著益处(见图5)。此外,我们还在该阶段增加了模型的裁剪大小,这对IN1K等任务带来了显著益处——裁剪大小从256提升到384时,IN1K的准确率从84.6提升到85.1。两个阶段的超参数总结于表9。
在整个附录中,我们提到的“简化”训练方案指的是遵循Bardes等人(2024)的方法进行9万次迭代的训练。该简化方案有几个关键差异:首先是学习率,简化方案始于线性预热,随后是余弦衰减;其次是权重衰减和EMA的调度,它们从初始值线性递增到最终值;最后是总迭代次数限制为9万次。我们在多个数据混合的消融实验中使用简化方案,以便在较短的计算预算下探究数据整理的效果。
A.2 预训练数据
我们通过PySceneDetect库对YT1B进行整理,首先提取场景,该库在场景转换处将视频分割为片段。丢弃短于4秒的场景,保留3.16亿个场景。然后将DINOv2 ViT-L模型应用于每个片段的中间帧,提取场景嵌入。采用与Oquab等人(2023)相同的聚类策略,将YT1B嵌入聚类为150万个聚类。以相同方式提取目标分布中所有视频的嵌入,然后将其分配到最近的YT1B聚类。仅保留至少有一个目标视频分配到的聚类——约占原始150万个聚类中的21万个,保留的聚类包含1.15亿个场景。
基于聚类的检索匹配目标分布的支持度,但不匹配其权重。我们采用加权采样方案重新平衡数据,以更好地匹配目标分布。使用加权采样策略从聚类中采样: w c = ∑ d = 1 D w d × N d , c N d w_{c}=\sum_{d=1}^{D} w_{d} ×\frac{N_{d, c}}{N_{d}} wc=∑d=1Dwd×NdNd,c,其中 w c w_{c} wc是第c个聚类的权重系数, w d w_{d} wd是第d个目标数据集的权重系数(来自表11), N d , c N_{d, c} Nd,c是第d个数据集在第c个聚类中的样本数量, N d N_{d} Nd是第d个数据集的总样本数量,D是目标数据集的总数。我们根据每个目标数据集检索到的场景数量,大致分配检索权重,并为EpicKitchen分配额外的权重。这使得最终整理后的数据集的统计特征与文献中手工构建的数据集更接近。我们发现,单独使用整理后的YT1B替代未整理的YT1B,在下游理解任务上取得了更好的结果(见图4)。
(表11标题:数据整理统计。总结了从YT1B提取的聚类中,提取的场景数量和视频时长。最后一行包括K710、SSv2、COIN和EpicKitchen检索结果中的重复项)
该策略检索到的聚类和场景的总体统计数据总结于表11。整个数据集偏向于通过K710检索到的聚类,结合其0.7的检索权重,使得整个整理后的数据集具有较重的Kinetics权重,这在我们的消融实验中反映在K400性能上(见附录A.4.1)。如正文表1所示,我们将该整理后的YT1B与SSv2、Kinetics、HowTo100M和ImageNet结合,构建最终的VM22M数据集。
A.3 扩大模型规模
模型架构的细节如表12所示。所有模型均采用视觉Transformer(Dosovitskiy等人, 2020)参数化,使用标准的16×16块大小。扩大模型规模时,将编码器从ViT-L(3亿参数)扩展到ViT-g(10亿参数),而在所有预训练实验中,预测器的大小保持固定。
(表12标题:模型架构细节。V-JEPA 2预训练期间使用的编码器和预测器架构系列,包含一些主要参数)
A.4 额外结果
A.4.1 数据整理的影响
表13展示了数据整理对部分下游分类任务的影响。该表中的模型均在ViT-L和ViT-g规模下,采用原始V-JEPA(Bardes等人, 2024)的简化训练方案进行训练。训练较小规模模型(ViT-L)时,在整理后的YT1B变体上训练的模型,在所有任务上的性能均优于未整理的变体。然而,当转向混合数据设置(即添加图像和手工选择的视频)时,使用整理后的数据会导致部分任务的性能下降,例如VM22M(混合+整理后的YT1B)在SSv2上的性能为72.8,而混合+未整理的YT1B为73.3。在某些情况下,仅使用整理后的YT1B训练的模型优于混合数据训练的模型,例如在COIN(86.5 vs. 86.25)和K400(84.6 vs. 83.7)评估任务上。这一结果有些令人惊讶,因为尽管在混合设置中包含了K710训练数据,但我们发现其在K400评估任务上的性能并未超过仅使用整理后的YT1B训练的模型。
(表13标题:数据整理对视频理解的影响。报告了ViT-L和ViT-g模型规模下的结果,所有模型均采用Bardes等人(2024)的简化方案进行预训练)
然而,这种行为在不同规模下并非一致。在ViT-g规模下,VM22M(混合+整理后的YT1B)在所有任务上均优于混合+未整理的YT1B。
(图12标题:V-JEPA 2预训练中数据整理的影响。展示了模型在IN1K、COIN、SSv2和K400任务上的平均性能与预训练“轮次”(相当于300次优化步骤)的关系。使用整理后和未整理数据训练的模型,在600轮之前性能相近,之后使用未整理YT1B训练的模型性能开始下降)
采用长时间训练方案时,在ViT-g模型规模下,VM22M和混合+未整理的YT1B之间的差异仍然存在,如图12所示,该图对比了模型在IN1K、COIN、SSv2和K400图像理解任务上的平均性能。最初,两个模型的提升速度大致相同,但在600轮后性能开始分化,使用未整理数据的模型不再继续提升。
A.4.2 长时间训练方案和冷却阶段的影响
表14展示了两阶段训练流程的影响。与表13中ViT-g的结果相比,在冷却阶段之前,简化方案优于恒定学习率方案。主要益处来自冷却阶段,该阶段使用64帧进行预训练,并结合递减的学习率,使所有评估的性能提升超过1个百分点。
(表14标题:长时间训练和冷却阶段的影响。报告了ViT-g模型在不同分辨率冷却阶段的结果)
A.4.3 评估时视频时长的影响
图13探究了评估时输入视频时长对下游任务性能的影响。使用在64帧片段上预训练的模型,当评估时将视频时长从16帧增加到64帧,平均性能提升9.7个百分点。请注意,由于内存限制,该消融实验采用单片段评估方案(即每个视频仅采样一个片段),而非标准的多片段评估。
(图13标题:评估时视频时长的影响。通过在更长的视频片段上运行推理,任务性能进一步提升。所有评估均使用在64帧、256×256分辨率下冷却的ViT-g模型。由于内存限制,结果采用单片段评估方案报告。推理时处理的帧数增加,平均性能最高可提升9.7个百分点)
B V-JEPA 2-AC后训练
B.1 后训练超参数
V-JEPA 2-AC模型使用AdamW(Loshchilov和Hutter, 2017)优化器训练,采用预热-恒定-衰减学习率调度,权重衰减固定为0.04。学习率在4500次迭代内从 7.5 × 10 − 5 7.5 ×10^{-5} 7.5×10−5线性预热到 4.25 × 10 − 4 4.25 ×10^{-4} 4.25×10−4,然后在85500次迭代内保持恒定,最后在4500次迭代内衰减到0。批量大小为256,包含从Droid原始数据集中随机采样的4秒视频片段,帧率为4帧/秒。我们仅在Droid的左侧外摄相机视图上训练——也可以在右侧相机视图的视频上训练,但我们发现,在不额外考虑相机位置的情况下,在左右两侧相机视图上训练会降低性能。为简化起见,丢弃所有短于4秒的视频,最终用于训练的视频时长不到62小时。对采样的视频片段应用随机缩放裁剪增强,宽高比采样范围为(0.75, 1.35)。
B.2 机器人任务定义
图14展示了实验室1中杯子抓取操作任务的起始帧和目标帧示例。对于抓取和带物到达任务,模型仅接收单个目标图像;对于拾取-放置任务,除最终目标外,还向模型提供两个子目标图像:第一个子目标图像显示物体被抓取的状态,第二个子目标图像显示物体位于目标位置附近的状态。模型首先针对第一个子目标优化动作4个时间步,然后自动切换到第二个子目标优化10个时间步,最后针对第三个目标优化4个时间步。使用V-JEPA 2-AC进行规划时,采用800个样本、基于前一次迭代前10个样本的10次优化迭代,规划范围为1。由于所有考虑的任务均相对贪心,我们发现短规划范围足以满足我们的设置。虽然更长的规划范围也能取得合理的效果,但会增加规划时间。
B.3 世界模型预测的可视化
为可视化模型的预测结果,我们在Droid数据集上训练了一个帧解码器,将V-JEPA 2表征映射到人类可解释的像素。具体而言,使用冻结的V-JEPA 2视频编码器处理4帧片段,通过解码器网络分别解码每个帧,然后使用均方误差(L2)像素重建损失更新解码器的权重。解码器是一个前馈网络(内部不使用任何采样的完全确定性回归模型),输出维度为256×256×3,采用ViT-L参数化。解码器训练15万次优化步骤,使用AdamW优化器,权重衰减固定为0.1,梯度裁剪为1.0,批量大小为1024帧。学习率在2000次迭代内线性预热到峰值 5 × 10 − 4 5 ×10^{-4} 5×10−4,然后按余弦调度衰减。推理时,将在V-JEPA 2编码器上训练的解码器直接应用于V-JEPA 2-AC预测器产生的表征。选择仅使用简单的前馈架构,并在帧级别解码表征(而非视频级别),是为了更好地利用解码器作为可解释性工具,分析V-JEPA 2-AC对一组机器人动作序列的滚动预测结果。
(图15标题:表征解码。为可视化模型的预测结果,在Droid数据集上训练了一个帧解码器,将V-JEPA 2表征映射到人类可解释的像素。解码器是一个前馈网络(内部不使用任何采样的完全确定性回归模型),通过均方误差像素重建损失训练。将在V-JEPA 2编码器上训练的帧解码器应用于V-JEPA 2-AC预测器产生的表征,可可视化各种动作序列的世界模型滚动预测结果)
图15a展示了实验室机器人的真实轨迹视频帧(上排)、V-JEPA 2编码器对每个帧的编码并通过前馈帧解码器解码的结果(中排),以及V-JEPA 2-AC世界模型使用真实动作序列和单个起始帧作为上下文产生的自回归滚动预测结果(下排)。V-JEPA 2表征的解码结果(中排)表明,编码器捕获了视觉基于控制所需的场景关键部分;背景生成模糊部分可部分归因于前馈帧解码器的低容量。V-JEPA 2-AC滚动预测的解码结果表明,动作条件世界模型成功地使机器人动起来,同时保持背景和非交互物体(如架子)不受影响。此外,我们还发现,当夹具闭合时,模型正确预测了杯子随机械臂的移动,表明其对直觉物理(如物体恒常性、形状恒常性和重力)有合理的理解,但也观察到误差累积——世界模型预测的杯子位置在最后一帧略低于真实轨迹。图15b探究了在相同动作序列驱动下,夹具闭合(上排)和夹具打开(下排)时V-JEPA 2-AC预测结果的变化。当使用夹具打开的动作序列时,世界模型预测杯子的位置在各个时间步保持不变。
B.4 相机位置敏感性评估
在实际实验中,我们手动尝试了不同的相机位置,最终选择了在所有实验中表现最佳的位置;之后在所有任务的实验中,相机位置保持不变。本节对V-JEPA 2-AC世界模型对相机位置的敏感性进行定量分析。理想情况下,模型推断的坐标轴应不受相机位置的影响,但此处观察到模型推断的坐标轴对相机位置敏感;这一问题会导致推断坐标轴的较大误差,进而降低下游任务的成功率。
我们在机器人基座周围测试了多个相机位置,将其描述为围绕桌子中心的顺时针角位置,0度对应位于机器人基座的相机,90度对应位于机器人基座左侧的相机。由于我们在Droid数据集的左侧外摄相机视图上训练,因此测试的相机位置介于约35度和85度之间。接下来,对于每个相机位置,收集机器人在水平 x − y x-y x−y平面内随机移动的201步轨迹。对于该201步轨迹中的每对相邻帧,计算V-JEPA 2-AC推断的最优动作,即给定1步滚动预测时使式(5)中的能量函数最小化的动作。这使得我们能够为每个相机位置构建一个包含真实动作与推断动作对的数据集。分析仅关注 Δ x \Delta x Δx和 Δ y \Delta y Δy笛卡尔控制动作(动作向量的前两个维度)。令 A ∈ R 200 × 2 A \in \mathbb{R}^{200 ×2} A∈R200×2表示推断动作, B ∈ R 200 × 2 B \in \mathbb{R}^{200 ×2} B∈R200×2表示真实动作。基于此,可通过求解线性最小二乘问题,确定将推断动作A映射到真实动作B的线性变换 W ∗ ∈ R 2 × 2 W^{*} \in \mathbb{R}^{2 ×2} W∗∈R2×2:
W ∗ = a r g m i n W ∈ R 2 × 2 ∥ A W − B ∥ 2 . W^{*}=\underset{W \in \mathbb{R}^{2 × 2}}{argmin}\| A W-B\| _{2} . W∗=W∈R2×2argmin∥AW−B∥2.
所有相机位置的平均绝对预测误差约为1.6厘米(相比之下,真实的delta姿态约为5厘米),表明误差是系统性的。此外,观察到对于每个相机位置,矩阵 W ∗ W^{*} W∗的条件数≈1.5,即除固定标量系数外, W ∗ W^{*} W∗近似为旋转矩阵,因此可通过以下公式计算推断坐标轴的旋转误差:
W ∗ ≈ W ‾ ∗ = [ c o s θ − s i n θ s i n θ c o s θ ] , W^{*} \approx \overline{W}^{*}=\left[\begin{array}{cc} cos \theta & -sin \theta \\ sin \theta & cos \theta \end{array}\right], W∗≈W∗=[cosθsinθ−sinθcosθ],
其中 W ˉ ∗ : = U V ⊤ \bar{W}^{*}:=U V^{\top} Wˉ∗:=UV⊤,U和V分别是 W ∗ W^{*} W∗的左奇异向量和右奇异向量。
(图16标题:相机位置敏感性。V-JEPA 2-AC推断的动作坐标轴在x-y平面内的旋转误差与相机位置的关系,0度对应位于机器人基座的相机,90度对应位于机器人基座左侧的相机。理想情况下,模型推断的坐标轴应不受相机位置的影响,但此处观察到模型推断的坐标轴对相机位置敏感)
图16展示了相机位置与V-JEPA 2-AC推断坐标轴旋转误差的关系。观察到推断坐标轴的旋转误差几乎是相机位置的线性函数。在单目标到达实验中(图8),最能清晰地看到推断坐标轴旋转误差的影响。尽管模型总能基于单目RGB相机的视觉反馈,将机械臂移动到距离目标4厘米范围内,但推断坐标轴的旋转误差导致每个规划步骤的动作相对次优,使得每次步骤中到目标的距离虽单调递减但非最大程度递减。
有趣的是,由于推断坐标轴的误差主要是基于旋转的,因此可通过简单地将所有推断动作按 W ∗ W^{*} W∗旋转,“校准”世界模型,从而引入所需的相机位置不变性。这种无监督校准阶段包括:机器人执行随机动作,通过比较推断的最优动作与实际执行的动作,求解线性最小二乘问题,然后在任务执行期间,将推断的动作乘以旋转矩阵后再发送给控制器。尽管这种方法很有趣,但我们在实验中并未进行此类校准。
C 视觉分类
本节详细描述第5节中分类任务所使用的评估流程。
C.1 超参数
探针架构
利用每个下游任务的训练数据,在冻结的编码器输出之上训练一个注意力探针。该注意力探针由四个Transformer块组成,每个块的注意力层使用16个注意力头。前三个块采用标准自注意力机制;最后一个块使用带有可学习查询令牌的交叉注意力层。最后一个块中交叉注意力层的输出作为残差连接添加回查询令牌,然后应用块的其余部分(层归一化, followed by 带有单个GELU激活函数的MLP)。Transformer块之后是最终的线性分类器层。
评估设置参数
所有模型均采用相同的评估协议,使用256×256分辨率,V-JEPA 2 ViT-g384除外。视频评估时,从每个输入视频中采样多个片段;验证时,从每个片段中提取三个空间视图(训练时仅提取一个视图)。片段数量、帧步长参数和全局批量大小因评估任务而异;每个评估使用的参数见表15。默认情况下,SSv2使用16×2×3输入(16帧片段、2个时间裁剪、3个空间裁剪),K400使用16×8×3输入,COIN使用32×8×3输入,Diving-48和Jester使用32×4×3输入。V-JEPA 2 ViT-g384在K400、COIN、Diving-48和Jester任务上使用384×384分辨率,在ImageNet任务上使用512×512分辨率,在SSv2任务上使用384×384分辨率和64×2×3输入。
(表16标题:Jester/Diving-48的输入层。对于每个编码器规模,列出Jester和Diving-48评估中,其令牌用作线性分类器输入的四个编码器层的索引)
ImageNet评估
对于ImageNet,将每个输入图像重复以生成16帧视频片段;使用更大的全局批量大小(1024,而非256或128);每个样本不使用多个片段或视图。
Jester和Diving-48评估
Jester和Diving-48动作分类评估任务与其他理解评估任务存在多个方面的差异,主要在于采用了多层策略。不同于仅关注编码器最后一层的令牌,我们从四个编码器层(最后一层和三个中间层)提取令牌,并对所有令牌进行注意力计算(表16列出了每个编码器规模使用的层)。此外,这两个评估任务的探针训练仅使用三个分类头(其他评估使用20个),但训练轮数更长(100轮,其他评估为20轮),因为这些评估任务从更长的训练中获益。两个评估任务均使用128的全局批量大小。
优化
每个评估任务同时训练多个具有不同超参数(学习率和权重衰减)的分类头,报告性能最佳的分类头的准确率。对于大多数评估任务(Kinetics、SSv2、COIN和ImageNet),训练20轮,使用20个分类头,每个分类头采用五个学习率值和四个权重衰减值中的一种,学习率按余弦调度衰减。所有超参数汇总见表15。
(表15标题:视觉分类评估参数。视觉分类评估使用的默认参数,每个评估的非默认值标注如下(*表示默认值)。所有注意力探针均使用4个Transformer块,每个块包含16个注意力头)
C.2 额外结果
探针规模
由于我们在这些评估中使用四层注意力探针,因此探究了使用更小探针是否会影响评估性能。我们使用由单个交叉注意力块(16个注意力头)组成的更小探针,重新运行了六个理解评估任务(针对ViT-L和ViT-g两种模型规模)。与第5节不同,所有评估(包括Diving-48和Jester)均使用16帧。分类性能见表18——我们证实,四层探针在所有理解评估任务中(Jester除外)均优于单层注意力探针,ViT-L模型的平均准确率提升1.4个百分点,ViT-g模型提升1.0个百分点。
编码器多层的影响
研究了评估期间将编码器多个层的令牌输入注意力探针的影响。表17显示,Diving-48和Jester任务从编码器深层信息中显著获益。
(表17标题:编码器多层消融实验。改变输入到注意力探针的编码器层数,报告在256×256分辨率、16帧的V-JEPA 2之上训练的注意力探针的分类性能)
D 动作预测
本节提供与第6节Epic-Kitchen 100动作预测评估相关的额外细节、结果和消融实验。
D.1 超参数
探针架构
动作预测的探针架构遵循附录C.1中描述的分类探针架构,由四个Transformer块组成,包括最后一个带有一组可学习查询令牌的交叉注意力层,每个查询令牌之后是一个最终的线性分类器层。
评估设置参数
训练探针时使用焦点损失(Lin等人, 2017),其中 α = 0.25 \alpha=0.25 α=0.25, γ = 2.0 \gamma=2.0 γ=2.0;该损失更适合长尾不平衡类别分布的训练。V-JEPA 2 ViT-L、ViT-H和ViT-g使用32帧上下文,帧率为8帧/秒,分辨率为256×256;V-JEPA 2 ViT-g384的分辨率为384×384。探针训练期间,随机采样0.25至1.75秒的预测时间,以及0.0至0.25的预测点。预测点标识动作片段中进行预测的位置;即预测点为0表示,在将表示输入探针之前,使用V-JEPA 2预测器预测动作片段第一帧的表示;预测点为1表示,预测动作片段最后一帧的表示后再输入探针。验证时的预测时间设置为1秒,预测点设置为0。超参数汇总(包括优化参数)见表19。
(表18标题:探针规模消融实验。改变注意力探针的层数,报告在256×256分辨率、16帧的V-JEPA 2之上训练的注意力探针的分类性能)
D.2 额外结果
架构的影响
表20探究了将V-JEPA 2编码器、预测器的输出,或两者同时提供给动作预测探针的影响。仅使用编码器输出已能在EK100任务上取得具有竞争力的性能;添加预测器输出后,动作、动词和名词类别的性能均获得小幅但稳定的提升。此外,仅使用预测器输出也能取得一定的性能,但远低于使用编码器输出的性能,这表明EK100任务主要需要强大的语义理解能力,而非预测能力。
输入分辨率的影响
图17报告了输入分辨率和帧采样参数的影响。总之,V-JEPA 2从更长的上下文、更高的帧率和更高的分辨率中获益,直至性能达到饱和或略有下降。最佳性能是在32帧上下文长度、8帧/秒帧率和384×384分辨率下获得的。
长期预测
图18(左图)报告了通过改变预测时间(1秒、2秒、4秒、10秒),探究更长时域预测的影响。对于每个预测时间,报告多个召回率值(1、5、10、20)。结果表明,随着预测时间的增加,性能急剧下降,这是预期之中的,因为EK100中的未来预测是一项非确定性任务。
(表19标题:动作预测评估参数。EK100动作预测评估使用的默认参数)
(表20标题:EK100:预测探针输入的影响。探究将V-JEPA 2编码器、预测器的输出,或两者同时提供给动作预测探针的影响。仅使用编码器输出已能在EK100任务上取得具有竞争力的性能;添加预测器输出后,动作、动词和名词类别的性能均获得小幅但稳定的提升)
(图17标题:EK100动作预测的协议消融实验。(左图)动作预测性能与上下文帧数的关系;(中图)动作预测性能与推理时帧率(fps)的关系(上下文帧数固定为32);(右图)动作预测性能与上下文帧空间分辨率(高度和宽度)的关系)
失败案例分析
图18(右图)报告了EK100验证集上,动词、名词和动作预测成功/失败的各种组合分布。模型性能表现优异,因此最主要的组合是动词、名词和动作均预测成功。最主要的失败组合均包含动作预测失败。
(图18标题:(左图):长期预测时间的影响。EK100动作预测在不同召回率值和预测时间下的性能;(右图):V-JEPA 2的成功和失败案例分布。基于EK100验证集计算。VNA表示动词、名词和动作均被模型正确分类;X符号表示相应属性未被模型正确分类。注:探针由三个独立的分类器组成,分别用于动词、名词和动作分类,因此模型对动作的预测与对动词/名词对的预测可能不同)
E 视频问答
本节提供训练V-JEPA 2多模态大型语言模型(MLLM)的详细信息。我们遵循LLaVA框架(Liu等人, 2024a)训练MLLM,其中视觉骨干网络使用V-JEPA 2,LLM骨干网络可以是任何现成的预训练LLM,类似于非令牌化早期融合(Wadekar等人, 2024)架构。MLLM接收视觉编码器的输出嵌入,通过一个投影器模块(通常是两层MLP)将其映射到LLM骨干网络的隐藏维度。MLLM使用图像-文本和视频-文本配对数据的混合数据集,通过一系列渐进式训练步骤进行训练。
为探究数据规模的影响,我们使用包含8850万个图像-文本和视频-文本对的数据集,与训练PerceptionLM(Cho等人, 2025)所用数据集类似。如第7节所述,我们探究两种设置:(a) 受控设置,使用1800万个图像和视频-文本对进行训练,在完全相同的MLLM训练设置下评估V-JEPA 2和其他编码器;(b) 规模化设置,使用V-JEPA 2 ViT-g384和完整的对齐数据集。为进一步测试V-JEPA 2的通用性,受控实验使用Qwen2-7B-Instruct(Yang等人, 2024a)作为语言骨干网络,规模化实验使用Llama 3.1 8B Instruct(Grattafiori等人, 2024)。训练细节如下。
E.1 图像和视频输入处理
由于视频问答使用视频而非图像输入,与图像问答相比,输出视觉令牌的数量显著增加。如有需要,可使用池化方法减少视觉令牌数量。常用的池化方法包括自适应2×2池化(Cho等人, 2025)、Perceiver采样器(Jaegle等人, 2021)、注意力池化(Bardes等人, 2024)等。
此外,我们观察到,从图像-文本对中学习对于下游基准测试的高性能至关重要。为了使用图像进行训练,一种简单的方法是将给定图像重复k帧(k为V-JEPA 2支持的最大帧数)。然而,初步实验发现,这种策略无法有效提升下游性能,因为它不允许模型提取细粒度信息。因此,我们采用Liu等人(2024d)提出的改进Dynamic S²策略,在训练期间为V-JEPA 2提供更高的分辨率粒度。该方法通过创建一系列V-JEPA 2支持的最大尺寸的块,自适应地处理不同宽高比的原生分辨率图像,以保留其原始分辨率。对于视频,我们通过平衡视觉令牌数量和计算预算,选择固定的训练帧数 f n f_{n} fn。
E.2 受控设置
训练细节
受控设置遵循LLaVA-NEXT框架(Liu等人, 2024a; Zhang等人, 2024b),所有编码器均使用Qwen2-7B-Instruct(Yang等人, 2024a)作为基础LLM。为减少视觉令牌数量,根据计算预算和视觉块数量,采用因子为4-16的注意力池化器。更多细节见表21。
训练设置遵循LLaVA-NeXT流程(Li等人, 2024b),包括多个渐进式训练阶段:a)将注意力池化器与图像标题数据对齐(阶段1);b)在高质量图像标题数据上训练整个模型(阶段1.5);c)在大规模图像问答数据上训练整个模型(阶段2)。我们添加了一个额外阶段,在大规模视频标题和问答数据上训练(阶段3)。使用1800万个图像和视频-文本对齐数据。经过多个阶段的训练,LLM对视觉令牌的理解逐步提升,阶段3后视频问答任务的性能提升最为显著。
我们探索了冻结和微调编码器两种对齐设置。两种设置均训练LLM和投影器的全部参数,微调设置还额外解冻V-JEPA 2的参数。为减少视觉令牌数量并保持MLLM上下文长度固定,除非另有说明,否则采用注意力池化器作为投影器,将视觉令牌数量减少4倍。该受控研究的实现基于Llava-NEXT代码库,使用Pytorch 2.5.1、Transformers 4.46.0、Flash attention 2和DeepSpeed 0.14.4,分别用于模型实现、加速训练和多GPU模型分片。所有模型使用128个H100 GPU训练,所有阶段的有效批量大小均为256。所有优化均使用AdamW优化器,权重衰减为0。阶段1和阶段1.5使用1e-5的学习率,按余弦调度衰减;阶段2和阶段3使用5e-6的恒定学习率。所有阶段均对前3%的训练步骤进行线性学习率预热。训练超参数见表21。
基线模型
为评估V-JEPA 2捕捉视频问答时空细节的能力,我们与领先的现成图像编码器进行对比。具体而言,对比DINOv2(Oquab等人, 2023)、SigLIP2(Tschannen等人, 2025)和感知编码器(Bolya等人, 2025)。DINOv2是自监督图像模型,而SigLIP2和感知编码器均通过带噪声的图像-文本标题进行语言监督训练。所有图像编码器均在每个视频帧上独立应用其“原生”预训练分辨率,分别为518像素、384像素和448像素。
所有训练细节保持一致,仅将注意力池化比率增加到16,以保持模型间图像令牌数量相对一致。细节见表21。
评估
为评估V-JEPA 2通过视频和语言理解世界的能力,我们选择了用于测试时空推理能力的主流评估数据集。为确保评估的可复现性,我们使用lmms-eval库(Li等人, 2024a; Zhang等人, 2024a)进行实验,该库是llm-eval-harness(Gao等人, 2024)的视觉模型支持分支,llm-eval-harness是用于评估LLM文本任务的主流评估库。受控设置中,每个模型和数据集均采用均匀帧采样机制进行评估,推理时选择128帧。对于PerceptionTest,我们在训练集上额外训练模型5轮。
(表21标题:视觉编码器受控对比的超参数。每个视觉编码器均使用其原生预训练输入分辨率)
视频时长的影响
受控设置中,我们分析了V-JEPA 2的长视频理解能力。在冻结编码器的情况下,训练基于V-JEPA 2和DINOv2的MLLM,并增加训练和测试时使用的帧数。观察到,随着帧数的增加,V-JEPA 2在下游任务上的性能线性提升,而DINOv2(一种基于自监督学习的图像编码器)的性能则下降并保持平稳(图19)。这凸显了V-JEPA 2等视频编码器通过将LLM与V-JEPA 2作为视觉编码器适配,理解自然语言查询长视频的潜力。
(图19标题:视觉指令微调期间视频时长的影响。探究冻结编码器时,增加视觉指令微调的帧数对性能的影响。观察到,随着帧数的增加,V-JEPA 2的性能相较于DINOv2(一种基于自监督学习的图像编码器)线性提升,显示了V-JEPA 2随帧数增加而扩展的潜力)
E.3 数据规模化设置
训练细节
数据规模化设置遵循Cho等人(2025)训练Perception LM 8B所使用的框架。具体而言,我们利用公开的代码库(基于Lingua(Videau等人, 2024)),修改代码以使用V-JEPA 2编码器,并使用Llama 3.1 8B Instruct(Grattafiori等人, 2024)作为骨干LLM。与Cho等人(2025)不同,我们不使用池化,而是使用MLP投影器训练V-JEPA 2 ViT-g384,每个帧产生288个令牌。训练设置同样包括三个渐进式阶段:阶段1:将MLP池化器与图像标题数据对齐;阶段2:在图像-文本标题和问答数据的混合数据集上训练;阶段3:在视频-文本标题和问答数据上训练。数据规模扩大到8850万个样本。我们的设置使用Pytorch 2.5.1和Perception LM训练代码(经修改以适配V-JEPA 2编码器)。阶段2和阶段3使用512个H100 GPU训练,全局批量大小分别为2048和1024。训练超参数细节见表22。
(表22标题:数据规模化训练参数)
基线模型
我们将规模化实验的结果与Qwen2VL(Wang等人, 2024a)、Qwen2.5VL(Qwen Team等人, 2025)、InternVL-2.5(Chen等人, 2024)和PerceptionLM 8B(Cho等人, 2025)进行对比。基线数据直接来源于相关论文,MVP除外(我们自行运行评估)。
评估
评估流程与受控设置类似,使用lmms-eval库。模型评估报告基于32帧。
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐





所有评论(0)