26年1月来自北大和字节Seed的论文“Rethinking Video Generation Model for the Embodied World”。

视频生成模型显著推动具身智能的发展,为生成能够捕捉机器人在物理世界中的感知、推理和行动的多样化机器人数据开辟了新的可能性。然而,合成能够准确反映真实世界机器人交互的高质量视频仍然是一项挑战,而缺乏标准化的基准测试限制公平的比较和进展。为了弥补这一不足,引入一个全面的机器人基准测试——RBench,旨在评估面向机器人的视频生成在五个任务领域和四种不同具身性方面的性能。它通过可复现的子指标(包括结构一致性、物理合理性和动作完整性)来评估任务层面的正确性和视觉保真度。对25个代表性模型的评估突显在生成物理上逼真的机器人行为方面存在的显著缺陷。此外,该基准测试与人类评估的Spearman相关系数达到0.96,验证了其有效性。虽然RBench为识别这些缺陷提供必要的视角,但要实现物理上的真实性,还需要超越评估层面,解决高质量训练数据严重短缺的问题。基于这些洞见,引入一个改进的四阶段数据管道,由此诞生 RoVid-X——迄今为止最大的开源机器人视频生成数据集,包含 400 万个带标注的视频片段,涵盖数千个任务,并富含全面的物理属性标注。这一协同的评估和数据生态系统为视频模型的严格评估和可扩展训练奠定坚实的基础,加速具身人工智能向通用智能的演进。


现有的视频生成基准测试主要侧重于评估模型在通用场景下的性能[42, 46],而其他专门针对物理场景设计的基准测试则主要评估模型在物理推理方面的能力[36, 72]。本文设计一个专为机器人物理场景定制的基准测试,旨在全面评估视频生成模型在机器人任务中的性能。该基准测试与现有的通用场景基准测试的不同之处在于,它专注于评估视频生成模型在机器人物理环境中的能力。如图所示,基准测试突出机器人视频生成中常见的失效模式,包括机器人形状畸变、物体属性漂移、非接触式附着等问题。
请添加图片描述

基准测试构建

为了全面评估视频生成模型在机器人场景中的能力,设计的评估维度必须涵盖广泛的任务场景和机器人类型,以确保这些场景能够反映真实的机器人动作语义。为此,本文从任务类别和机器人类型两个方面设计一个多样化的基准测试,共包含650个评估案例。任务类别包括五个代表性任务:通用操作、长时域规划、多实体协作、空间关系和视觉推理,共计250个图文对,每个任务50个样本。机器人类型类别涵盖四种主流机器人类型:双臂机器人、人形机器人、单臂机器人和四足机器人,共计400个图文对,每种机器人类型100个样本。

该基准测试包含多种文本提示和高质量的机器人参考图像。每个样本图像均提取自高质量视频的关键帧,这些视频来源于公共数据集或在线资源,并且每张图像都经过人工验证以确保其准确性。为避免与训练数据重叠,确保评估集中选定的视频不会出现在后续的训练数据库中,并且为每张参考图像重新设计新的任务提示,从而有效避免内容重叠的风险。所有样本均由人工标注员进行验证和筛选,以确保生成的任务提示符合实际逻辑。如图展示参考图像的高质量(a)、涵盖各种物体、任务和动作技能的广泛测试场景(b、c)以及评估集中环境的多样性(d)。此外,还记录每个样本的元数据,例如操作对象、具身类型和摄像机视角(第一人称/第三人称),以支持更详细的分析。
请添加图片描述

自动评价指标

现有的视频生成评估协议,例如代表性的 VBench [46],主要关注感知质量,评估帧清晰度、纹理保真度和运动流畅度等方面。然而,它们缺乏针对机器人场景的特定任务评价标准。最近,一些研究 [33, 85, 94] 利用多模态大型语言模型 (MLLM) 作为生成视频的零样本评估器。在此基础上,本文将此方法扩展到机器人视频评估领域,并提出了一组自动评估指标,其中包含人工设计的指标,用于评估生成的机器人视频的视觉真实性和任务级有效性。遵循以往的做法,选择开源的 Qwen3-VL [3] 和闭源的 GPT-5 [76] 作为MLLM 评估模型。

任务完成度

物理-语义合理性。该指标旨在识别日常感知评分中经常被忽略的物理和语义合理性违规行为。如图所示,使用 MLLM,通过 VQA 式协议评估均匀采样帧的时间网格。除了评估物理语义合理性之外,还特别关注以下几种常见的故障模式:(i)漂浮/穿透:机器人或物体的某些部分未着地或与固体物体相互穿透;(ii)自发出现:实体在没有因果运动的情况下出现/消失;(iii)非接触式连接/抓取错误:物体随机器人移动,但未与机器人发生可见接触,或抓取器闭合不当。
请添加图片描述

任务遵循一致性。该指标评估视频是否符合提示所定义的意图和顺序。典型的偏差包括动作缺失(例如,接近但未抓取或放置)、顺序错误(例如,先放置后抓取)、语义漂移(例如,“擦拭”变成“触摸”)以及无响应。我们构建时间网格并应用基于 MLLM 的 VQA 检查清单,该清单涵盖:(i) 任务响应性,确保在不过早中断的情况下达到目标状态;(ii) 关键动作,验证所需动作(例如,抓取、放置、打开/关闭)是否发生并与提示一致。

视觉质量

运动幅度。该指标衡量机器人主体的运动幅度,同时排除由摄像机运动引起的表观运动,从而惩罚那些看起来流畅但缺乏有意义的主体活动的视频。参照 VMBench [64],使用 GroundingDINO [65] 定位活跃主体,使用 GroundedSAM [81] 生成时间稳定的掩码,并使用 CoTracker [55] 跟踪显著点。

机器人-目标稳定性。该指标评估机器人形态和目标物体属性随时间的稳定性。典型故障包括夹爪/手形漂移成非机械形态、机械臂缺失/增减、连杆长度/拓扑结构变化、关节反转、物体识别错误或属性漂移(类别、颜色、位置)以及刚体发生不可能的形变。采用基于MLLM的对比视觉质量评估(VQA)方法,该方法比较参考帧和生成帧,并针对上述故障分配一致性评分。

运动平滑度。该指标量化时间连续性和自然动态,针对从低级混叠到高级抖动/模糊的各种伪影。参照VMBench [64],用Q-Align美学评分[99]来衡量帧间质量稳定性。


高质量机器人视频数据集 RoVid-X 的构建通过一个精细化的四阶段流程,如图 (a) 所示。数据集主要来源于互联网上公开或无版权的机器人视频,以及开源的具身视频数据集,所有素材均已获得使用许可。
请添加图片描述

数据集构建

数据处理工作流程包含四个不同的阶段,每个阶段都旨在确保所收集数据的质量、多样性和相关性。这些阶段概述如下:

机器人视频采集。在第一阶段,从大型互联网视频平台和超过 20 个开源具身视频数据集中采集原始机器人视频。这些数据集涵盖各种机器人类型和任务场景,确保了数据的广度和多样性。为了提高数据集的相关性和质量,采用 GPT-5 模型 [76] 自动过滤每个视频的内容,并移除与研究目标不符的低质量或无关视频片段。在过滤过程中,GPT-5 基于视觉内容和字幕识别与机器人任务和动作相关的视频,确保所有采集的视频都能有效地支持机器人任务的训练和评估。经过过滤后,识别出约 300 万个原始机器人视频片段,涵盖不同的动作、任务和机器人类型。

视频质量过滤。在此阶段,对收集的视频进行严格的过滤,以去除与研究目标不符的低质量和无关视频片段。首先,应用场景分割检测来去除所有与机器人无关的视频数据。然后,用视频质量评分系统从多个维度评估视频,包括清晰度、动态效果、美观度和光学字符识别 (OCR) 等指标。每个视频片段都会根据这些标准获得一个质量分数,从而确保最终数据集中的视频符合高质量标准。

任务分割和字​​幕生成。在此阶段,用视频理解模型 [34] 和专门设计的提示模板来自动分析视频中的机器人动作。系统根据时间戳将视频分割成不同的任务片段,并为每个任务片段生成简短的字幕,准确描述机器人在该任务中的动作和操作细节。

每个任务片段的动作识别和描述过程遵循以下步骤:首先,系统识别视频中的所有动态动作,并排除静态场景或无关动作(例如,等待或保持静止)。每个动作的时间范围(开始时间和结束时间)都会被精确标注,以确保准确性。接下来,使用 MLLM 模型 [34] 自动生成每个动作的文本描述,包括动作主体(例如,“右臂”或“左夹爪”)、被操作对象(例如,“铭牌”或“盒子”)以及具体的操作细节(例如,“抓取并移动”或“从桌面上取下”)。最后,以标准化格式输出每个任务片段的字幕,确保每个视频片段的动作描述清晰、简洁,并与任务要求相符。

物理属性标注。为了确保机器人动作在物理空间中的一致性和真实性,对视频应用物理属性增强技术。具体而言,用 FlashVSR [114] 来提升视频分辨率,使图像更清晰,并增强动作细节。然后,用 AllTracker 工具 [43] 为视频中的对象标注统一的光流,确保在不同场景下跟踪和记录机器人动作的一致性。此外,用 Video Depth Anything [16] 生成相对深度图,以精确描述场景中物体的空间关系和深度信息。这些物理属性标注旨在为研究人员提供更精确的参考数据,有助于机器人视频生成模型的训练和评估,并为未来的研究提供更丰富的物理数据支持。

数据集分析

RoVid-X 是首个专为训练视频生成模型而设计的开源大规模机器人视频数据集,包含 400 万个机器人视频片段。该数据集旨在解决视频生成模型在生成机器人视频时面临的物理挑战,为训练和评估提供高质量数据。RoVid-X 旨在弥合传统视频生成任务与具身机器人学习独特需求之间的差距,在具身机器人学习中,物理交互、空间关系和真实世界动态起着至关重要的作用。

该数据集涵盖各种机器人动作、任务和机器人类型,确保其适用于不同的机器人领域。通过整合来自不同机器人类型和场景的视频,RoVid-X 全面覆盖机器人训练所需的物理特性和任务要求。如上图 (b) 所示,提供数据集的详细统计信息,展示其在动作技能、任务类型和交互对象方面的多样性。RoVid-X 广泛的数据分布对于支持开发能够模拟动态环境中真实机器人行为的鲁棒视频生成模型至关重要。


评估设置

评估模型。评估 25 种最先进的视频生成模型,分为三类。具体来说,闭源模型包括 Hailuo [41]、Wan [92]、Veo 3 [30]、Sora [75, 77]、Kling [58]、Seedance [17, 29] 等;开源模型包括一些代表性模型,例如 HunyuanVideo [59, 98]、LTX [39, 40] 和 CogVideoX [106]。此外,还评估专门为机器人任务设计的模型,例如 DreamGen [47]、Vidar [25] 和 Cosmos 2.5 [2]。这些模型的评估涵盖各种实现方式和多种任务,从而提供对模型性能的全面视角。

实现细节。为了确保公平比较,所有开源模型均使用其官方默认配置生成视频,以确保与模型的预设设置保持一致。对于闭源视频模型,用其官方 API,并严格遵循开发者推荐的调用和使用方法。在基准测试中,为每个图像-文本对生成视频。为了最大限度地减少误差,为每个模型样本生成三个视频,并取平均值作为该样本的最终得分。用提出的自动化评估指标对这些生成的视频进行评估,这些指标旨在全面评估生成视频的多个方面,包括任务完成情况、动作一致性、物理合理性等等。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐