GEN-0 / 物理交互可扩展的具身基础模型
25年11月来自Generalist AI的博客文章“GEN-0 / Embodied Foundation Models That Scale with Physical Interaction”。
25年11月来自Generalist AI的博客文章“GEN-0 / Embodied Foundation Models That Scale with Physical Interaction”。
引言
多年来,机器人领域的基础模型主要采用视觉语言预训练作为扩展机器人规模的垫脚石,这样能够将现有大型多模态模型的语义泛化优势迁移到机器人领域【1】。然而,目前尚缺乏的是如何有效地在机器人领域本身扩展大型多模态模型的训练——建立能够证实机器人智能随着计算和数据量的增加而持续(且可预测地)提升的扩展规律,正如其他领域(例如大语言模型【2】)的进步所依据的那样。这需要一种架构、训练流程和数据引擎,能够推动新的感知运动能力,提供行为泛化能力,并随着与真实物理世界交互所产生的庞大且不断扩展的经验而成长。
为此,其推出 GEN-0,这是一种具身基础模型,专为直接在高保真原始物理交互上进行多模态训练而构建。其架构建立在视觉和语言模型的优势之上,同时又超越它们——它原生设计用于捕捉人类水平的反射和物理常识。 GEN-0 的核心特性之一是谐波推理,它训练模型能够同时进行思考和行动,实现无缝衔接。GEN-0 不仅拥有突破性的基础功能,而且这些功能还在不断扩展:
超越智能阈值——在机器人领域前所未有的高数据量环境下,70 亿数据量时模型会发生相变,较小的模型会出现性能停滞/僵化【4】,而较大的模型则会持续改进。此后,将 GEN-0 的模型规模扩展到 100 亿以上,并观察到模型能够快速适应新任务,且所需的后训练量越来越少。
扩展规律——GEN-0 模型展现出强大的扩展规律,即更多的预训练数据和计算资源能够持续(且可预测地)提升模型在众多任务中的后训练性能。
谐波推理——虽然对于语言聊天机器人来说,在响应之前花更多时间思考是很容易实现的【5】,但对于在现实世界中运行的物理系统来说,情况并非如此简单——物理定律不会停止。为了解决这个问题,谐波推理采用一种全新的模型训练方法,在异步的、连续时间的感知和行动token流之间创建一种“谐波”交互。这样能够扩展到非常大的模型规模,而无需依赖系统1-系统2架构【6】或推理时指导【7】。
跨平台——GEN-0架构的设计使其能够适用于不同的机器人。已在6自由度、7自由度和16+自由度的半人形机器人上测试模型。
不再受限于数据——GEN-0在内部的机器人数据集上进行预训练,该数据集包含超过27万小时的真实世界多样化操作数据,并且每周以1万小时的速度增长,还在加速增长。
预训练的科学——不同来源(例如数据工厂)的预训练数据的不同组合会产生具有不同特征的 GEN-0 模型。
GEN-0 标志着一个新时代的开始:具身基础模型的能力能够随着物理交互数据(不仅限于文本、图像或模拟数据,而是来自真实世界)的增加而可预测地扩展。
超越智能阈值
其扩展实验表明,GEN-0 模型必须足够大才能吸收海量的物理交互数据。较小的模型在数据过载下表现出类似于“停滞/骨化(ossification)【8】”的现象,而较大的模型则持续改进——这展现了模型智能能力的惊人“相变(phase transition)”:
10 亿模型在预训练期间难以吸收复杂多样的感觉运动数据——随时间的推移,模型权重逐渐无法吸收新信息。
60 亿模型开始受益于预训练,并展现出强大的多任务处理能力。
70 亿及以上的模型能够内化大规模机器人预训练数据,并仅需几千步的后训练即可将其迁移到下游任务中。
这是首次在机器人领域观察到模型骨化现象。此前的研究可能由于以下原因而未能发现这一现象:(a) 迄今为止,机器人领域缺乏高数据量阶段;(b) 在高数据量阶段,模型规模必须足够大。在LLM文献【4,9】中,虽然也观察到模型骨化现象,但模型规模要小得多,参数数量约为O(10M),而非O(1B)。这种相变发生在机器人领域,且模型规模要大得多,这与莫拉维克悖论【10】不谋而合:人类毫不费力就能做到的事情——感知和灵巧性——所需的计算复杂度远高于抽象推理。其实验表明,物理世界中的智能(即物理常识)可能具有更高的计算激活阈值,而目前才刚刚开始探索其背后的奥秘。
如图 1 所示,模型规模与下游零样本任务的计算量之间的关系通常在预训练阶段进行测量。另一种规模规律与预训练的优势在微调阶段的持续存在有关【4】。
在模型规模足够大的情况下,预训练数据规模与下游训练后性能之间存在显著的幂律关系(如图4所示)。这适用于其测量的所有任务,包括合作伙伴和客户驱动的应用程序及其在服装、制造、物流、汽车和电子等众多行业领域的工作流程。
更具体地说,用不同的训练流程在预训练数据集的不同子集上预训练各种模型检查点(如图 2所示),然后在多任务语言条件数据上对这些检查点进行后训练,即在 16 个不同的任务集上同时进行监督式微调。更多的预训练可以提高所有任务的下游模型性能(图 2)。


这些趋势也体现在实际机器人性能上,并通过盲测A/B评估进行验证。增加预训练数据量可以提高下游任务的成功率(如图3所示),即使模型仅使用5.6小时的特定任务数据进行后训练,闭环策略也能取得显著成效。虽然在这种低数据量的情况下,性能提升已经相当显著,但当大规模预训练与充足的特定任务后训练数据相结合时,任务成功率最高(某些情况下峰值性能可达99%)。为了确保比较的有效性,其保证预训练数据集和后训练数据集之间没有重叠,这些数据集由不同的人员在完全不同的环境中收集。
模型性能可以用幂律关系预测(如上面图 4),由此可以回答诸如“需要多少预训练数据才能达到特定的下一步动作预测误差?”或“可以用更多的预训练数据购买多少(针对特定任务的)后训练数据?”之类的问题。给定下游任务的固定数据和微调预算,以及大小 D 可变的预训练数据集,下游任务的验证误差 L(.) 可以通过以下形式的幂律进行预测:
L(D)=(D_c/D)α_D
例如,在“衣物处理”(涉及在真实工作场所对衣物进行分类、整理、扣扣和悬挂)任务中,可以使用 10 亿条动作轨迹来预测模型性能。这些估计可以指导关于合作伙伴相关任务的讨论,并可以估算出达到特定性能水平所需的额外数据量。
机器人技术不再受限于数据
基础模型基于前所未有的 27 万小时真实世界操作轨迹数据集进行训练,这些数据来自全球数千个家庭、仓库和工作场所的各种活动,如图所示。如今,机器人数据运营每周新增超过 1 万小时,并且还在加速增长。这一切都得益于遍布全球的硬件网络以及数千台数据采集设备和机器人。
绘制操作宇宙图谱
为了扩展 GEN-0 的功能,正在构建有史以来规模最大、种类最丰富的真实世界操作数据集,涵盖人类能想到的所有操作任务——从削土豆皮到拧螺栓——遍及家庭、面包房、洗衣店、仓库、工厂等各种场所。以下是构建的一个用于探索该宇宙的内部搜索工具示例:
互联网规模机器人数据的基础设施
构建支持这种规模的运营和机器学习基础设施绝非易事。为了处理如此大规模的机器人模型和数据,构建定制硬件、数据加载器和网络基础设施(包括铺设新的专用互联网线路),以支持来自世界各地不同数据采集站点的上行带宽。签订多云协议,构建定制上传服务器,将核心数扩展到 O(10K) 以进行持续的多模态数据处理,并利用前沿视频基础模型背后的数据加载技术压缩数十 PB 的数据,这些模型每天能够吸收相当于 6.85 年真实世界操作经验的训练数据。
预训练的科学原理
通过大规模消融实验,其发现数据质量和多样性比数据量更为重要,精心构建的数据混合可以带来不同的预训练模型特征。例如,表 1 展示了在 8 个不同的预训练数据集上训练的不同模型的性能指标,以及它们在 10 个长期任务集上进行微调后的后续影响。这些任务集分为 3 组,分别评估不同的维度:灵巧性、实际应用和泛化能力。
实验表明,预测误差和反向KL值均较低的模型在训练后进行监督微调(SFT)时往往表现更佳,而预测误差高、反向KL值较低的模型则往往呈现更明显的分布多峰性,这有助于训练后的强化学习。大规模地采用多种数据收集策略,能够持续进行A/B测试,找出哪些数据最能提升预训练效果。
Generalist AI Team, “GEN-0: Embodied Foundation Models That Scale with Physical Interaction”, Generalist AI Blog, Nov 2025.
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐

所有评论(0)