英伟达开源首个人形机器人大脑

显卡寡头老大的下一步，瞄准了所有智能机械设备上的显卡。

Barok

931人浏览 · 2025-03-20 12:34:25

Barok · 2025-03-20 12:34:25 发布

英伟达 Isaac GR00T N1 尝鲜攻略

引言

等不及智元开源ViLLA的小编，等到了英伟达推出了 Isaac GR00T N1。这款开源工具专为类人机器人设计，是具身智能领域的重要突破。具身智能（Embodied AI）指 AI 系统能够感知并互动于物理世界，Isaac GR00T N1 通过处理多模态输入（如语言和图像），执行复杂操作任务，显著提升了类人机器人的能力。其开放源码特性让全球研究人员和开发者能参与，加速技术进步。
在这里插入图片描述

技术细节与架构

Isaac GR00T N1 结合了视觉-语言基础模型和扩散变换器头，适合控制类人机器人的精确动作。其神经网络架构能对连续动作去噪，适应多样化任务。训练数据包括：

自我中心人类视频
真实和模拟机器人轨迹
使用 NVIDIA Isaac GR00T Blueprint 生成的合成数据
互联网规模视频数据

这种多样化数据集（Hugging Face 数据集）增强了模型在不同机器人形态和环境下的泛化能力。模型可通过后训练适配特定任务和环境，减少重训需求。

架构

Isaac GR00T N1 的架构结合了视觉-语言基础模型（vision-language foundation model）和扩散变换器头（diffusion transformer head），具体如下：

视觉-语言基础模型：负责处理多模态输入（如语言和图像），将这些输入转换为机器人可以理解的表示。
扩散变换器头：用于生成连续的动作序列（continuous actions），通过去噪（denoising）技术来预测和优化机器人的动作。

这种架构的关键特点是：

多模态融合：模型可以同时处理语言指令和视觉信息，从而更好地理解任务的上下文。
动作生成：扩散变换器头通过去噪机制生成精确的动作序列，适合控制类人机器人的复杂动作。
可适应性：模型可以通过后训练（fine-tuning）适应特定的机器人形态（embodiment）、任务和环境。

以下是模型架构的示意图（来自 GitHub 仓库）：

模型架构图

训练方法分析

Isaac GR00T N1 的训练方法体现了英伟达在具身智能领域的技术领先地位，具体包括以下几个方面：

架构设计
- 模型采用双系统架构，模仿人类认知过程：
  - System 1：基于扩散变换器（Diffusion Transformer）的动作生成模型，负责快速的、直觉性的动作响应，类似于人类的反射动作。
  - System 2：基于视觉-语言模型（Vision-Language Model，NVIDIA-Eagle with SmolLM-1.7B）的推理模型，负责慢速的、深思熟虑的任务规划和执行，类似于人类的理性思维。
- 这种设计结合了快速反应和深度推理，适合处理复杂的、多步骤任务。
训练方式
- 模仿学习（Imitation Learning）：模型通过学习人类示范和机器人轨迹来模仿行为，实现任务执行。研究表明，这在模拟基准测试中超越了现有最先进的模仿学习模型。
- 潜在动作训练（Latent Action Training）：利用大规模的、无标签的人类视频数据进行训练，不需要额外的监督信号，允许模型从互联网规模的数据中学习。这提高了模型的泛化能力，尤其是在未见过的环境中。
- 后训练适应性（Post-Training Adaptability）：模型可以通过自定义数据集和 PyTorch 脚本进行微调，适应特定的机器人形态、任务和环境。例如，开发者可以使用 python scripts/gr00t_finetune.py --dataset-path ./demo_data/robot_sim.PickNPlace --num-gpus 1 进行微调。
微调推荐
- 建议使用 20,000 步的微调，采用最大批量大小，在单个 H100 或 L40 节点上进行，以获得最佳性能。
- 对于新机器人形态，提供了专门的笔记本，如 getting_started/3_new_embodiment_finetuning.ipynb，以及兼容 Huggingface LeRobot 的数据模式指南。

训练数据特点分析

Isaac GR00T N1 的训练数据是其性能的关键支撑，数据的多样性和丰富性确保了模型的泛化能力和任务执行效率。以下是训练数据的详细特点：

数据来源
- 真实数据：
  - 自我中心人类视频：从第一人称视角捕捉人类与物体的互动，提供丰富的视觉和动作信息。这些数据帮助模型理解人类行为和环境互动。
  - 真实机器人轨迹：通过远程操作在不同机器人平台上收集的实际操作数据，确保模型能够适应真实的物理环境。
- 合成数据：
  - 使用 NVIDIA Isaac GR00T Blueprint 生成，基于 NVIDIA Omniverse 平台。在 11 小时内生成超过 750,000 条合成轨迹，相当于 6,500 小时或 9 个月的人类示范数据。这显著降低了数据收集的成本和时间。
  - 合成数据的生成利用了神经网络生成的轨迹示例，可见于 GitHub 仓库。
- 互联网规模数据：
  - 包括网络数据和人类视频，用于捕捉广泛的视觉和语言信息。这为模型提供了广义的背景知识，增强了其语言理解和视觉推理能力。
数据金字塔结构
- 训练数据呈现金字塔结构，从基础到顶层逐渐增加具体性和减少数量：
  - 基础层：互联网规模数据，用于模型的通用理解，涵盖广泛的视觉和语言信息。
  - 中间层：合成数据，用于任务特定的泛化，确保模型能够在不同环境中执行任务。
  - 顶层：真实机器人数据，用于特定形态的微调，确保模型适应具体的机器人硬件和任务需求。
数据增强
- 合成数据的引入显著增强了训练数据集的规模和多样性。研究显示，与真实数据结合后，模型性能提高了 40%，这表明合成数据在提升模型泛化能力方面发挥了关键作用。
数据可访问性
- 部分训练数据可通过 Hugging Face 免费获取，例如 nvidia/PhysicalAI-Robotics-GR00T-X-Embodiment-Sim。开发者可以使用 huggingface-cli download nvidia/PhysicalAI-Robotics-GR00T-X-Embodiment-Sim --repo-type dataset --include "gr1_arms_only.CanSort/**" --local-dir $HOME/gr00t_dataset 下载样本数据集。

性能与硬件支持

微调和推理的硬件需求包括 H100、L40、RTX 4090 和 A6000 GPU，测试环境为 Ubuntu 20.04/22.04，依赖 Python 3.10 和 CUDA 12.4。
推理性能在 L40 和 RTX 4090 上相似，VLM Backbone 耗时 22.92 毫秒，Action Head（4 步扩散）耗时 39.61 毫秒，全模型耗时 62.53 毫秒。

测试结果

Isaac GR00T N1 在多个方面展现了出色的性能，特别是在泛化能力和长序任务处理上。以下是具体的测试结果：

泛化能力：

模型在多种机器人形态（如 Fourier GR-1 和 1X 人形机器人）上的仿真基准测试中超越了现有最先进的模仿学习模型。
训练数据包括：
- 自我中心人类视频
- 真实和模拟机器人轨迹
- 使用 NVIDIA Isaac GR00T Blueprint 生成的合成数据
- 互联网规模的视频数据

这种多样化的训练数据增强了模型在不同环境和机器人形态下的泛化能力。例如，它在 RoboCasa、DexMG 和 GR-1 等基准测试中的表现优于其他模型，具体如下：

基准测试	BC Transformer	Diffusion Policy	NVIDIA Isaac GR00T N1 2B	平均
RoboCasa	26.3%	25.6%	32.1%	26.4%
DexMG	53.9%	56.1%	66.5%	33.4%
GR-1	16.1%	32.7%	50.0%	45.0%

此外，模型在不同数据量下的表现也显示出强大的泛化能力：

任务	Diffusion Policy (10% Data)	NVIDIA Isaac GR00T N1 2B (10% Data)	Diffusion Policy (Full Data)	NVIDIA Isaac GR00T N1 2B (Full Data)
Pick-and-Place	3.0%	35.0%	36.0%	82.0%
Articulated	14.3%	62.0%	38.6%	70.9%
Industrial	6.7%	31.0%	61.0%	70.0%
Coordination	27.5%	50.0%	62.5%	82.5%
平均	10.2%	42.6%	46.4%	76.8%

长序任务处理：
- 测试结果显示，GR00T N1 能够执行复杂的、多步骤任务，例如在厨房中操作龙果（NVIDIA 技术博客中提到）。
- 模型支持语言条件下的双臂操作（language-conditioned bimanual manipulation），在家庭任务中表现出色。
- 研究表明，它能执行需要持续上下文理解和多技能整合的复杂任务，适合家庭场景中的长期操作。
数据效率：
- 使用合成数据（由 Isaac GR00T Blueprint 生成）可以显著提高模型性能。例如，仅 11 小时内生成超过 750K 条合成轨迹，相当于 6.5K 小时或 9 个月的人类示范数据，性能提升 40%。
推理性能：
- 在 L40 GPU 上，模型的推理时间为 62.53 ms（包括 VLM Backbone 和 Action Head）。
- 使用 4 个去噪步骤即可满足推理需求，性能与 RTX 4090 相当。

Talk is CHEAP, Show me the CODE

为了便于开发者使用，Isaac GR00T N1 提供了详细的代码示例和教程（GitHub 文档）。以下是关键示例：

数据加载

from gr00t.data.dataset import LeRobotSingleDataset, ModalityConfig, EmbodimentTag
from gr00t.data.embodiment_tags import EmbodimentTag
from gr00t.experiment.data_config import DATA_CONFIG_MAP

dataset = LeRobotSingleDataset(
    dataset_path="demo_data/robot_sim.PickNPlace",
    modality_configs=data_config.modality_config(),
    transforms=data_config.transform(),
    embodiment_tag=EmbodimentTag.GR1
)

解释：此代码使用 LeRobotSingleDataset 类加载数据集，dataset_path 指定数据位置，modality_configs 和 transforms 定义数据处理方式，embodiment_tag 确保适配特定机器人形态（如 GR1）。

进行推理

from gr00t.model.policy import Gr00tPolicy

policy = Gr00tPolicy(
    model_path="nvidia/GR00T-N1-2B",
    modality_config=ComposedModalityConfig(...),
    modality_transform=ComposedModalityTransform(...),
    embodiment_tag=EmbodimentTag.GR1,
    device="cuda"
)
action_chunk = policy.get_action(dataset[0])

初始化 Gr00tPolicy 对象进行推理，model_path 指定预训练模型（Hugging Face 模型），modality_config 和 modality_transform 定义输入处理，get_action 生成基于数据的动作。

微调模型

使用以下命令微调模型：

python scripts/gr00t_finetune.py --dataset-path ./demo_data/robot_sim.PickNPlace --num-gpus 1

此脚本适配预训练模型到特定用例，--dataset-path 指定自定义数据集，--num-gpus 设置 GPU 数量。

下载样本数据集

huggingface-cli download nvidia/PhysicalAI-Robotics-GR00T-X-Embodiment-Sim --repo-type dataset --include "gr1_arms_only.CanSort/**" --local-dir $HOME/gr00t_dataset

下载 GR1 机器人样本数据，用于测试和微调，增强开发者的实验能力。

这些示例展示了 GR00T 框架的易用性和灵活性，适合研究人员和开发者。

开源工具	描述	可用性	URL
NVIDIA Isaac Lab	基于 NVIDIA Omniverse 的机器人学习框架，支持多种形态，开放源码	现在可用，版本 1.2	GitHub 仓库
NVIDIA Cosmos Tokenizer	提供视觉分词，12 倍于当前分词器速度，开放源码	现在可用	GitHub 仓库, Hugging Face
LeRobot (与 Hugging Face 合作)	使用 Isaac Lab 和 NVIDIA Jetson 加速开源机器人研究	未具体说明	GitHub 仓库