NVIDIA GEAR 团队在 2025 年末发布了 GR00T N1.6。作为人形机器人基础模型的最新里程碑,N1.6 在 N1.5 的基础上进行了“大换血”,在视觉感知、双手协作以及全身控制(Locomanipulation)上展现了惊人的跨越。


1. 核心架构:更深、更原生的感知

GR00T N1.6 不仅仅是参数量的堆叠,更是在视觉与动作的融合上做了精细手术:

  • 原生 VLM 升级 (Cosmos-2B)
    • 打破比例限制:支持原生宽高比图像输入,无需填充(Padding),让机器人观察物体不再“变形”。
    • 具身推理增强:该 VLM 不仅懂语言,还在预训练阶段学习了大量“下一步动作预测”,让视觉信号自带物理逻辑。
  • DiT 规模翻倍
    • 负责动作生成的 Diffusion Transformer (DiT) 从 16 层升级至 32 层。这让模型能够建模更复杂的动作轨迹,应对叠衣服、插拔 GPU 导轨等高精度任务。
  • 深层特征融合
    • 取消了临时的“适配器”层,转而直接解冻 VLM 顶部的 4 层进行协同训练,实现了视觉到动作的“无缝对接”。

2. 动作空间的“范式转移”:相对动作

这是 N1.6 在物理世界表现更丝滑的秘密。

  • 从“绝对”到“相对”:N1.6 预测的是状态相对动作(Relative Action Chunks),而非关节的绝对角度。
  • 为什么这样做? * 平滑度:相对动作产生的轨迹更自然,有效减少了电机的突兀震动。
    • 迁移性:模型更容易适配不同身材的机器人(如智元 Genie-1、宇树 G1)。
  • 注意点:相对动作容易产生误差累积。为此,N1.6 引入了更强的闭环反馈机制。

3. 训练数据与规模

N1.6 的“肌肉”来自于超大规模的数据灌溉:

  • 预训练规模:300K Steps,Global Batch Size 达到 16,384
  • 多样化数据
    • 真实遥操作:增加了数千小时来自 YAM 双臂、Agibot 和 Unitree G1 的真实数据。
    • 仿真补齐:结合了 BEHAVIOR 任务集下的仿真数据,解决了极端工况下数据稀缺的问题。

4. 核心实战经验 (Engineering Lessons)

NVIDIA 在报告中分享了几个极具价值的工程教训,这对具身智能开发者非常有启发:

关键技术 作用 开发者笔记
迭代 DAgger 提升成功率 当模型在现实中反复失败时,介入人工纠偏并回传数据是最有效的手段。
协同训练 (Co-training) 防止过拟合 在微调特定任务时,必须混入预训练数据,否则模型会“忘掉”通用常识。
实时控制 (RTC) 动作去抖 通过在训练和推理时模拟延迟,确保异步控制下的鲁棒性。
子任务标注 指令遵循 细粒度的步骤拆解能显著提升模型对复杂指令(如“清理桌面”)的理解力。

5. 总结:通向通用具身智能

GR00T N1.6 的发布证明了:更深的视觉骨干 + 相对动作空间 + 强正则化的后训练,是当前解决人形机器人长程任务(Long-horizon tasks)的最优解。

虽然多任务泛化仍然是一个持续的挑战,但 N1.6 已经让我们看到了人形机器人走进实验室外、处理复杂现实工作的曙光。


与上一代N1.5的训练配方对比:


1. 核心架构对比 (Brain & Backbone)

差异点:这里差异最大。N1.5 使用了非常庞大且先进的基座,而 N1.6 回归了轻量级的高效基座。

特性 GR00T N1.6 (Gr00tN1d6) GR00T N1.5 (GR00T_N1_5) 核心解读
Backbone 模型 Eagle-Block2A-2B-v2 eagle_er-qwen3_1_7B-Siglip2... 2B vs 7B+:N1.5 的大脑非常大(Qwen 7B),理解力极强;N1.6 采用了 2B 小模型,明显是为了推理速度和端侧部署。
视觉编码器 隐式 (基于 Eagle 2B 默认) SigLIP 2 (400M) N1.5 用了最新的 SigLIP 2,视觉上限更高;N1.6 沿用 Eagle 2B 的标准视觉。
视觉特征层 第 16 层 (select_layer) 第 12 层 (select_layer) N1.6 提取更深层的语义特征;N1.5 提取较浅层特征,保留更多视觉细节。
视觉 Token 全量 (未压缩) 32 个 (num_target_vision_tokens) N1.5 强制将视觉信息压缩为 32 个 Token,极度浓缩;N1.6 则没有这个显式瓶颈。

2. 扩散策略头对比 (Body & Action)

差异点:发生了有趣的反转,N1.6 的“小脑”(动作生成部分)比 N1.5 强大得多且深得多。

特性 GR00T N1.6 (Gr00tN1d6) GR00T N1.5 (GR00T_N1_5) 核心解读
扩散模型深度 32 层 (num_layers) 16 层 N1.6 的动作网络深一倍。因为它的大脑(2B)较弱,所以需要一个更强大的扩散网络来“弥补”控制精度。
动作预测视野 50 步 (action_horizon) 16 步 N1.6 看得更远。它一次规划 50 步,追求长程平滑;N1.5 只规划 16 步,依赖高频快速反应。
动作维度 128 (max_action_dim) 32 N1.6 控制更细腻。128 维通常包含全身关节细节;N1.5 的 32 维可能是特定末端控制或压缩空间。
融合模块 VL-Self-Attention (4层) N1.5 在扩散前加了一个专门的“视觉-语言自注意力”模块来对齐特征;N1.6 则将VLM的四层拿来充当这个不分

3. 训练与微调策略 (Tuning Strategy)

差异点:这是两者方法论的根本分歧点。

特性 GR00T N1.6 (Gr00tN1d6) GR00T N1.5 (GR00T_N1_5) 核心解读
微调 LLM Tune Top 4 Layers False (全冻结) N1.6 微调大脑:为了让 2B 小模型听懂指令,必须微调其顶层。
微调视觉 False (冻结) True (解冻) N1.5 微调眼睛:允许视觉编码器随机器人数据更新,适应性更强;N1.6 认为视觉是通用的,直接锁死。
Projector True True 两者都微调连接层。
精度策略 BF16 + Trainable FP32 FP32 (model_dtype) N1.6 使用混合精度加速;N1.5 为了大模型的稳定性,似乎更倾向于 FP32 计算。

4. 数据输入与增强

特性 GR00T N1.6 GR00T N1.5 核心解读
最短边缩放 256 (未显式指定) N1.6 明确了 256 的小分辨率输入,适配 Eagle 2B 的轻量化需求。
状态编码 Sin-Cos Encoding (未显式开启) N1.6 对机器人状态(角度等)做了更细致的位置编码增强。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐