GR00T N1.6 : An Improved Open Foundation Model for Generalist Humanoid Robots
更深的视觉骨干 + 相对动作空间 + 强正则化的后训练,是当前解决人形机器人长程任务(Long-horizon tasks)的最优解。虽然多任务泛化仍然是一个持续的挑战,但 N1.6 已经让我们看到了人形机器人走进实验室外、处理复杂现实工作的曙光。
NVIDIA GEAR 团队在 2025 年末发布了 GR00T N1.6。作为人形机器人基础模型的最新里程碑,N1.6 在 N1.5 的基础上进行了“大换血”,在视觉感知、双手协作以及全身控制(Locomanipulation)上展现了惊人的跨越。
1. 核心架构:更深、更原生的感知
GR00T N1.6 不仅仅是参数量的堆叠,更是在视觉与动作的融合上做了精细手术:
- 原生 VLM 升级 (Cosmos-2B):
- 打破比例限制:支持原生宽高比图像输入,无需填充(Padding),让机器人观察物体不再“变形”。
- 具身推理增强:该 VLM 不仅懂语言,还在预训练阶段学习了大量“下一步动作预测”,让视觉信号自带物理逻辑。
- DiT 规模翻倍:
- 负责动作生成的 Diffusion Transformer (DiT) 从 16 层升级至 32 层。这让模型能够建模更复杂的动作轨迹,应对叠衣服、插拔 GPU 导轨等高精度任务。
- 深层特征融合:
- 取消了临时的“适配器”层,转而直接解冻 VLM 顶部的 4 层进行协同训练,实现了视觉到动作的“无缝对接”。
2. 动作空间的“范式转移”:相对动作
这是 N1.6 在物理世界表现更丝滑的秘密。
- 从“绝对”到“相对”:N1.6 预测的是状态相对动作(Relative Action Chunks),而非关节的绝对角度。
- 为什么这样做? * 平滑度:相对动作产生的轨迹更自然,有效减少了电机的突兀震动。
- 迁移性:模型更容易适配不同身材的机器人(如智元 Genie-1、宇树 G1)。
- 注意点:相对动作容易产生误差累积。为此,N1.6 引入了更强的闭环反馈机制。
3. 训练数据与规模
N1.6 的“肌肉”来自于超大规模的数据灌溉:
- 预训练规模:300K Steps,Global Batch Size 达到 16,384。
- 多样化数据:
- 真实遥操作:增加了数千小时来自 YAM 双臂、Agibot 和 Unitree G1 的真实数据。
- 仿真补齐:结合了 BEHAVIOR 任务集下的仿真数据,解决了极端工况下数据稀缺的问题。
4. 核心实战经验 (Engineering Lessons)
NVIDIA 在报告中分享了几个极具价值的工程教训,这对具身智能开发者非常有启发:
| 关键技术 | 作用 | 开发者笔记 |
|---|---|---|
| 迭代 DAgger | 提升成功率 | 当模型在现实中反复失败时,介入人工纠偏并回传数据是最有效的手段。 |
| 协同训练 (Co-training) | 防止过拟合 | 在微调特定任务时,必须混入预训练数据,否则模型会“忘掉”通用常识。 |
| 实时控制 (RTC) | 动作去抖 | 通过在训练和推理时模拟延迟,确保异步控制下的鲁棒性。 |
| 子任务标注 | 指令遵循 | 细粒度的步骤拆解能显著提升模型对复杂指令(如“清理桌面”)的理解力。 |
5. 总结:通向通用具身智能
GR00T N1.6 的发布证明了:更深的视觉骨干 + 相对动作空间 + 强正则化的后训练,是当前解决人形机器人长程任务(Long-horizon tasks)的最优解。
虽然多任务泛化仍然是一个持续的挑战,但 N1.6 已经让我们看到了人形机器人走进实验室外、处理复杂现实工作的曙光。
与上一代N1.5的训练配方对比:
1. 核心架构对比 (Brain & Backbone)
差异点:这里差异最大。N1.5 使用了非常庞大且先进的基座,而 N1.6 回归了轻量级的高效基座。
| 特性 | GR00T N1.6 (Gr00tN1d6) | GR00T N1.5 (GR00T_N1_5) | 核心解读 |
|---|---|---|---|
| Backbone 模型 | Eagle-Block2A-2B-v2 | eagle_er-qwen3_1_7B-Siglip2... |
2B vs 7B+:N1.5 的大脑非常大(Qwen 7B),理解力极强;N1.6 采用了 2B 小模型,明显是为了推理速度和端侧部署。 |
| 视觉编码器 | 隐式 (基于 Eagle 2B 默认) | SigLIP 2 (400M) | N1.5 用了最新的 SigLIP 2,视觉上限更高;N1.6 沿用 Eagle 2B 的标准视觉。 |
| 视觉特征层 | 第 16 层 (select_layer) |
第 12 层 (select_layer) |
N1.6 提取更深层的语义特征;N1.5 提取较浅层特征,保留更多视觉细节。 |
| 视觉 Token | 全量 (未压缩) | 32 个 (num_target_vision_tokens) |
N1.5 强制将视觉信息压缩为 32 个 Token,极度浓缩;N1.6 则没有这个显式瓶颈。 |
2. 扩散策略头对比 (Body & Action)
差异点:发生了有趣的反转,N1.6 的“小脑”(动作生成部分)比 N1.5 强大得多且深得多。
| 特性 | GR00T N1.6 (Gr00tN1d6) | GR00T N1.5 (GR00T_N1_5) | 核心解读 |
|---|---|---|---|
| 扩散模型深度 | 32 层 (num_layers) |
16 层 | N1.6 的动作网络深一倍。因为它的大脑(2B)较弱,所以需要一个更强大的扩散网络来“弥补”控制精度。 |
| 动作预测视野 | 50 步 (action_horizon) |
16 步 | N1.6 看得更远。它一次规划 50 步,追求长程平滑;N1.5 只规划 16 步,依赖高频快速反应。 |
| 动作维度 | 128 (max_action_dim) |
32 | N1.6 控制更细腻。128 维通常包含全身关节细节;N1.5 的 32 维可能是特定末端控制或压缩空间。 |
| 融合模块 | 无 | VL-Self-Attention (4层) | N1.5 在扩散前加了一个专门的“视觉-语言自注意力”模块来对齐特征;N1.6 则将VLM的四层拿来充当这个不分 |
3. 训练与微调策略 (Tuning Strategy)
差异点:这是两者方法论的根本分歧点。
| 特性 | GR00T N1.6 (Gr00tN1d6) | GR00T N1.5 (GR00T_N1_5) | 核心解读 |
|---|---|---|---|
| 微调 LLM | Tune Top 4 Layers | False (全冻结) | N1.6 微调大脑:为了让 2B 小模型听懂指令,必须微调其顶层。 |
| 微调视觉 | False (冻结) | True (解冻) | N1.5 微调眼睛:允许视觉编码器随机器人数据更新,适应性更强;N1.6 认为视觉是通用的,直接锁死。 |
| Projector | True | True | 两者都微调连接层。 |
| 精度策略 | BF16 + Trainable FP32 | FP32 (model_dtype) |
N1.6 使用混合精度加速;N1.5 为了大模型的稳定性,似乎更倾向于 FP32 计算。 |
4. 数据输入与增强
| 特性 | GR00T N1.6 | GR00T N1.5 | 核心解读 |
|---|---|---|---|
| 最短边缩放 | 256 | (未显式指定) | N1.6 明确了 256 的小分辨率输入,适配 Eagle 2B 的轻量化需求。 |
| 状态编码 | Sin-Cos Encoding | (未显式开启) | N1.6 对机器人状态(角度等)做了更细致的位置编码增强。 |
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐



所有评论(0)