GR00T N1.6 : An Improved Open Foundation Model for Generalist Humanoid Robots

更深的视觉骨干 + 相对动作空间 + 强正则化的后训练，是当前解决人形机器人长程任务（Long-horizon tasks）的最优解。虽然多任务泛化仍然是一个持续的挑战，但 N1.6 已经让我们看到了人形机器人走进实验室外、处理复杂现实工作的曙光。

qq_52184520

1318人浏览 · 2025-12-19 15:39:20

qq_52184520 · 2025-12-19 15:39:20 发布

NVIDIA GEAR 团队在 2025 年末发布了 GR00T N1.6。作为人形机器人基础模型的最新里程碑，N1.6 在 N1.5 的基础上进行了“大换血”，在视觉感知、双手协作以及全身控制（Locomanipulation）上展现了惊人的跨越。

1. 核心架构：更深、更原生的感知

GR00T N1.6 不仅仅是参数量的堆叠，更是在视觉与动作的融合上做了精细手术：

原生 VLM 升级 (Cosmos-2B)：
- 打破比例限制：支持原生宽高比图像输入，无需填充（Padding），让机器人观察物体不再“变形”。
- 具身推理增强：该 VLM 不仅懂语言，还在预训练阶段学习了大量“下一步动作预测”，让视觉信号自带物理逻辑。
DiT 规模翻倍：
- 负责动作生成的 Diffusion Transformer (DiT) 从 16 层升级至 32 层。这让模型能够建模更复杂的动作轨迹，应对叠衣服、插拔 GPU 导轨等高精度任务。
深层特征融合：
- 取消了临时的“适配器”层，转而直接解冻 VLM 顶部的 4 层进行协同训练，实现了视觉到动作的“无缝对接”。

2. 动作空间的“范式转移”：相对动作

这是 N1.6 在物理世界表现更丝滑的秘密。

从“绝对”到“相对”：N1.6 预测的是状态相对动作（Relative Action Chunks），而非关节的绝对角度。
为什么这样做？ * 平滑度：相对动作产生的轨迹更自然，有效减少了电机的突兀震动。
- 迁移性：模型更容易适配不同身材的机器人（如智元 Genie-1、宇树 G1）。
注意点：相对动作容易产生误差累积。为此，N1.6 引入了更强的闭环反馈机制。

3. 训练数据与规模

N1.6 的“肌肉”来自于超大规模的数据灌溉：

预训练规模：300K Steps，Global Batch Size 达到 16,384。
多样化数据：
- 真实遥操作：增加了数千小时来自 YAM 双臂、Agibot 和 Unitree G1 的真实数据。
- 仿真补齐：结合了 BEHAVIOR 任务集下的仿真数据，解决了极端工况下数据稀缺的问题。

4. 核心实战经验 (Engineering Lessons)

NVIDIA 在报告中分享了几个极具价值的工程教训，这对具身智能开发者非常有启发：

关键技术	作用	开发者笔记
迭代 DAgger	提升成功率	当模型在现实中反复失败时，介入人工纠偏并回传数据是最有效的手段。
协同训练 (Co-training)	防止过拟合	在微调特定任务时，必须混入预训练数据，否则模型会“忘掉”通用常识。
实时控制 (RTC)	动作去抖	通过在训练和推理时模拟延迟，确保异步控制下的鲁棒性。
子任务标注	指令遵循	细粒度的步骤拆解能显著提升模型对复杂指令（如“清理桌面”）的理解力。

5. 总结：通向通用具身智能

GR00T N1.6 的发布证明了：更深的视觉骨干 + 相对动作空间 + 强正则化的后训练，是当前解决人形机器人长程任务（Long-horizon tasks）的最优解。

虽然多任务泛化仍然是一个持续的挑战，但 N1.6 已经让我们看到了人形机器人走进实验室外、处理复杂现实工作的曙光。

与上一代N1.5的训练配方对比：

1. 核心架构对比 (Brain & Backbone)

差异点：这里差异最大。N1.5 使用了非常庞大且先进的基座，而 N1.6 回归了轻量级的高效基座。

特性	GR00T N1.6 (Gr00tN1d6)	GR00T N1.5 (GR00T_N1_5)	核心解读
Backbone 模型	Eagle-Block2A-2B-v2	`eagle_er-qwen3_1_7B-Siglip2...`	2B vs 7B+：N1.5 的大脑非常大（Qwen 7B），理解力极强；N1.6 采用了 2B 小模型，明显是为了推理速度和端侧部署。
视觉编码器	隐式 (基于 Eagle 2B 默认)	SigLIP 2 (400M)	N1.5 用了最新的 SigLIP 2，视觉上限更高；N1.6 沿用 Eagle 2B 的标准视觉。
视觉特征层	第 16 层 (`select_layer`)	第 12 层 (`select_layer`)	N1.6 提取更深层的语义特征；N1.5 提取较浅层特征，保留更多视觉细节。
视觉 Token	全量 (未压缩)	32 个 (`num_target_vision_tokens`)	N1.5 强制将视觉信息压缩为 32 个 Token，极度浓缩；N1.6 则没有这个显式瓶颈。

2. 扩散策略头对比 (Body & Action)

差异点：发生了有趣的反转，N1.6 的“小脑”（动作生成部分）比 N1.5 强大得多且深得多。

特性	GR00T N1.6 (Gr00tN1d6)	GR00T N1.5 (GR00T_N1_5)	核心解读
扩散模型深度	32 层 (`num_layers`)	16 层	N1.6 的动作网络深一倍。因为它的大脑（2B）较弱，所以需要一个更强大的扩散网络来“弥补”控制精度。
动作预测视野	50 步 (`action_horizon`)	16 步	N1.6 看得更远。它一次规划 50 步，追求长程平滑；N1.5 只规划 16 步，依赖高频快速反应。
动作维度	128 (`max_action_dim`)	32	N1.6 控制更细腻。128 维通常包含全身关节细节；N1.5 的 32 维可能是特定末端控制或压缩空间。
融合模块	无	VL-Self-Attention (4层)	N1.5 在扩散前加了一个专门的“视觉-语言自注意力”模块来对齐特征；N1.6 则将VLM的四层拿来充当这个不分

3. 训练与微调策略 (Tuning Strategy)

差异点：这是两者方法论的根本分歧点。

特性	GR00T N1.6 (Gr00tN1d6)	GR00T N1.5 (GR00T_N1_5)	核心解读
微调 LLM	Tune Top 4 Layers	False (全冻结)	N1.6 微调大脑：为了让 2B 小模型听懂指令，必须微调其顶层。
微调视觉	False (冻结)	True (解冻)	N1.5 微调眼睛：允许视觉编码器随机器人数据更新，适应性更强；N1.6 认为视觉是通用的，直接锁死。
Projector	True	True	两者都微调连接层。
精度策略	BF16 + Trainable FP32	FP32 (`model_dtype`)	N1.6 使用混合精度加速；N1.5 为了大模型的稳定性，似乎更倾向于 FP32 计算。

4. 数据输入与增强

特性	GR00T N1.6	GR00T N1.5	核心解读
最短边缩放	256	(未显式指定)	N1.6 明确了 256 的小分辨率输入，适配 Eagle 2B 的轻量化需求。
状态编码	Sin-Cos Encoding	(未显式开启)	N1.6 对机器人状态（角度等）做了更细致的位置编码增强。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

DENSO机器人二次开发：用C#读取和写入数据

DAMO开发者矩阵

从“能动”到“在场”：BeamDojo 如何构建真正可落地的具身智能系统

DAMO开发者矩阵

LVS 负载均衡核心原理深度剖析：从 NAT 到 DR 模式详解

本文深入剖析了LVS负载均衡的四种核心模式：NAT、TUN、DR和FULLNAT。NAT模式通过IP转换实现负载均衡，适合小规模集群；TUN模式采用IP隧道封装，适用于跨机房场景；DR模式通过修改MAC地址实现高性能负载均衡，是互联网公司首选；FULLNAT模式支持跨VLAN部署但性能稍逊。文章详细分析了各模式的数据包流向、核心原理及优缺点，并提供了选型指南，强调DR模式最适合高并发场景，而FUL