黄仁勋罕见发长文：为什么真正的 AI 全栈，必须先过「具身」这道鬼门关？

为什么说云端AI是“消费”，具身智能才是真正的“吞噬”？——AI的终局，是一具身体目录01五层蛋糕 ↔ 具身智能第一层：能源——从宏观瓶颈到贴身枷锁第二层：芯片——从「吞吐量竞赛」到「物理交互专用计算」第三层：基础设施——「AI 工厂」变成了「机器人训练场」第四层：模型——从「理解世界」到「在世界中行动」第五层：应用——人形机器人，AI 具身应用的具体表现02具身智能五层蛋糕最难啃的那一块几天前，

深蓝学院

70人浏览 · 2026-03-23 18:11:22

深蓝学院 · 2026-03-23 18:11:22 发布

为什么说云端AI是“消费”，具身智能才是真正的“吞噬”？

——AI的终局，是一具身体

01 五层蛋糕 ↔ 具身智能

第一层：能源——从宏观瓶颈到贴身枷锁

第二层：芯片——从「吞吐量竞赛」到「物理交互专用计算」

第三层：基础设施——「AI 工厂」变成了「机器人训练场」

第四层：模型——从「理解世界」到「在世界中行动」

第五层：应用——人形机器人，AI 具身应用的具体表现

02 具身智能五层蛋糕最难啃的那一块

几天前，黄仁勋在 NVIDIA 官方博客发表了一篇题为《AI 是一块"五层蛋糕"》的文章。

他把 AI 的工业架构拆解为五层：能源、芯片、基础设施、模型、应用，并断言这五层相互强化，共同构成了这个时代最重要的基础设施建设。

文章的结尾，他写道："人形机器人则是 AI 具身应用的具体表现。"

这句话藏在应用层部分，只是轻描淡写的一笔，却点出了一个更深的问题：

如果说 ChatGPT 这类 AI 只是在「消费」（外挂式的关系）这五层蛋糕，那么具身智能——

那些需要在物理世界中感知、决策、行动的机器人，则是在把这五层蛋糕「装进自己的身体」（内化式的关系）。

这绝非一个比喻上的差异，而是一个量级上的挑战。

云端 AI 可以把算力无限堆叠在数据中心里，但机器人只有一个身体：有限的电池、有限的芯片空间、有限的通信带宽，以及一个必须实时响应物理世界的大脑。

从这个角度重新审视黄仁勋的五层蛋糕，会发现具身智能是这套架构最极端的压力测试者——

每一层，对它而言都意味着更苛刻的约束，也意味着更大的突破空间。

今天这篇文章，我们将站在具身智能的角度，重新看待这“五层蛋糕”如何与其一一对应。

01 五层蛋糕 ↔ 具身智能

第一层：能源——从宏观瓶颈到贴身枷锁

黄仁勋在文章中说，能源是 AI 基础设施的首要原则，也是制约系统能产生多少智能的瓶颈因素。这个判断对数据中心而言是宏观的——我们需要建更多电厂、铺更多电网。

但对具身智能而言，能源问题被压缩成了一个极度私人的困境：

机器人背上那块电池，够不够撑过一个工作班次？

这不是夸张。

IDC 在《2026 年具身智能机器人十大技术趋势》报告中指出：

随着机器人向具身智能化发展，端侧算力需求从家用机器人的十 T 级，跃升至商用服务机器人、四足机器人及人形机器人的百 T 至千 T 级，而这一切计算都需要在机器人本体上实时完成。

▲图2 | IDC 于年初发布的《2026 年具身智能机器人十大技术趋势》报告（http://www.robotsci.com.cn/detail/2012064244249530368）

算力越强，功耗越高；功耗越高，续航越短——这是一个几乎无解的三角矛盾。

NVIDIA 为此专门设计了 Jetson AGX Thor 芯片，功耗区间为 40 至 130 瓦，在这个约束下提供 2070 FP4 TFLOPS 的算力，相比上一代 AGX Orin 实现了 7.5 倍的 AI 算力提升和 3.5 倍的能效改善。

这些数字背后的逻辑是：在机器人有限的能量预算内，每一瓦特都必须转化为尽可能多的智能。

数据中心的能源问题，解法是「建更多」；机器人的能源问题，解法是「用更少」。

这是具身智能给能源层带来的独特命题——它不是在扩展能源边界，而是在极限压缩能源消耗的同时，维持足够的智能输出。

在这个意义上，具身智能把 AI 的能源问题从一个宏观的基础设施议题，变成了一个微观的生存挑战。

第二层：芯片——从「吞吐量竞赛」到「物理交互专用计算」

云端 AI 的芯片逻辑很清晰：堆算力、堆带宽、堆并行度，让每秒能处理的 token 数量越来越多。

但具身智能对芯片的要求，远比这复杂。

一个人形机器人在执行任务时，大脑里同时运行着两套截然不同的计算系统。

一套是「慢思考」系统，负责理解指令、规划任务、推理环境——这需要运行 VLA（视觉-语言-动作）大模型，对算力的需求极高，延迟可以稍微宽松。

另一套是「快思考」系统，负责实时运动控制、平衡调节、力反馈——这对延迟极度敏感，必须在毫秒级内完成响应，但计算量相对较小。

NVIDIA 发布的 Isaac GR00T N1 人形机器人基础模型，正是以这种「双系统架构」为核心设计的：

System 2 是慢思考的视觉语言模型，负责对环境和指令进行推理规划
System 1 是快思考的动作模型，负责将规划转化为精确、连续的机器人动作。

这两套系统对芯片的要求截然不同，必须在同一块端侧芯片上高效协同。

这正是具身智能正在催生的全新芯片品类——不是追求极致吞吐量的数据中心 GPU，而是在严苛功耗约束下同时支持高层推理与底层实时控制的「物理交互专用计算」平台。

具身智能专用芯片的进步，将决定机器人能「想多快」、「动多准」，最终决定它能不能真正在物理世界中可靠地工作。

▲图3 | NVIDIA Jetson AGX Thor，专为物理 AI 和人形机器人设计的端侧计算平台，在 40-130W 功耗范围内提供 2070 FP4 TFLOPS 算力，相比上一代能效提升 3.5 倍

第三层：基础设施——「AI 工厂」变成了「机器人训练场」

黄仁勋说，基础设施层的核心是 AI 工厂——那些将成千上万处理器编排在一起、专门用来「制造智能」的系统。

这个描述对具身智能同样成立，但具身智能的「AI 工厂」有一个特殊的形态：

它不只是云端的数据中心，更是一套虚实融合的训练生态。

原因在于数据。

训练一个能在物理世界中可靠工作的机器人，需要海量的高质量操作数据——机器人在各种环境下抓取、搬运、组装的轨迹数据。

但这些数据极难获取：让真实机器人在真实环境中反复试错，成本高、风险大、速度慢。

这就是为什么仿真训练成为具身智能基础设施层的核心。

NVIDIA 的 Isaac GR00T 合成数据生成蓝图提供了一个具体的量级参考：

利用 Omniverse 平台和 Cosmos 世界基础模型，NVIDIA 在 11 小时内生成了 78 万条合成操作轨迹，相当于 6500 小时（约 9 个月）的人工示范数据。

将这些合成数据与真实数据结合后，GR00T N1 模型的性能相比纯真实数据训练提升了 40%。

这个数字说明了一件事：仿真生成的数据，已经不是「凑数」，而是真正在提升模型能力。

▲图4 | NVIDIA Isaac Sim 中的人形机器人大规模仿真训练场景。通过在虚拟环境中生成海量合成数据，机器人可以在不消耗真实硬件的情况下完成数月的「学习」

这一趋势可以被概括为「虚实融合数据体系成为持续进化核心基础」：

仿真合成数据成为规模化训练的主体，遥操作实采数据作为高质量补充，通过闭环训练、仿真微调与在线反馈，支撑机器人在低成本条件下实现能力扩展与持续进化。

换句话说，具身智能的基础设施层，本质上是一套数据飞轮——它的转速，决定了整个行业的进化速度。

第四层：模型——从「理解世界」到「在世界中行动」

黄仁勋在原文中提到，模型层能够理解语言、生物学、化学、物理学，乃至「物理世界本身」——

即具身智能模型层的核心命题。

语言模型理解世界，是通过文字符号进行的抽象推理；

具身模型理解世界，必须建立对物理规律的内部表征——知道一个杯子放在桌边会掉落，知道推一个重物需要多大的力，知道在湿滑地面上行走需要调整步态。

这种对物理世界的「直觉」，不是从文字中学来的，而是从大量与物理环境的交互中习得的。

这正是 VLA（Vision-Language-Action，视觉-语言-动作）模型的核心价值所在。与传统机器人需要为每个任务单独编程不同，VLA 模型通过大规模数据学习，使机器人具备理解指令、规划动作的通用能力。

NVIDIA 发布的 Isaac GR00T N1 是目前全球首个开源的人形机器人基础模型，它能够泛化到抓取、移动物体、双臂协作等常见任务，以及需要长上下文和技能组合的多步骤任务，并可应用于物料搬运、包装和检验等场景。

▲图5 | NVIDIA Isaac GR00T N1 支持多种人形机器人本体，采用「快思考（System 1）+ 慢思考（System 2）」双系统架构，是全球首个开源人形机器人基础模型

但具身智能的模型层面临一个其他 AI 形态不需要面对的终极考验：

它必须对物理世界负责。

一个语言模型给出错误答案，用户可以纠正；一个具身模型做出错误动作，可能打翻设备、伤害人员、损毁产品。

这意味着具身模型不仅要「聪明」，还要「可靠」——在各种边缘情况下都能做出安全的决策。

从这个角度看，具身智能的模型层是整个 AI 模型谱系中最难的一关。

第五层：应用——人形机器人，AI 具身应用的具体表现

黄仁勋在原文中已经点明：「人形机器人则是 AI 具身应用的具体表现」。

这句话不只是一个定义，更是一个预言。

市场数据印证了这一趋势：

IDC 预测，2025 年中国具身智能机器人用户支出规模预计超过 14 亿美元，到 2030 年将飙升至 770 亿美元，年均复合增长率高达 94%。

贝恩咨询则预测，到 2035 年，全球人形机器人年销量有望达到 600 万台，市场规模突破 1200 亿美元；乐观情景下，销量甚至可能超过 1000 万台，市场规模达到 2600 亿美元。

▲图6 | 人形机器人在工厂场景中协同搬运作业。随着具身智能应用层的规模化落地，对芯片、基础设施、能源等底层的需求将形成强劲的「向下拉动」效应

但应用层的爆发，不只是一个市场规模的故事，更是一个「拉动效应」的故事。

黄仁勋在文章中写道：

每一个成功的应用都会拉动其下的每一层，直至维持其运行的动力设备。

这正是五层蛋糕架构最精妙的地方：每一层都相互强化，形成正向飞轮。

02 具身智能五层蛋糕最难啃的那一块

回到黄仁勋那篇文章的结尾，他写道：

我们仍处于早期阶段。

大部分基础设施尚未建成，大部分劳动力尚未接受培训，大部分机遇尚未得到发掘。

但方向已然明确。

这句话对具身智能而言，比对任何其他 AI 形态都更加贴切。

具身智能的五层蛋糕，每一层都比云端 AI 更难：

能源层要在极限功耗下维持足够的智能；
芯片层要在单一平台上同时支持高层推理和实时控制；
基础设施层要构建能生成物理真实数据的仿真训练生态；
模型层要在物理世界中做到既聪明又可靠；
应用层要跨越从实验室到工厂、从工厂到家庭的漫长鸿沟。

但正因为每一层都更难，具身智能的突破也将更具意义。

它不只是让 AI 变得更聪明，而是让 AI 真正进入物理世界——进入那些此前只有人类才能涉足的空间，完成那些此前只有人类才能完成的任务。

具身智能将推动 AI 从'通用技术'向'场景化应用'升级，带动算力、数据、算法突破，形成'需求牵引技术、技术反哺应用'的正向循环。这个正向循环，就是具身智能版本的五层蛋糕。

它正在成形，而我们正好站在它开始转动的起点上……

参考资料

1.IDC，《模型驱动，软件定义，硬件重构——IDC 解读 2026 年具身智能机器人十大技术趋势》，2026 年 1 月。https://www.idc.com/resource-center/blog/%E6%A8%A1%E5%9E%8B%E9%A9%B1%E5%8A%A8%EF%BC%8C%E8%BD%AF%E4%BB%B6%E5%AE%9A%E4%B9%89%EF%BC%8C%E7%A1%AC%E4%BB%B6%E9%87%8D%E6%9E%84-idc-%E8%A7%A3%E8%AF%BB-2026%E5%B9%B4%E5%85%B7%E8%BA%AB/

2.NVIDIA ，《Jetson Thor | Advanced AI for Physical Robotics》。https://www.nvidia.com/en-us/autonomous-machines/embedded-systems/jetson-thor/

3.NVIDIA Newsroom ，《NVIDIA Announces Isaac GR00T N1 — the World's First Open Humanoid Robot Foundation Model》，2025 年 3 月 18 日。https://nvidianews.nvidia.com/news/nvidia-isaac-gr00t-n1-open-humanoid-robot-foundation-model-simulation-frameworks

4.NVIDIA 博客，《NVIDIA 全栈技术加速枢途科技构建具身训练数据新范式》，2025 年 8 月 27 日。https://blogs.nvidia.cn/blog/nvidia-full-stack-tech-accelerates-synapath-ai-in-building-new-paradigm-for-embodied-training-data/

5.新华社，《具身智能：从场景落地到产业崛起》，2026 年 3 月 9 日。https://www.szzg.gov.cn/2025/xwzx/szkx/202603/t20260309_5293033.htm

6.IDC ，《770 亿美元市场引爆：中国具身智能机器人从"秀肌肉"到"真干活"》，2025 年 12 月 8 日。https://my.idc.com/getdoc.jsp?containerId=prCHC54010625

7.贝恩咨询，《未来十年，人形机器人产业将进入黄金发展期》，2025 年 11 月 27 日。https://www.bain.cn/news_info.php?id=2074

8.摩根士丹利，《新的万亿市场需求即将浮现！大摩：人形机器人芯片市场规模》，2025 年 12 月 2 日。https://www.cls.cn/detail/2216817

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

龙虾（OpenClaw）连接企业微信

DAMO开发者矩阵

2026最新大模型学习路线图！小白也能轻松入门AI，抓住未来机遇！大模型学习路线（2026最新）

DAMO开发者矩阵

人形机器人领域优质媒体：从资讯到深度研究全梳理

人形机器人是当前最热的赛道之一，每天都有新融资、新产品、新技术冒出来。但信息太杂了——公众号一堆、短视频满天飞、真假难辨。想系统跟踪这个领域，需要筛选靠谱的媒体平台。下面按资讯类、深度类、技术类、数据类、社区类分一下，梳理人形机器人领域值得关注的媒体平台。有些是大而全的科技媒体，有些是专注机器人的垂直媒体，还有些是学术和技术社区。