黄仁勋罕见发长文:为什么真正的 AI 全栈,必须先过「具身」这道鬼门关?
为什么说云端AI是“消费”,具身智能才是真正的“吞噬”?——AI的终局,是一具身体目录01五层蛋糕 ↔ 具身智能第一层:能源——从宏观瓶颈到贴身枷锁第二层:芯片——从「吞吐量竞赛」到「物理交互专用计算」第三层:基础设施——「AI 工厂」变成了「机器人训练场」第四层:模型——从「理解世界」到「在世界中行动」第五层:应用——人形机器人,AI 具身应用的具体表现02具身智能五层蛋糕最难啃的那一块几天前,

为什么说云端AI是“消费”,具身智能才是真正的“吞噬”?
——AI的终局,是一具身体
目录
几天前,黄仁勋在 NVIDIA 官方博客发表了一篇题为《AI 是一块"五层蛋糕"》的文章。
他把 AI 的工业架构拆解为五层:能源、芯片、基础设施、模型、应用,并断言这五层相互强化,共同构成了这个时代最重要的基础设施建设。
文章的结尾,他写道:"人形机器人则是 AI 具身应用的具体表现。"
这句话藏在应用层部分,只是轻描淡写的一笔,却点出了一个更深的问题:
如果说 ChatGPT 这类 AI 只是在「消费」(外挂式的关系)这五层蛋糕,那么具身智能——
那些需要在物理世界中感知、决策、行动的机器人,则是在把这五层蛋糕「装进自己的身体」(内化式的关系)。

这绝非一个比喻上的差异,而是一个量级上的挑战。
云端 AI 可以把算力无限堆叠在数据中心里,但机器人只有一个身体:有限的电池、有限的芯片空间、有限的通信带宽,以及一个必须实时响应物理世界的大脑。
从这个角度重新审视黄仁勋的五层蛋糕,会发现具身智能是这套架构最极端的压力测试者——
每一层,对它而言都意味着更苛刻的约束,也意味着更大的突破空间。
今天这篇文章,我们将站在具身智能的角度,重新看待这“五层蛋糕”如何与其一一对应。
01 五层蛋糕 ↔ 具身智能
第一层:能源——从宏观瓶颈到贴身枷锁
黄仁勋在文章中说,能源是 AI 基础设施的首要原则,也是制约系统能产生多少智能的瓶颈因素。这个判断对数据中心而言是宏观的——我们需要建更多电厂、铺更多电网。
-
但对具身智能而言,能源问题被压缩成了一个极度私人的困境:
机器人背上那块电池,够不够撑过一个工作班次?
这不是夸张。
IDC 在《2026 年具身智能机器人十大技术趋势》报告中指出:
随着机器人向具身智能化发展,端侧算力需求从家用机器人的十 T 级,跃升至商用服务机器人、四足机器人及人形机器人的百 T 至千 T 级,而这一切计算都需要在机器人本体上实时完成。

▲图2 | IDC 于年初发布的《2026 年具身智能机器人十大技术趋势》报告(http://www.robotsci.com.cn/detail/2012064244249530368)
算力越强,功耗越高;功耗越高,续航越短——这是一个几乎无解的三角矛盾。
NVIDIA 为此专门设计了 Jetson AGX Thor 芯片,功耗区间为 40 至 130 瓦,在这个约束下提供 2070 FP4 TFLOPS 的算力,相比上一代 AGX Orin 实现了 7.5 倍的 AI 算力提升和 3.5 倍的能效改善。
这些数字背后的逻辑是:在机器人有限的能量预算内,每一瓦特都必须转化为尽可能多的智能。
数据中心的能源问题,解法是「建更多」;机器人的能源问题,解法是「用更少」。
这是具身智能给能源层带来的独特命题——它不是在扩展能源边界,而是在极限压缩能源消耗的同时,维持足够的智能输出。
在这个意义上,具身智能把 AI 的能源问题从一个宏观的基础设施议题,变成了一个微观的生存挑战。
第二层:芯片——从「吞吐量竞赛」到「物理交互专用计算」
云端 AI 的芯片逻辑很清晰:堆算力、堆带宽、堆并行度,让每秒能处理的 token 数量越来越多。
-
但具身智能对芯片的要求,远比这复杂。
一个人形机器人在执行任务时,大脑里同时运行着两套截然不同的计算系统。
一套是「慢思考」系统,负责理解指令、规划任务、推理环境——这需要运行 VLA(视觉-语言-动作)大模型,对算力的需求极高,延迟可以稍微宽松。
另一套是「快思考」系统,负责实时运动控制、平衡调节、力反馈——这对延迟极度敏感,必须在毫秒级内完成响应,但计算量相对较小。
NVIDIA 发布的 Isaac GR00T N1 人形机器人基础模型,正是以这种「双系统架构」为核心设计的:

-
System 2 是慢思考的视觉语言模型,负责对环境和指令进行推理规划
-
System 1 是快思考的动作模型,负责将规划转化为精确、连续的机器人动作。
这两套系统对芯片的要求截然不同,必须在同一块端侧芯片上高效协同。
这正是具身智能正在催生的全新芯片品类——不是追求极致吞吐量的数据中心 GPU,而是在严苛功耗约束下同时支持高层推理与底层实时控制的「物理交互专用计算」平台。
具身智能专用芯片的进步,将决定机器人能「想多快」、「动多准」,最终决定它能不能真正在物理世界中可靠地工作。

▲图3 | NVIDIA Jetson AGX Thor,专为物理 AI 和人形机器人设计的端侧计算平台,在 40-130W 功耗范围内提供 2070 FP4 TFLOPS 算力,相比上一代能效提升 3.5 倍
第三层:基础设施——「AI 工厂」变成了「机器人训练场」
黄仁勋说,基础设施层的核心是 AI 工厂——那些将成千上万处理器编排在一起、专门用来「制造智能」的系统。
-
这个描述对具身智能同样成立,但具身智能的「AI 工厂」有一个特殊的形态:
它不只是云端的数据中心,更是一套虚实融合的训练生态。
原因在于数据。
训练一个能在物理世界中可靠工作的机器人,需要海量的高质量操作数据——机器人在各种环境下抓取、搬运、组装的轨迹数据。
但这些数据极难获取:让真实机器人在真实环境中反复试错,成本高、风险大、速度慢。
这就是为什么仿真训练成为具身智能基础设施层的核心。
NVIDIA 的 Isaac GR00T 合成数据生成蓝图提供了一个具体的量级参考:
利用 Omniverse 平台和 Cosmos 世界基础模型,NVIDIA 在 11 小时内生成了 78 万条合成操作轨迹,相当于 6500 小时(约 9 个月)的人工示范数据。
将这些合成数据与真实数据结合后,GR00T N1 模型的性能相比纯真实数据训练提升了 40%。
这个数字说明了一件事:仿真生成的数据,已经不是「凑数」,而是真正在提升模型能力。

▲图4 | NVIDIA Isaac Sim 中的人形机器人大规模仿真训练场景。通过在虚拟环境中生成海量合成数据,机器人可以在不消耗真实硬件的情况下完成数月的「学习」
这一趋势可以被概括为「虚实融合数据体系成为持续进化核心基础」:
仿真合成数据成为规模化训练的主体,遥操作实采数据作为高质量补充,通过闭环训练、仿真微调与在线反馈,支撑机器人在低成本条件下实现能力扩展与持续进化。
换句话说,具身智能的基础设施层,本质上是一套数据飞轮——它的转速,决定了整个行业的进化速度。
第四层:模型——从「理解世界」到「在世界中行动」
黄仁勋在原文中提到,模型层能够理解语言、生物学、化学、物理学,乃至「物理世界本身」——
-
即具身智能模型层的核心命题。
语言模型理解世界,是通过文字符号进行的抽象推理;
具身模型理解世界,必须建立对物理规律的内部表征——知道一个杯子放在桌边会掉落,知道推一个重物需要多大的力,知道在湿滑地面上行走需要调整步态。
这种对物理世界的「直觉」,不是从文字中学来的,而是从大量与物理环境的交互中习得的。
这正是 VLA(Vision-Language-Action,视觉-语言-动作)模型的核心价值所在。与传统机器人需要为每个任务单独编程不同,VLA 模型通过大规模数据学习,使机器人具备理解指令、规划动作的通用能力。
NVIDIA 发布的 Isaac GR00T N1 是目前全球首个开源的人形机器人基础模型,它能够泛化到抓取、移动物体、双臂协作等常见任务,以及需要长上下文和技能组合的多步骤任务,并可应用于物料搬运、包装和检验等场景。

▲图5 | NVIDIA Isaac GR00T N1 支持多种人形机器人本体,采用「快思考(System 1)+ 慢思考(System 2)」双系统架构,是全球首个开源人形机器人基础模型
但具身智能的模型层面临一个其他 AI 形态不需要面对的终极考验:
它必须对物理世界负责。
一个语言模型给出错误答案,用户可以纠正;一个具身模型做出错误动作,可能打翻设备、伤害人员、损毁产品。
这意味着具身模型不仅要「聪明」,还要「可靠」——在各种边缘情况下都能做出安全的决策。
从这个角度看,具身智能的模型层是整个 AI 模型谱系中最难的一关。
第五层:应用——人形机器人,AI 具身应用的具体表现
黄仁勋在原文中已经点明:「人形机器人则是 AI 具身应用的具体表现」。
这句话不只是一个定义,更是一个预言。
市场数据印证了这一趋势:
IDC 预测,2025 年中国具身智能机器人用户支出规模预计超过 14 亿美元,到 2030 年将飙升至 770 亿美元,年均复合增长率高达 94%。
贝恩咨询则预测,到 2035 年,全球人形机器人年销量有望达到 600 万台,市场规模突破 1200 亿美元;乐观情景下,销量甚至可能超过 1000 万台,市场规模达到 2600 亿美元。

▲图6 | 人形机器人在工厂场景中协同搬运作业。随着具身智能应用层的规模化落地,对芯片、基础设施、能源等底层的需求将形成强劲的「向下拉动」效应
但应用层的爆发,不只是一个市场规模的故事,更是一个「拉动效应」的故事。
黄仁勋在文章中写道:
每一个成功的应用都会拉动其下的每一层,直至维持其运行的动力设备。
这正是五层蛋糕架构最精妙的地方:每一层都相互强化,形成正向飞轮。
02 具身智能五层蛋糕最难啃的那一块
回到黄仁勋那篇文章的结尾,他写道:
我们仍处于早期阶段。
大部分基础设施尚未建成,大部分劳动力尚未接受培训,大部分机遇尚未得到发掘。
但方向已然明确。
这句话对具身智能而言,比对任何其他 AI 形态都更加贴切。
具身智能的五层蛋糕,每一层都比云端 AI 更难:
-
能源层要在极限功耗下维持足够的智能;
-
芯片层要在单一平台上同时支持高层推理和实时控制;
-
基础设施层要构建能生成物理真实数据的仿真训练生态;
-
模型层要在物理世界中做到既聪明又可靠;
-
应用层要跨越从实验室到工厂、从工厂到家庭的漫长鸿沟。
但正因为每一层都更难,具身智能的突破也将更具意义。
它不只是让 AI 变得更聪明,而是让 AI 真正进入物理世界——进入那些此前只有人类才能涉足的空间,完成那些此前只有人类才能完成的任务。
具身智能将推动 AI 从'通用技术'向'场景化应用'升级,带动算力、数据、算法突破,形成'需求牵引技术、技术反哺应用'的正向循环。这个正向循环,就是具身智能版本的五层蛋糕。
它正在成形,而我们正好站在它开始转动的起点上……
参考资料
1.IDC,《模型驱动,软件定义,硬件重构——IDC 解读 2026 年具身智能机器人十大技术趋势》,2026 年 1 月。https://www.idc.com/resource-center/blog/%E6%A8%A1%E5%9E%8B%E9%A9%B1%E5%8A%A8%EF%BC%8C%E8%BD%AF%E4%BB%B6%E5%AE%9A%E4%B9%89%EF%BC%8C%E7%A1%AC%E4%BB%B6%E9%87%8D%E6%9E%84-idc-%E8%A7%A3%E8%AF%BB-2026%E5%B9%B4%E5%85%B7%E8%BA%AB/
2.NVIDIA ,《Jetson Thor | Advanced AI for Physical Robotics》。https://www.nvidia.com/en-us/autonomous-machines/embedded-systems/jetson-thor/
3.NVIDIA Newsroom ,《NVIDIA Announces Isaac GR00T N1 — the World's First Open Humanoid Robot Foundation Model》,2025 年 3 月 18 日。https://nvidianews.nvidia.com/news/nvidia-isaac-gr00t-n1-open-humanoid-robot-foundation-model-simulation-frameworks
4.NVIDIA 博客 ,《NVIDIA 全栈技术加速枢途科技构建具身训练数据新范式》,2025 年 8 月 27 日。https://blogs.nvidia.cn/blog/nvidia-full-stack-tech-accelerates-synapath-ai-in-building-new-paradigm-for-embodied-training-data/
5.新华社 ,《具身智能:从场景落地到产业崛起》,2026 年 3 月 9 日。https://www.szzg.gov.cn/2025/xwzx/szkx/202603/t20260309_5293033.htm
6.IDC ,《770 亿美元市场引爆:中国具身智能机器人从"秀肌肉"到"真干活"》,2025 年 12 月 8 日。https://my.idc.com/getdoc.jsp?containerId=prCHC54010625
7.贝恩咨询 ,《未来十年,人形机器人产业将进入黄金发展期》,2025 年 11 月 27 日。https://www.bain.cn/news_info.php?id=2074
8.摩根士丹利 ,《新的万亿市场需求即将浮现!大摩:人形机器人芯片市场规模》,2025 年 12 月 2 日。https://www.cls.cn/detail/2216817
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐


所有评论(0)