为什么说云端AI是“消费”,具身智能才是真正的“吞噬”?

——AI的终局,是一具身体

目录

01  五层蛋糕 ↔ 具身智能

第一层:能源——从宏观瓶颈到贴身枷锁

第二层:芯片——从「吞吐量竞赛」到「物理交互专用计算」

第三层:基础设施——「AI 工厂」变成了「机器人训练场」

第四层:模型——从「理解世界」到「在世界中行动」

第五层:应用——人形机器人,AI 具身应用的具体表现

02  具身智能五层蛋糕最难啃的那一块


几天前,黄仁勋在 NVIDIA 官方博客发表了一篇题为《AI 是一块"五层蛋糕"》的文章。

他把 AI 的工业架构拆解为五层:能源、芯片、基础设施、模型、应用,并断言这五层相互强化,共同构成了这个时代最重要的基础设施建设。

文章的结尾,他写道:"人形机器人则是 AI 具身应用的具体表现。"

这句话藏在应用层部分,只是轻描淡写的一笔,却点出了一个更深的问题:

如果说 ChatGPT 这类 AI 只是在「消费」(外挂式的关系)这五层蛋糕,那么具身智能——

那些需要在物理世界中感知、决策、行动的机器人,则是在把这五层蛋糕「装进自己的身体」(内化式的关系)

图片

这绝非一个比喻上的差异,而是一个量级上的挑战。

云端 AI 可以把算力无限堆叠在数据中心里,但机器人只有一个身体:有限的电池、有限的芯片空间、有限的通信带宽,以及一个必须实时响应物理世界的大脑。

从这个角度重新审视黄仁勋的五层蛋糕,会发现具身智能是这套架构最极端的压力测试者——

每一层,对它而言都意味着更苛刻的约束,也意味着更大的突破空间。

今天这篇文章,我们将站在具身智能的角度,重新看待这“五层蛋糕”如何与其一一对应。

01  五层蛋糕 ↔ 具身智能

第一层:能源——从宏观瓶颈到贴身枷锁

黄仁勋在文章中说,能源是 AI 基础设施的首要原则,也是制约系统能产生多少智能的瓶颈因素。这个判断对数据中心而言是宏观的——我们需要建更多电厂、铺更多电网。

  • 但对具身智能而言,能源问题被压缩成了一个极度私人的困境:

机器人背上那块电池,够不够撑过一个工作班次?

这不是夸张。

IDC 在《2026 年具身智能机器人十大技术趋势》报告中指出:

随着机器人向具身智能化发展,端侧算力需求从家用机器人的十 T 级,跃升至商用服务机器人、四足机器人及人形机器人的百 T 至千 T 级,而这一切计算都需要在机器人本体上实时完成。

图片

▲图2 | IDC 于年初发布的《2026 年具身智能机器人十大技术趋势》报告(http://www.robotsci.com.cn/detail/2012064244249530368)

算力越强,功耗越高;功耗越高,续航越短——这是一个几乎无解的三角矛盾。

NVIDIA 为此专门设计了 Jetson AGX Thor 芯片,功耗区间为 40 至 130 瓦,在这个约束下提供 2070 FP4 TFLOPS 的算力,相比上一代 AGX Orin 实现了 7.5 倍的 AI 算力提升和 3.5 倍的能效改善。

这些数字背后的逻辑是:在机器人有限的能量预算内,每一瓦特都必须转化为尽可能多的智能。

数据中心的能源问题,解法是「建更多」;机器人的能源问题,解法是「用更少」。

这是具身智能给能源层带来的独特命题——它不是在扩展能源边界,而是在极限压缩能源消耗的同时,维持足够的智能输出。

在这个意义上,具身智能把 AI 的能源问题从一个宏观的基础设施议题,变成了一个微观的生存挑战。

第二层:芯片——从「吞吐量竞赛」到「物理交互专用计算」

云端 AI 的芯片逻辑很清晰:堆算力、堆带宽、堆并行度,让每秒能处理的 token 数量越来越多。

  • 但具身智能对芯片的要求,远比这复杂。

一个人形机器人在执行任务时,大脑里同时运行着两套截然不同的计算系统。

一套是「慢思考」系统,负责理解指令、规划任务、推理环境——这需要运行 VLA(视觉-语言-动作)大模型,对算力的需求极高,延迟可以稍微宽松。

另一套是「快思考」系统,负责实时运动控制、平衡调节、力反馈——这对延迟极度敏感,必须在毫秒级内完成响应,但计算量相对较小。

NVIDIA 发布的 Isaac GR00T N1 人形机器人基础模型,正是以这种「双系统架构」为核心设计的:

图片

  • System 2 是慢思考的视觉语言模型,负责对环境和指令进行推理规划

  • System 1 是快思考的动作模型,负责将规划转化为精确、连续的机器人动作。

这两套系统对芯片的要求截然不同,必须在同一块端侧芯片上高效协同。

这正是具身智能正在催生的全新芯片品类——不是追求极致吞吐量的数据中心 GPU,而是在严苛功耗约束下同时支持高层推理与底层实时控制的「物理交互专用计算」平台。

具身智能专用芯片的进步,将决定机器人能「想多快」、「动多准」,最终决定它能不能真正在物理世界中可靠地工作。

图片

▲图3 | NVIDIA Jetson AGX Thor,专为物理 AI 和人形机器人设计的端侧计算平台,在 40-130W 功耗范围内提供 2070 FP4 TFLOPS 算力,相比上一代能效提升 3.5 倍

第三层:基础设施——「AI 工厂」变成了「机器人训练场」

黄仁勋说,基础设施层的核心是 AI 工厂——那些将成千上万处理器编排在一起、专门用来「制造智能」的系统。

  • 这个描述对具身智能同样成立,但具身智能的「AI 工厂」有一个特殊的形态:

它不只是云端的数据中心,更是一套虚实融合的训练生态。

原因在于数据。

训练一个能在物理世界中可靠工作的机器人,需要海量的高质量操作数据——机器人在各种环境下抓取、搬运、组装的轨迹数据。

但这些数据极难获取:让真实机器人在真实环境中反复试错,成本高、风险大、速度慢。

这就是为什么仿真训练成为具身智能基础设施层的核心。

NVIDIA 的 Isaac GR00T 合成数据生成蓝图提供了一个具体的量级参考:

利用 Omniverse 平台和 Cosmos 世界基础模型,NVIDIA 在 11 小时内生成了 78 万条合成操作轨迹,相当于 6500 小时(约 9 个月)的人工示范数据。

将这些合成数据与真实数据结合后,GR00T N1 模型的性能相比纯真实数据训练提升了 40%

这个数字说明了一件事:仿真生成的数据,已经不是「凑数」,而是真正在提升模型能力。

图片

▲图4 | NVIDIA Isaac Sim 中的人形机器人大规模仿真训练场景。通过在虚拟环境中生成海量合成数据,机器人可以在不消耗真实硬件的情况下完成数月的「学习」

这一趋势可以被概括为「虚实融合数据体系成为持续进化核心基础」:

仿真合成数据成为规模化训练的主体,遥操作实采数据作为高质量补充,通过闭环训练、仿真微调与在线反馈,支撑机器人在低成本条件下实现能力扩展与持续进化。

换句话说,具身智能的基础设施层,本质上是一套数据飞轮——它的转速,决定了整个行业的进化速度。

第四层:模型——从「理解世界」到「在世界中行动」

黄仁勋在原文中提到,模型层能够理解语言、生物学、化学、物理学,乃至「物理世界本身」——

  • 即具身智能模型层的核心命题。

语言模型理解世界,是通过文字符号进行的抽象推理;

具身模型理解世界,必须建立对物理规律的内部表征——知道一个杯子放在桌边会掉落,知道推一个重物需要多大的力,知道在湿滑地面上行走需要调整步态。

这种对物理世界的「直觉」,不是从文字中学来的,而是从大量与物理环境的交互中习得的。

这正是 VLA(Vision-Language-Action,视觉-语言-动作)模型的核心价值所在。与传统机器人需要为每个任务单独编程不同,VLA 模型通过大规模数据学习,使机器人具备理解指令、规划动作的通用能力。

NVIDIA 发布的 Isaac GR00T N1 是目前全球首个开源的人形机器人基础模型,它能够泛化到抓取、移动物体、双臂协作等常见任务,以及需要长上下文和技能组合的多步骤任务,并可应用于物料搬运、包装和检验等场景。

图片

▲图5 | NVIDIA Isaac GR00T N1 支持多种人形机器人本体,采用「快思考(System 1)+ 慢思考(System 2)」双系统架构,是全球首个开源人形机器人基础模型

但具身智能的模型层面临一个其他 AI 形态不需要面对的终极考验:

它必须对物理世界负责。

一个语言模型给出错误答案,用户可以纠正;一个具身模型做出错误动作,可能打翻设备、伤害人员、损毁产品。

这意味着具身模型不仅要「聪明」,还要「可靠」——在各种边缘情况下都能做出安全的决策。

从这个角度看,具身智能的模型层是整个 AI 模型谱系中最难的一关。

第五层:应用——人形机器人,AI 具身应用的具体表现

黄仁勋在原文中已经点明:「人形机器人则是 AI 具身应用的具体表现」。

这句话不只是一个定义,更是一个预言。

市场数据印证了这一趋势:

IDC 预测,2025 年中国具身智能机器人用户支出规模预计超过 14 亿美元,到 2030 年将飙升至 770 亿美元,年均复合增长率高达 94%

贝恩咨询则预测,到 2035 年,全球人形机器人年销量有望达到 600 万台,市场规模突破 1200 亿美元;乐观情景下,销量甚至可能超过 1000 万台,市场规模达到 2600 亿美元

图片

▲图6 | 人形机器人在工厂场景中协同搬运作业。随着具身智能应用层的规模化落地,对芯片、基础设施、能源等底层的需求将形成强劲的「向下拉动」效应

但应用层的爆发,不只是一个市场规模的故事,更是一个「拉动效应」的故事。

黄仁勋在文章中写道:

每一个成功的应用都会拉动其下的每一层,直至维持其运行的动力设备。

这正是五层蛋糕架构最精妙的地方:每一层都相互强化,形成正向飞轮。

02  具身智能五层蛋糕最难啃的那一块

回到黄仁勋那篇文章的结尾,他写道:

我们仍处于早期阶段。

大部分基础设施尚未建成,大部分劳动力尚未接受培训,大部分机遇尚未得到发掘。

但方向已然明确。

这句话对具身智能而言,比对任何其他 AI 形态都更加贴切。

具身智能的五层蛋糕,每一层都比云端 AI 更难:

  • 能源层要在极限功耗下维持足够的智能;

  • 芯片层要在单一平台上同时支持高层推理和实时控制;

  • 基础设施层要构建能生成物理真实数据的仿真训练生态;

  • 模型层要在物理世界中做到既聪明又可靠;

  • 应用层要跨越从实验室到工厂、从工厂到家庭的漫长鸿沟。

但正因为每一层都更难,具身智能的突破也将更具意义。

它不只是让 AI 变得更聪明,而是让 AI 真正进入物理世界——进入那些此前只有人类才能涉足的空间,完成那些此前只有人类才能完成的任务。

具身智能将推动 AI 从'通用技术'向'场景化应用'升级,带动算力、数据、算法突破,形成'需求牵引技术、技术反哺应用'的正向循环。这个正向循环,就是具身智能版本的五层蛋糕。

它正在成形,而我们正好站在它开始转动的起点上……

参考资料

1.IDC,《模型驱动,软件定义,硬件重构——IDC 解读 2026 年具身智能机器人十大技术趋势》,2026 年 1 月。https://www.idc.com/resource-center/blog/%E6%A8%A1%E5%9E%8B%E9%A9%B1%E5%8A%A8%EF%BC%8C%E8%BD%AF%E4%BB%B6%E5%AE%9A%E4%B9%89%EF%BC%8C%E7%A1%AC%E4%BB%B6%E9%87%8D%E6%9E%84-idc-%E8%A7%A3%E8%AF%BB-2026%E5%B9%B4%E5%85%B7%E8%BA%AB/

2.NVIDIA ,《Jetson Thor | Advanced AI for Physical Robotics》。https://www.nvidia.com/en-us/autonomous-machines/embedded-systems/jetson-thor/

3.NVIDIA Newsroom ,《NVIDIA Announces Isaac GR00T N1 — the World's First Open Humanoid Robot Foundation Model》,2025 年 3 月 18 日。https://nvidianews.nvidia.com/news/nvidia-isaac-gr00t-n1-open-humanoid-robot-foundation-model-simulation-frameworks

4.NVIDIA 博客 ,《NVIDIA 全栈技术加速枢途科技构建具身训练数据新范式》,2025 年 8 月 27 日。https://blogs.nvidia.cn/blog/nvidia-full-stack-tech-accelerates-synapath-ai-in-building-new-paradigm-for-embodied-training-data/

5.新华社 ,《具身智能:从场景落地到产业崛起》,2026 年 3 月 9 日。https://www.szzg.gov.cn/2025/xwzx/szkx/202603/t20260309_5293033.htm

6.IDC ,《770 亿美元市场引爆:中国具身智能机器人从"秀肌肉"到"真干活"》,2025 年 12 月 8 日。https://my.idc.com/getdoc.jsp?containerId=prCHC54010625

7.贝恩咨询 ,《未来十年,人形机器人产业将进入黄金发展期》,2025 年 11 月 27 日。https://www.bain.cn/news_info.php?id=2074

8.摩根士丹利 ,《新的万亿市场需求即将浮现!大摩:人形机器人芯片市场规模》,2025 年 12 月 2 日。https://www.cls.cn/detail/2216817

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐