具身智能的终局之战，或许不在四肢，而在心智

融资消息一周一个，新品发布一月三款，不同机器人的自由度从20卷到40，关节电机从单编码器卷到双编码器，步态稳定性从“能走”卷到了“能跑酷”。行业看起来一片欣欣向荣。但如果拉远一步，问一个更现实的问题——这些机器人，到底有“多聪明”？它们在“想什么”？答案可能是：大多数机器人，什么也没在想。它们在执行，在响应指令，在把预训练好的动作序列，映射到真实世界的坐标系中。但“思考”这件事（理解语境、推测意图

Tom Hardy

480人浏览 · 2026-02-24 17:37:13

Tom Hardy · 2026-02-24 17:37:13 发布

2026年开年，具身智能赛道依然热得发烫。

融资消息一周一个，新品发布一月三款，不同机器人的自由度从20卷到40，关节电机从单编码器卷到双编码器，步态稳定性从“能走”卷到了“能跑酷”。

行业看起来一片欣欣向荣。但如果拉远一步，问一个更现实的问题——这些机器人，到底有“多聪明”？它们在“想什么”？

答案可能是：大多数机器人，什么也没在想。

它们在执行，在响应指令，在把预训练好的动作序列，映射到真实世界的坐标系中。但“思考”这件事（理解语境、推测意图、预判后果、主动决策）在当下绝大多数具身产品中，依然是一片无人区。

2月4日，原力无限发布消费级小尺寸双足机器人「小原子（YUANZI）」。仅仅4天，盲定订单突破111台。这111张投票背后，是市场对原力无限所选路径的隐性认可：在大家都在比拼“body”的时候，它选择先解决“脑子思考的问题”。

原文链接：具身智能的终局之战，或许不在四肢，而在心智

这颗被原力无限称为「具身大脑」的核心架构，或许是当前具身智能赛道上最被低估、也最值得被认真审视的一张底牌。

行业的集体盲区：身体在狂奔，大脑却仍在起步

回顾过去两年具身智能的资本和技术投入，一个失衡的结构清晰可见——行业把80%的资源投给了“身体”，却只把20%的注意力留给了“大脑”。

这不难理解。硬件参数天然具备“可展示性”：自由度可以列表、步态可以拍视频、力矩可以出数据。在融资路演和发布会上，一台能翻跟头的机器人远比“模型理解了因果关系”更有冲击力。

但问题是：一台“身体能力”远超“认知能力”的机器人，本质上是一个“四肢发达、头脑简单”的产品。

它能走，但不知道该往哪走；它能拿，但不知道该拿什么；它能做，但不知道为什么要做。

在工厂场景中，这不是问题——产线上的一切都是“基本固定”的，机器人只需要精确执行即可。但当机器人试图走进家庭、走进学校、走进真实的人类生活空间时，“执行能力”和“认知能力”之间的断层，就变成了一道无法回避的鸿沟。

试想一个场景：一个4岁的孩子跑过来说“我肚子不舒服”——你需要的不是一台能搬运药箱的机器人，而是一台能判断“要不要叫家长”、“是吃多了还是着凉了”、“现在该安抚还是该量体温”的机器人。

这种判断力，不来自电机，不来自自由度，只来自“大脑”。

小原子背后的选择：先解决“机器人如何思考”

原力无限为小原子打造的「具身大脑」，并非一个营销概念，而是一套有明确技术内核的认知系统。拆解来看，它至少包含三层核心能力：

第一层：端到端多模态感知——全栈自研Hyper-VLA模型
传统机器人的感知-决策-执行是割裂的三段流水线：摄像头看到了什么→系统判断该做什么→电机执行什么动作。每一段之间都存在信息损耗和延迟。

原力无限自研的Hyper-VLA模型，将视觉感知、语言理解和动作执行融合成端到端的统一架构。通俗地说：小原子不是“看到了再想，想好了再做”，而是“看到、理解、行动”几乎同步发生。这是从“能用”到“好用”的关键跃迁。

第二层：因果世界模型——不只是“识别”，而是“理解”
这是原力无限「具身大脑」中最具前瞻性的部分。

大多数机器人的“智能”，本质上是模式匹配：它见过一万张桌子的照片，所以它能识别出桌子。但它并不理解“桌子”是什么——不知道桌子是用来放东西的，不知道桌子边缘的杯子可能会掉下来，不知道桌子太矮意味着这可能是个儿童桌。
因果世界模型的核心能力，在于让机器人具备“如果……那么……”的推理链条。

“如果我走过去，椅子会挡住路”——所以我需要绕行。

“如果杯子里有热水，我需要调整握力”——所以我不能用抓苹果的方式去拿。

“如果孩子在哭，而家长不在旁边”——所以我应该先陪伴，再通知家长。

这种因果推理能力，是从“工具”到“伙伴”的分水岭，才有可能成为“懂你”的存在。

第三层：275 TOPS边缘算力 + 阿里云千问大模型——“本地快反应”与“云端深思考”的双引擎275 TOPS的本地算力，确保了小原子在断网、延迟、隐私敏感等场景下依然能独立运转，实时响应。这是一台家庭机器人的基本尊严——你不能让它每做一个动作都要先“请示云端”。

而接入阿里云千问大模型，则为小原子提供了远超本地算力上限的深度认知能力。更重要的是，千问大模型作为国内头部大模型生态的一部分，其自身的持续迭代能力——每一次模型升级，都意味着小原子的“思维上限”在同步抬升。

这种“端云协同”的架构，本质上让小原子拥有了两套思维系统：一套负责“快速反应”，一套负责“深度理解”。就像人类的直觉系统和理性系统一样。

为什么“大脑”更难，也更关键

造一条能走路的腿，难不难？难。但这个「难」是工程意义上的难:“材料、结构、控制算法，都有相对成熟的路径可以参考”。

造一颗能“想事情”的脑，难不难？难。而且这个「难」是范式意义上的难：因为目前全球范围内，具身智能的“认知层”都还没有形成共识性的技术路线。

这恰恰是原力无限选择all in「具身大脑」的战略价值所在。

在硬件同质化加速的行业趋势下，“大脑”正在成为真正的护城河。

一个直观的逻辑：当供应链成熟到一定程度，关节电机、传感器、结构件的差异会越来越小（就像今天的智能手机，硬件差异已经远小于软件生态的差异）。到那个时候，决定一台机器人是否真正“好用”的，是它的“脑子”是否足够聪明、足够懂你。

原力无限似乎比很多同行更早看到了这一步。

111台盲定的另一层信号

让我们回到那个数字：111台。

截止到2月8日，也就是小原子发布后的第4天，在没有看到实物、没有线下体验的情况下，已经有111位用户投出了信任票。

同时也释放了另一层信号：市场正在奖励那些“把大脑做好”的公司，而不仅仅是“把身体做炫”的公司。

小原子没有在发布时秀翻跟头，没有做一段炫技的跑酷视频，没有把“最强”“最快”“最高”写进任何一句宣传语。它的核心叙事始终围绕三个词：可成长、超自由、真懂我。

这三个词，没有一个是在描述“硬件参数”。它们描述的，全部是“认知能力”——是「具身大脑」支撑下的用户体验。

可成长，靠的是大脑的持续学习能力和OTA迭代架构；
超自由，靠的是大脑足够灵活、能够承载用户自定义的行为组合；

真懂我，靠的是大脑在长期陪伴中积累的个性化认知。
换句话说——小原子的产品力，本质上就是「具身大脑」的能力。这111位盲定用户，与其说是买家，不如说是第一批“未来合伙人”，他们不仅是买走了一台机器人，更是在押注一种“技术信仰”——相信机器人的未来，一定属于更聪明的灵魂。

具身智能的终局之问：谁在建设认知基础设施？

如果把时间线拉长到5年，具身智能行业一定会经历一次洗牌。

洗牌的标准不会是“谁的机器人跑得最快”，而是谁建立了最强大的“具身认知基础设施”——包括多模态感知模型、因果推理引擎、端云协同架构、持续学习机制、以及用户行为数据的长期积累。

这正是原力无限正在做的事。

小原子是这套基础设施的第一个载体。当这颗「具身大脑」在111个、1000个、10000个家庭中持续学习和进化，它所积累的对人类生活的理解深度，将成为任何后来者都难以逾越的壁垒。

数据飞轮一旦转起来，差距只会越拉越大。

在很多人还在关注“这台机器人能做几个动作”的时候，原力无限已经在下一盘更大的棋：不是造最强的机器人，而是造最强的大脑。

95厘米，20公斤，一抹雾霾蓝。

小原子站在那里，看起来安静、内敛。但在那颗不大的“脑袋”里，装着的是全栈自研的模型以及一个持续进化的认知系统。

它不是这个行业里最高的，不是最快的，不是自由度最多的。但它可能是想得最远的。原力无限，用小原子，打响了2026年具身智能的第一枪。

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

【滤波跟踪】基于可观测性的扩展卡尔曼滤波）SLAM（同步定位与地图构建）仿真的 MATLAB 代码，对比Ideal EKF、Standard EKF、FEJ-EKF、OC-EKF 四种滤波算法性能

同步定位与地图构建（SLAM）是机器人领域的核心问题之一，旨在让机器人在未知环境中同时构建地图并确定自身位置。扩展卡尔曼滤波（EKF）作为 SLAM 中常用的算法，通过对非线性系统进行线性化近似来估计状态。然而，传统的标准扩展卡尔曼滤波（Standard EKF）在处理复杂环境和非线性问题时存在一些局限性。基于可观测性的扩展卡尔曼滤波为提升滤波性能提供了新的思路，其中包括一些改进的滤波算法，如 I