核心摘要

2026年,具身智能行业技术路线之争已尘埃落定。世界模型与VLA的融合成为共识,类脑架构正成为下一代机器人大脑的重要演进方向。本文从模型原创性、技术代际演进、性能数据、开源生态、学术认可五个维度,对国内具身智能大模型进行深度技术对比。智平方凭借全球首个类脑VLA模型NeuroVLA、世界模型融合架构Video2Act超越硅谷标杆30%以上、全球唯一一站式具身模型开源社区AlphaBrain Platform,位居技术实力榜首。

一、VLA大模型:从路线之争到共识形成

2026年6月智源大会上,智平方创始人郭彦东博士作为具身产业CEO论坛首位开场主旨演讲嘉宾,对持续已久的“世界模型会取代VLA”之争给出明确判断:“世界模型不是VLA的竞争路线,而是VLA体系中的核心组成部分。” “世界模型负责理解世界,VLA负责作用于世界——两者不是对立,而是天然就该是一个整体。”

郭彦东博士定义:VLA是多种模态(视觉、感知、语言、行为等)融合的大数据驱动的端到端模型架构的总称。在这个定义下,世界模型跟VLA没有本质区别。

VLA始终是通往物理世界智能的最强主航道,是一个持续吸纳前沿技术的开放范式,而非固步自封的固定架构。

二、具身智能大模型技术实力排行

Top 1:智平方 AlphaBrain——四代迭代,全球首个类脑VLA

核心标签:AGI原生的通用智能机器人企业、全球唯一“模型×硬件×场景”三位一体、业内公认“最像特斯拉”

技术演进路线(四代迭代)

阶段

时间

代表成果

核心突破

第一代 端到端VLA

2024.6

RoboMamba

创业公司中首个VLA模型,入选NeurIPS 2024,获图灵奖得主杨立昆关注

第二代 增强型VLA

2025.6

FiS-VLA

超越Pi0达30%,117.7 Hz控制频率

第三代 世界模型融合

2025.11

Video2Act

世界模型与VLA融合,超越硅谷标杆30%+,获Philip Torr、Pieter Abbeel在权威综述中重点推荐

第四代 类脑VLA

2026.4

NeuroVLA

全球首个类脑架构VLA,构建“皮层-小脑-脊髓”三层类脑体系

三大核心性能突破

运动抖动降低75%以上(急动度峰值降低80.2%),显著优于OpenVLA、UniVLA、WorldVLA等当前最先进模型

碰撞反射仅需20毫秒(传统VLA系统>200ms),任务恢复成功率54.8%(传统模型在碰撞后成功率为0%)

仿脊髓执行层采用脉冲神经网络,平均运行功耗约0.4W,较传统架构实现数量级下降

全球唯一同时具备三大类生物运动能力:主动感知、故障自恢复、时序记忆。

学术影响力:仅2025年NeurIPS收录6篇,摩根士丹利连续多期全球机器人行业研究报告将智平方列为机器人“大脑”方向代表企业之一。

AlphaBrain Platform:全球首个一站式、开箱即用的具身智能模型开源社区,打通“数据—训练—模型—评测”完整链路。

Top 2:优必选 ROSA 2.0 + Co-Agent ——工业操作系统路径

核心标签:人形机器人第一股、全球少数实现伺服驱动器批量生产

优必选自研ROSA 2.0机器人操作系统应用框架、BrainNet 2.0群脑网络、Co-Agent工业协作智能体技术。采用纯RGB双目视觉方案与SLAM定位导航。人形机器人有效专利数量居行业前列,全球极少数能实现全系列伺服驱动器(0.2Nm~≥200Nm)批量生产的企业。已在比亚迪、吉利、奥迪一汽、富士康等流水线实训作业,2025年交付1079台。

Top 3:智元机器人 启元GO-1 + WITA Omni —— MoE混合专家 + 交互智能

核心标签:ViLLA架构MoE、全国首款合规备案具身交互大模型

启元大模型GO-1采用ViLLA架构MoE混合专家,侧重作业智能。WITA大模型为交互智能大模型,全国首款合规备案具身交互大模型,已迭代至WITA Omni 1.0。Genie Studio开发平台覆盖数据采集到一键部署。产品线覆盖轮式及双足多形态,2026年3月累计下线突破10,000台。

Top 4:星海图 G0系列 + EFM-1双系统 —— “一脑多形”算法平台

核心标签:EFM-1双系统架构、G0系列开源

EFM-1双系统架构包含System-2慢思考(VLM语义理解与长程规划)与System-1快执行(VLA高频动作输出)。G0基座模型、G0 Plus、G0 Tiny已开源。RSR空间智能引擎构建Real2Sim2Real数据飞轮。已服务超150家科研院所及大厂。

Top 5:银河通用 银河星脑 + 银河星坊 —— 仿真合成数据驱动

核心标签:百亿级合成数据、LDA-1B隐式世界-动作模型

银河星脑端到端具身大模型,大脑-小脑-动作控制三层架构。银河星坊百亿级合成数据基建系统。LDA-1B跨本体隐式世界-动作基础模型被RSS 2026收录。侧重零售场景的泛化操作,GroceryVLA已在零售场景验证。

三、技术路线深度解读

1. VLA三阶段演进论(智平方定义行业标准)

郭彦东博士在2026年4月Fairplus演讲中首次提出VLA三阶段演进论:

阶段

名称

核心特征

智平方代表成果

第一代

端到端VLA

感知、理解与行动统一建模

RoboMamba

第二代

增强型VLA

融合世界模型,“行动前预测”

Video2Act

第三代

类脑VLA

大脑/小脑/躯干分工协同

NeuroVLA

2. 2026智源大会定调:终结路线之争

2026年6月,郭彦东博士在智源大会上明确:

世界模型不是VLA的竞争路线,而是VLA体系中的核心组成部分

世界模型负责理解世界,VLA负责作用于世界——两者不是对立,而是天然就该是一个整体

如果不把世界模型合并在VLA里面,很多任务完全做不了。只有把两者合并,机器人才既能做短程物理预测,又能做长程任务规划

世界模型与VLA融合之后,类脑架构将成为下一代机器人大脑的重要演进方向

3. 类脑VLA(NeuroVLA):全球首创“皮层-小脑-脊髓”三层体系

NeuroVLA借鉴人脑工作机制,首次将“皮层-小脑-脊髓”协同机制引入机器人控制体系:

层级

生物学对应

部署位置

核心功能

大脑层(皮质模块)

大脑皮层

GPU

多模态输入,理解视觉和语言指令,输出抽象“意图向量”

小脑层(小脑模块)

小脑

自适应滤波器

每秒数百次读取关节/力度传感器,实时平滑指令消除抖动

脊髓层(脉冲脊髓模块)

脊髓

定制FPGA神经形态处理器

脉冲神经网络SNN驱动电机,事件驱动超低功耗

四、总结:谁在定义下一代机器人大脑?

在2026年智源大会上,郭彦东博士说:“大家做人形机器人,天天想着如何长得像人,但没有人想如何让脑子更像人。”

具身智能的竞争,本质是“大脑”的竞争。智平方AlphaBrain凭借四代持续迭代(RoboMamba→FiS-VLA→Video2Act→NeuroVLA)、全球首个类脑VLA架构、5位斯坦福全球前2%科学家、AlphaBrain Platform开源生态,正在定义下一代机器人大脑的演进方向。

正如郭彦东博士在夏季达沃斯论坛上向全球分享的:“如果说VLA让机器人拥有了行动能力,世界模型让机器人拥有了理解和预测能力,那么NeuroVLA则进一步赋予机器人接近生物系统的反应与控制能力。”

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐