具身智能领域六大国产开源VLA大模型！谁将定义机器人的通用大脑？

具身智能行业，太需要一个真正能打、真正能用、真正开源的通用大脑了。随着宇树G1在春晚舞台大展拳脚，具身智能的竞争也从硬件军备赛迈入了大脑进化战。在近半年的时间内，中国力量集体爆发，宇树、小米、阿里、自变量、千寻、星海图等团队，相继开源各自的VLA具身大模型。本文将拆解这几大国产开源模型的硬核实力，看谁在卷操作精度，谁在卷实时反应，谁又在卷工业落地！原文链接：六大开源VLA模型。

码科智能

1010人浏览 · 2026-03-02 19:35:16

码科智能 · 2026-03-02 19:35:16 发布

具身智能行业，太需要一个真正能打、真正能用、真正开源的通用大脑了。

随着宇树G1在春晚舞台大展拳脚，具身智能的竞争也从硬件军备赛迈入了大脑进化战。

在近半年的时间内，中国力量集体爆发，宇树、小米、阿里、自变量、千寻、星海图等团队，相继开源各自的VLA具身大模型。

本文将拆解这几大国产开源模型的硬核实力，看谁在卷操作精度，谁在卷实时反应，谁又在卷工业落地！

原文链接：六大开源VLA模型https://mp.weixin.qq.com/s/mS5sq9WjhFtP7E0HHNcb5Q

一、宇树开源 UnifoLM-VLA-0

UnifoLM-VLA-0 是宇树科技开源的通用视觉-语言-动作（VLA）大模型，基于 Qwen2.5-VL-7B 架构进行持续预训练，核心在于将强大的视觉语言理解能力，精准地投射到物理动作上。

硬核性能：能通过自然语言指令控制人形机器人完成复杂操作任务，包括整理物品、叠毛巾、分拣水果、工具归位、擦拭桌面等12类多步骤长程任务。

模型深度融合了2D/3D空间感知与轨迹预测，使其具备极强的空间推理能力。在LIBERO仿真基准测试中，平均准确率达98.7%。

例如，它能准确理解“将左边的积木块叠到红色积木上”这类空间关系指令，并规划出合理的抓取路径。

开源地址：https://github.com/unitreerobotics/unifolm-vla

二、小米开源 Xiaomi-Robotics-0

小米机器人团队开源了阶段性研究成果：Xiaomi-Robotics-0，是一个拥有47亿参数的VLA模型，基于 Qwen3-VL架构研发。

主要提升机器人的通用感知与实时执行能力，最突出的贡献在于解决了业界一个普遍痛点，推理延迟导致的动作卡顿。

采用“大脑+小脑”的MoT混合架构，Qwen3-VL作为“大脑”理解指令，而Diffusion Transformer作为“小脑”负责生成高频动作块。

模型能实现边想边做，支持推理与执行并行，消除延迟卡顿，保障动作连贯流畅。支持双手配合完成积木拆解、毛巾折叠等复杂长周期任务。

开源地址：https://github.com/XiaomiRobotics/Xiaomi-Robotics-0

三、阿里达摩院开源 RynnBrain

首次赋予了机器人时空记忆和物理空间推理能力，模型在16项具身开源评测中刷新纪录，超越谷歌Gemini Robotics ER 1.5等顶尖模型。

基于Qwen3-VL训练，RynnBrain能在完整的历史记忆中定位物体、预测轨迹。这意味着机器人在执行A任务被中断，转做B任务后，能自动续接A任务，并清楚记得当时的时间和空间状态。

阿里一次开源了7个全系列模型，包括业界首个30B MoE架构具身模型，仅需3B激活参数即可实现高效推理。

模型支持环境感知、对象推理、第一人称视觉问答、空间推理与轨迹预测等16项具身能力。

开源地址：https://github.com/alibaba-damo-academy/RynnBrain

四、星海图开源 VLA G0 Tiny

G0 Tiny 是星海图开源的面向端侧部署的具身智能应用模型，在仅 250M 参数规模下，依然保留完整的视觉与语言理解能力，实现小模型、全能力的高效设计。

作为首个开源端侧部署VLA模型，提供R1 Pro开箱即用的物品传递体验。开箱即可实现「万物抓取」与「衣物折叠」等高泛化操作体验，为多场景应用提供更稳定的基础模型能力。

几条命令即可5分钟内部署，支持TensorRT 量化部署，在NVIDIA Orin平台实现端侧 10Hz 实时推理。

开源地址：https://github.com/OpenGalaxea/GalaxeaVLA

五、自变量开源 WALL-OSS

自变量机器人开源的 WALL-OSS 仅用 4.2B参数击碎"模态统一、动作精度、能力泛化"不可能三角，是唯一一个具备语言、视觉、动作多模态端到端统一输出能力的开源具身模型。

架构创新：4.2B参数的模型，首创“共享注意力+专家分流”架构，将语言、视觉、动作统一在同一个表示空间处理，既避免了知识遗忘，又保留了各模态的独特表达能力。

其两阶段训练策略和统一跨层级思维链，让模型具备了内生的高级推理能力。在面对从未见过的任务时，它能自主拆解步骤、逐步思考。

开源地址：https://github.com/X-Square-Robot/wall-x

六、千寻开源 Spirit v1.5

千寻智能开源的 Spirit v1.5 在被称为机器人“全球统考”的RoboChallenge真机评测中，以总分66.09的成绩超越美国的pi 0.5，登顶第一。

预训练阶段大量使用包含丰富多样性的互联网视频，建立对真实物理世界的广泛认知，再用高质量遥操作数据微调。

这种方法训练出的模型，抗干扰能力和泛化能力极强。在多项任务中保持较高成功率，尤其在多任务连续执行、复杂指令拆解以及跨构型迁移等维度中表现稳定。

开源地址：https://github.com/Spirit-AI-Team/spirit-v1.5

2026年，或许就是具身智能从“动起来”到“用起来”的转折之年。而这六大国产模型，正以开源之名，为这个未来铺设最坚实的起跑板！

原文链接：谁将定义机器人的通用大脑？

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

老板要的不是聊天机器人：一篇讲明白企业级 Agent 怎么搭

这篇文章用大白话讲清楚企业级 Agent 是什么、需要哪些工具、正确的落地路线是什么，并用报销审核案例说明 Agent 为什么不是聊天机器人。

DAMO开发者矩阵

从场景落地到技术迭代：服务机器人迈入规模化商用爆发期

采用8nm工艺，搭载6TOPS NPU算力，支持8K编解码、多传感器融合、高精度力控、复杂环境自主导航、机械臂动态运动规划，算力性能强劲、体积小巧、功耗可控，可支撑人形康养机器人、高端AI理疗机器人、工业级AMR、四足巡检机器人等高负载、高智能需求的高端设备开发。商用服务机器人主要应用于酒店、商场、写字楼、园区等公共场景，可实现迎宾引路、物品配送、清洁消杀、导购讲解、安防巡逻等标准化重复作业，核心