阿里连发三大具身大模型，VLN、VLA、世界模型一起跑？

深蓝学院

285人浏览 · 2026-06-20 10:15:00

深蓝学院 · 2026-06-20 10:15:00 发布

阿里发布首个完整的具身智能大模型系列Qwen-Robot

——在异构的物理世界里，“对齐” 才是规模化的前提

01 对齐先于规模

02 三个模型，三种对齐策略

Qwen-RobotNav：把 “视觉历史” 变成可调节参数

Qwen-RobotManip：用 “相机坐标系” 统一异构机器人

Qwen-RobotWorld：用 “自然语言” 统一动作空间

03 从模型到智能体：Qwen-RobotClaw 的闭环

04 与主流路径的差异

05 一个能够去往任何地方、做任何事情的物理智能体

近日，阿里巴巴正式推出Qwen-Robot 千问具身智能大模型全套套件，一口气发布三大核心模型，为机器人打造完整通用底座。

VLN移动模型：Qwen-RobotNav
VLA操作模型：Qwen-RobotManip
世界模型：Qwen-RobotWorld

用一套全新技术逻辑给出答案：在复杂异构的物理世界中，对齐能力才是模型规模化落地的核心前提。

▲Qwen-Robot Suite

01 对齐先于规模

Qwen-RobotManip 的实验给出结论：当模型没有统一的跨本体表示时，数据规模曲线是抖动的、甚至持平的。

也就是说规模化无法弥补未对齐表征框架的固有缺陷。

这与行业主流路径形成了鲜明对比。Google RT-2、DeepMind RoboCat、OpenAI π0.5 等模型，本质上走的是 “暴力堆数据” 路线：用更大的数据集、更强的算力、更统一的 tokenization 来强行抹平异构性。

而阿里的判断是：在物理世界，异构性不是可以被算力抹平的噪声，而是需要被 “对齐” 的结构性问题。

这一发现贯穿了整个 Qwen-Robot Suite。三个模型：Nav、Manip、World，分别用三种不同的对齐策略，解决三种不同类型的物理动作与语言之间的鸿沟。

▲Qwen-Robot Suite 三个基础模型

02 三个模型，三种对齐策略

Qwen-RobotNav：把 “视觉历史” 变成可调节参数

导航的核心矛盾是：不同任务对历史信息的需求差异巨大。指令跟随需要保留长程上下文，目标追踪则几乎只关注最近几帧。

任何固定的视觉分配策略都无法同时满足。

Qwen-RobotNav 的解法是将视觉分配策略本身参数化。

四个控制轴：视觉 token 预算、时间衰减、逐相机权重、帧采样模式，作为推理时参数暴露出来。

模型在 1560 万条样本上训练，同时联合视觉语言数据以保留感知能力，一套权重统一了五类导航任务。

▲Qwen-RobotNav框架

它让 Nav 天然适合作为智能体系统中的 “导航工具”。

上层规划器可以在执行过程中动态切换任务模式和上下文策略，通过反复调用同一模型来组合复杂行为。

在 EXPRESS-Bench 上，这种 “导航即工具调用” 的架构提升了 15.4% 的成功率，导航步数减少 77%。

▲Qwen-RobotNav 基准测试结果

在 Unitree Go2 四足机器人上，仅使用单个低分辨率摄像头，推理延迟 196ms，就能在从未见过的公寓中执行自由自然语言指令。这证明了对齐策略带来的泛化能力，而非过拟合。

Qwen-RobotManip：用 “相机坐标系” 统一异构机器人

操作的核心矛盾是：产线上的工业臂与厨房中的服务臂，抓取动作视觉上可能非常相似，但关节配置和动作空间截然不同。

Qwen-RobotManip 的解法是三维对齐框架：

▲Qwen-RobotManip

表示对齐：统一的 80 维状态 - 动作表示，通过维度二进制掩码兼容单臂、双臂、灵巧手等不同本体
运动对齐：相机坐标系下的末端执行器增量位姿，使视觉上相似的运动在不同机器人之间数值上也相近
行为对齐：上下文策略自适应，将执行历史视为隐式的本体标识，实现推理时在线校准

▲核心亮点，来源官网

其中，相机坐标系增量位姿是最关键的创新。

传统方法用基座坐标系或末端执行器局部坐标系表示动作，但这导致同一物理运动在不同机器人上数值差异巨大。而相机坐标系的增量位姿，让 “视觉上看到的运动” 与 “数值上表示的运动” 直接对齐。

这正是 VLA 模型需要的，因为它的输入是视觉观测。

▲QWEN-ROBOTMANIP总览

基于这一对齐框架，Qwen-RobotManip 仅依靠开源数据就构建了超过 38,100 小时的操作语料库：包括 11,320 小时开源机器人数据、1,933 小时第一人称人类视频，以及通过人 - 机迁移合成管线生成的 24,808 小时跨 15 个本体的机器人数据。

▲数据合成pipeline

在 RoboChallenge Table30 v1 通用赛道以 45% SR 排名第一，包揽冠亚，领先季军 20%；在 LIBERO-Plus 达到 91.4%，超越 π0.5 7 个百分点。

Qwen-RobotWorld：用 “自然语言” 统一动作空间

如果说 Nav 和 Manip 解决的是 “现在该做什么”，World 解决的则是 “接下来会发生什么”。

Qwen-RobotWorld 的核心设计选择是将所有动作以自然语言表达。

这将末端执行器位姿、转向指令、导航路标点统一为单一接口，使 20 余种本体类型和 500 余个动作类别得以在具身世界知识语料库（860 万视频 - 文本对，逾 2 亿帧）下协同训练。

这是因为自然语言是物理世界的 “通用坐标系”。

在大模型时代，自然语言统一了文本、图像、音频的接口；在具身智能时代，自然语言正在统一机器人的动作空间。

一个指令如 “拿起红色杯子”，隐式编码了完整的动作序列、目标状态和物理约束，无需了解底层的运动学链。

▲部分视角实例

另一个关键设计是用完整的多模态大语言模型（Qwen2.5-VL）作为动作编码器，而非轻量级文本编码器。

这带来了内化的世界知识：手臂是刚体、液体会扩散、物体会下落……从而隐式地将生成约束为物理上可信的未来。

在 WorldModelBench 上，模型在牛顿定律、质量守恒、流体动力学等物理规律遵循上达到完美分数。

▲Scene2Robot：面向跨本体视频合成的多段条件控制

不同领域的数据相互强化：操作教会接触物理，驾驶教会大尺度三维几何，导航教会房间级别的空间推理。

这种 “互补强化” 效应是单领域模型无法企及的。

03 从模型到智能体：Qwen-RobotClaw 的闭环

三个模型各自独立可用，但由于它们都提供语言优先的接口，通用 Qwen 模型可以将它们作为物理世界工具进行组合。

这就是内部项目Qwen-RobotClaw，使 Qwen VLM 智能体能够将 Qwen-Robot Suite 模型作为物理世界工具调用。

▲Chat2Robot

这种 “上层规划 + 底层执行” 的分工，大幅提升了模型在分布外场景和指令下的鲁棒性。

04 与主流路径的差异

将 Qwen-Robot Suite 放在行业坐标系中观察，可以清晰地看到阿里的差异化路径：

最值得关注的差异是数据策略。

Qwen-RobotManip 完全不依赖专有遥操作数据，而是通过人 - 机迁移合成管线将人类视频转化为机器人数据。

05 一个能够去往任何地方、做任何事情的物理智能体

Qwen-Robot Suite 是一个完整的 “第一步”，但物理世界智能仍处于起步阶段。

涉及复杂接触的长程任务、终身学习、通用规划器与物理执行器的深度融合，都仍是开放问题。

但前行的路径正愈发清晰：从强大的多模态理解出发，将视觉语言表示空间桥接至每一类物理行动，扩大训练规模，并以泛化能力作为衡量成功的北极星。

一个能够去往任何地方、做任何事情，并预见行动后果的物理智能体

——这是阿里的目标。

Ref

1、 Qwen-Robot Suite：迈向物理世界智能的基础模型套件

2、 Qwen-RobotWorld Technical Report: Unifying Embodied WorldModeling through Language-Conditioned Video Generation

3、 Qwen-RobotManip Technical Report: Alignment Unlocks Scale forRobotic Manipulation Foundation Models

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

想要微信AI助手，真没必要买Mac mini，我用N1就跑起来了

DAMO开发者矩阵

微信群机器人开发

在社群经济蓬勃发展的今天，微信群机器人已成为企业运营的重要工具。本文将从技术实现角度，深入探讨基于WTAPI平台的微信群机器人开发方案。

DAMO开发者矩阵

SDN中EVPN与VXLAN之间的关系

摘要：EVPN和VXLAN分别作为控制平面与数据平面技术协同工作，EVPN通过BGP协议实现MAC/IP路由的高效学习与发布（替代传统广播泛洪），VXLAN则提供基于UDP封装的大规模二层网络扩展能力（24位VNI支持1600万网络）。两者结合解决了传统VLAN的规模限制和STP效率问题，形成现代数据中心主流的Overlay方案。微软从NVGRE逐步转向VXLAN+BGP架构，但控制平面仍依赖SD