本文汇总分析VLA常见的三类范式——自回归离散预测、扩散模型、流匹配,分别梳理其代表性模型、最新模型、高性能模型、SOTA模型,并附核心特点与发布/进展时间,便于快速对比。

  • 🐳自回归离散:推理简单、语言理解强;但误差累积、串行推理慢、高频/连续动作不友好
  • ⌚️扩散模型:并行、全局一致性、抗长程误差;但采样步骤多、计算成本高、推理延迟
  • 🚀 流匹配:兼具扩散全局建模+更高效训练/采样、平滑连续动作、适配高频控制;是当前VLA连续动作生成的前沿方向

一、自回归离散预测 VLA

核心机制:将连续动作离散化为token以左到右自回归方式逐token预测,复用VLM的下一个token预测(NTP)目标,实现端到端训练

模型名称 论文全称 开源地址 核心定位
RT-2 RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control 项目页:https://robotics-transformer2.github.io/ VLA奠基之作,将互联网规模VLM知识迁移至机器人控制,实现涌现的语义推理与符号理解(CoRL 2023,Google DeepMind)
OpenVLA (7B) OpenVLA: An Open-Source Vision-Language-Action Model GitHub: https://github.com/openvla/openvla
项目页: https://openvla.github.io/
开源通用VLA基座,基于Llama 2+CLIP自回归生成离散动作token,97万真实演示训练,支持跨本体零样本(斯坦福/伯克利等)
π₀-FAST FAST: Efficient Action Tokenization for Vision-Language-Action Models GitHub: https://github.com/Physical-Intelligence/openpi π₀自回归变体,采用FAST动作分词将连续动作编码为离散token序列,兼容π0接口(Physical Intelligence)

1. 代表性模型

  • RT-2:谷歌DeepMind,VLA奠基之作,将机器人动作离散化为token,融入PaLM-E等VLM,实现基础视觉-语言-动作闭环(CoRL 2023)
  • OpenVLA :斯坦福等2024,基于Prismatic-7B/Llama 2,融合DINOv2+SigLIP视觉特征,在97万真实机器人演示上训练,开源通用VLA基座标杆

2. 最新模型(2025下半年-2026初)

  • π₀-FAST:Physical Intelligence 2025,在π₀基础上引入FAST动作分词,将连续动作编码为离散token序列,兼容π0接口,提升自回归动作生成效率

3. 高性能模型

  • OpenVLA 7B:开源标杆,在BridgeData、Language-Table等机器人基准上性能优异,支持参数高效微调(LoRA/QLoRA),适配多机械臂
  • RT-2 (fine-tuned):持续迭代优化,在真实场景指令跟随、长程任务中保持高可靠性,具备涌现的语义推理能力

二、扩散模型 VLA

核心机制:将动作视为连续信号/离散token序列通过迭代去噪生成并行生成、全局优化、抗误差累积,适合长程规划、轨迹级动作

模型名称 论文全称 开源地址 核心定位
Octo Octo: An Open-Source Generalist Robot Policy GitHub: https://github.com/octo-models/octo 基于Transformer的通用机器人策略,采用Diffusion Head生成动作,支持多机器人平台与灵活任务微调(93M参数,伯克利等)
Dream-VLA Dream-VL & Dream-VLA: Open Vision-Language and Vision-Language-Action Models with Diffusion Language Model Backbone GitHub: https://github.com/DreamLM/dream-vlx
项目页: https://dreamlm.github.io/dream/
基于离散扩散LLM骨干,实现长时规划与复杂任务推理(港大/华为)
LLaDA-VLA LLaDA-VLA: Vision Language Diffusion Action Models GitHub: https://github.com/wenyuqing/llada-vla 基于掩码扩散(Masked Diffusion)的层级轨迹预测,优化动作一致性
DiVLA DiffusionVLA: Scaling Robot Foundation Models via Unified Diffusion and Autoregression GitHub: https://github.com/juruobenruo/DexVla 扩散+自回归混合:自回归推理规划,扩散策略生成动作,平衡语言理解与连续控制(北大)
HybridVLA HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model GitHub: https://github.com/PKU-HMI-Lab/Hybrid-VLA 扩散+自回归协作:单模型内扩散负责动作生成、自回归负责语义推理,缓解模态断裂(北大)

1. 代表性模型

  • Octo:伯克利等2024,基于Transformer的通用机器人策略,采用Diffusion Head生成动作(非自回归),支持多机器人平台与灵活任务微调(93M参数)
  • LLaDA-VLA:2025,首个大语言扩散模型(LLaDA)拓展的VLA掩码扩散+层级动作解码,改善轨迹一致性
  • Dream-VLA (Dream-7B):港大/华为2025,离散扩散LLM+视觉对齐,双向上下文、并行生成,长时规划领域代表
  • DiVLA (DiffusionVLA):北大2025,扩散+自回归混合:自回归推理规划,扩散策略生成动作,引入推理注入模块平衡语言理解与连续控制

2. 最新模型(2025下半年-2026初)

  • HybridVLA:北大2025,融合自回归与扩散生成于单模型、统一token序列,单模型内扩散负责动作生成、自回归负责语义推理,缓解动作连续性断裂问题
  • WAM-Diff:复旦2025,端到端自动驾驶VLA,离散掩码扩散+MoE+在线RL优化,提升全局一致性与长时规划性能

3. 高性能模型

  • Dream-VLA:长程轨迹、全局一致性任务表现突出,在多模态指令跟随、多步操作中降低误差累积
  • LLaDA-VLA:在SimplerEnv、CALVIN仿真、WidowX真实机械臂上性能领先,优于OpenVLA等自回归模型

4. SOTA模型

  • 掩码扩散路线:LLaDA-VLA
  • 离散扩散路线:Dream-VLA
  • 混合范式:DiVLA(兼顾语言推理与连续动作鲁棒性)、HybridVLA(单模型内双范式协作)

三、流匹配(Flow Matching) VLA

核心机制:学习连续速度场将高斯噪声平滑映射到目标动作分布;相较扩散训练更简单(单MSE损失)、采样效率更高(更少步骤)

本质是扩散的数学推广,建模连续动作、适合高频控制

模型名称 论文全称 开源地址 核心定位
π₀ (pi0) π₀: A Vision-Language-Action Flow Model for General Robot Control GitHub: https://github.com/Physical-Intelligence/openpi 首个流匹配VLA,基于PaliGemma,50Hz高频动作块生成,支持复杂灵巧操作(Physical Intelligence)
π₀.5 π₀.5: A Vision-Language-Action Model with Open-World Generalization GitHub: https://github.com/Physical-Intelligence/openpi π₀升级,多源异构数据协同训练,实现开放世界泛化与长时精细操控(CoRL 2025)
π₀.6 π*₀.6: Reinforced Flow Matching for Complex Dexterous Manipulation (Model Card) (没开源)技术报告:https://pi.website/blog/pistar06 基于π0.5的增强版,采用RECAP框架(离线RL+在线RL+人类纠正),当前流匹配路线综合SOTA(Physical Intelligence)
AsyncVLA AsyncVLA: Asynchronous Flow Matching for Vision-Language-Action Models GitHub: https://github.com/yuhuajiang2002/asyncvla 异步流匹配架构,解耦感知-预测与动作执行,实现自校正与更高控制频率(上海AI Lab)
πRL πRL: Online Reinforcement Learning for Flow-based Vision-Language-Action Models GitHub:https://github.com/RLinf/RLinf 首个在线RL微调流式VLA(π0/π0.5)框架,提出Flow-Noise与Flow-SDE两种方法实现精确对数似然估计,突破模仿学习局限(清华)
SmolVLA SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics GitHub: https://github.com/huggingface/lerobot 轻量级VLA(450M参数),基于流匹配动作专家,单GPU可训练、CPU可部署,支持异步推理(Hugging Face开源)
DM0 DM0: Embodied Spatial Reasoning Enhanced Flow Matching VLA GitHub: https://github.com/Dexmal/dexbotic 具身空间推理增强,构建四层分层辅助预测目标(子任务→BBox→轨迹→离散动作)形成空间思维链,支持操作与导航

1. 代表性模型

  • π₀ (pi0):Physical Intelligence 2025,首个流匹配VLA;基于PaliGemma,VLM主干+流匹配动作头,50Hz高频、动作块并行生成;摒弃离散token,直接建模连续动作,适配灵巧操作
  • SmolVLA:Hugging Face 2025,轻量级VLA(450M参数),基于流匹配动作专家,单GPU可训练、CPU可部署,支持异步推理,兼顾通用多模态能力与具身控制

2. 最新模型(2025下半年-2026初)

  • π₀.5:Physical Intelligence 2025年4月,π₀升级;多源异构数据协同训练、分层决策、开放世界泛化显著提升,支持10-15分钟长时精细操控(CoRL 2025)
  • π*₀.6 (RECAP增强版):Physical Intelligence 2025年11月;基于π0.5采用RECAP框架(离线RL+在线RL+人类纠正),解决流模型无显式log概率梯度难更新问题;意式浓缩咖啡、衣物折叠等复杂任务表现优异,暂未完全开源
  • AsyncVLA:上海AI Lab 2025年末,异步流匹配,解耦感知-预测与动作执行,选择性动作再生、异步时间嵌入;自校正优化,刷新机器人操作SOTA
  • DiG-Flow:北大等2025末,差异引导流匹配(Discrepancy-Guided),通过不匹配信号增强特征表示,提升分布偏移、复杂多步任务下的鲁棒性
  • πRL:清华2026初,首个在线RL微调流式VLA(π0/π0.5)框架,提出Flow-Noise与Flow-SDE两种方法实现精确对数似然估计,突破模仿学习局限
  • DM0:Dexmal 2026初,具身空间推理增强流匹配VLA,构建四层分层辅助预测目标(子任务→BBox→轨迹→离散动作)形成空间思维链,支持操作与导航双任务

3. 高性能模型

  • π₀.5:兼顾全局一致性与高频执行,适配7种机械臂、开放场景零样本泛化
  • π*₀.6:当前π系列性能最强;强化微调+流匹配结合,融合RL与监督学习,突破纯模仿学习上限
  • SmolVLA:小参数规模(450M)下实现高性能,支持边缘部署与异步推理,训练成本极低

4. SOTA模型

  • 流匹配VLA当前综合SOTA:π*₀.6;在真实机器人复杂灵巧操作、长时任务、分布外泛化上处于领先水平
  • 空间推理增强SOTA:DM0;通过四层分层空间思维链,实现从高层语义到低层动作的渐进式约束
  • 在线RL微调SOTA:πRL;首个实现流匹配VLA的在线RL微调,突破传统模仿学习局限

四、VLA排行榜

以下信息截止更新于:2026/02/26,官网排行榜会持续更新的~

1、LIBERO 基准测试榜单

LIBERO 是一个终身机器人学习基准,包含 130 个语言条件操作任务。

排行地址:https://sota.evomind-tech.com/benchmarks/libero/

在这里插入图片描述

2、LIBERO Plus 基准测试榜单

LIBERO Plus 是一个扩展基准测试,测试模型在 7 个扰动维度上的鲁棒性:相机、机器人、语言、光照、背景、噪声和布局。

排行地址:https://sota.evomind-tech.com/benchmarks/liberoplus/

在这里插入图片描述

3、RoboChallenge 基准测试榜单

RoboChallenge 是一个综合性基准测试,用于评估具身智能体在真实世界机器人操作任务中的表现,涵盖多样化的物体和场景。

排行地址:https://sota.evomind-tech.com/benchmarks/robochallenge/

在这里插入图片描述

4、CALVIN 基准测试榜单

CALVIN 是一个在桌面操作环境中学习长视野语言条件任务的基准。

排行地址:https://sota.evomind-tech.com/benchmarks/calvin/

在这里插入图片描述

五、VLA训练框架/工具

5.1、Dexbotic 一站式 具身智能 VLA开发工具箱

Dexbotic 是一个基于 PyTorch 构建的开源 VLA 模型工具,面向具身智能领域的研究者和开发者,提供一站式的 VLA 研究服务。

开源地址:https://github.com/Dexmal/dexbotic

🏗️ 系统架构,如下图所示:

从数据来源到模型训练、推理,再到仿真与真实世界部署,形成了一个闭环的具身智能开发体系。

在这里插入图片描述

核心模块拆解
模块 核心作用 关键组件/特性
Embodiments(具身载体) 提供多源机器人数据输入 支持 UR5、Franka、ALOHA 等主流机械臂及其他机器人平台,产生原始数据(Raw Data)
Data Layer(数据层) 统一数据格式与处理 - Dexdata Format:定义标准化数据结构,兼容多源机器人数据
- Dexdata Process:提供数据清洗、格式转换(如 LeRobot/RLDS → Dexdata)
Modular Framework(模块化框架) 核心模型训练与推理引擎 - Vision Encoder:CLIP、sigLIP、PE 等视觉编码器
- LLM:Qwen、StepFun、PaliGemma 等大语言模型
- Action Expert扩散模型流匹配离散自回归预测 等动作生成策略
- VLA模型: 支持 π0、π0.5DM0、OFT、CogACT、MemVLA 等主流 VLA 模型
- 微调算法: SFT监督微调、GRPO
Experiment Layer(实验层) 管理训练与推理全流程 - Experiment Centric:以实验为核心的配置与调度
- Training PPL:分布式训练管线(支持 DeepSpeed 优化)
- Inference PPL:实时推理服务(支持 API 调用)
Simulation & Real World(仿真与真实视觉) 模型评估与验证 - 仿真环境:用于快速迭代与基准测试
- 真实世界:验证模型在物理场景中的泛化能力
Infra(基础设施) 提供灵活算力支持 - 云服务:阿里云、火山引擎等大规模云端训练平台
- 消费级 GPU:RTX 4090/5090 等本地训练部署
🌟 核心特性
统一的模块化 VLA 框架
  • 围绕 VLA 模型构建,兼容主流大语言模型的开源接口
  • 整合具身操作与导航能力,支持多种领先的具身操作/导航策略
  • 预留全身控制接口,适配未来技术演进
多机器人训练与部署支持
  • 支持 UR5、Franka、ALOHA 等主流机器人平台
  • 提供统一的训练数据格式与通用化部署脚本
  • 持续扩展更多主流机器人平台适配
云/本地灵活训练
  • 支持阿里云、火山引擎等大规模云端训练平台
  • 适配消费级 GPU(如 RTX 4090)的本地训练场景
标准化数据体系
  • 定义统一的 Dexdata 数据格式,兼容多源机器人数据
  • 提供 LeRobot、RLDS(Libero)等数据集的转换脚本

5.2、RLinf 为具身智能和智能体而生的强化学习框架

RLinf 是一个灵活且可扩展的开源框架,专为具身智能和智能体而设计。

名称中的 “inf” 既代表 Infrastructure,强调其作为新一代训练坚实基础的作用;也代表 Infinite,寓意其支持开放式学习、持续泛化以及智能发展的无限可能。

代码地址:https://github.com/RLinf/RLinf

在这里插入图片描述

🌟 核心特性

RLinf具有高度灵活性,可支持多种强化学习训练工作流(PPO、GRPO、SAC等),同时隐藏了分布式编程的复杂性。用户无需修改代码即可轻松将强化学习训练扩展至大量GPU节点,满足强化学习训练日益增长的计算需求。

这种高灵活性使 RLinf 能够探索更高效的调度与执行模式。在具身强化学习中,混合执行模式的吞吐量可达现有框架的 2.434 倍。

多后端集成支持

  • FSDP + HuggingFace/SGLang/vLLM: 快速适配新模型与新算法,非常适合初学者和快速原型验证。
  • Megatron + SGLang/vLLM: 针对大规模训练进行了优化,为专家用户提供最大化效率。
具身智能
模拟器 真机 模型 算法

智能体强化学习
Single-Agent Multi-Agent
  • WideSeek-R1

5.3、LeRobot

LeRobot 提供基于 PyTorch 的机器人模型、数据集和工具,以应用于现实世界的机器人项目。目标是降低准入门槛,让每个人都能参与共享数据集和预训练模型的开发并从中受益。

开源地址:https://github.com/huggingface/lerobot/tree/main

  • 🤗 全面支持开源生态系统。一个与硬件无关、Python 原生的接口,可标准化跨各种平台的控制,从低成本机械臂(SO-100)到人形机器人。

  • 🤗 标准化的、可扩展的 LeRobotDataset 格式(Parquet + MP4 或图像)托管在 Hugging Face Hub 上,可实现海量机器人数据集的高效存储、流式传输和可视化。

在这里插入图片描述

  • LeRobot 提供统一的Robot类接口,将控制逻辑与硬件细节解耦。它支持多种机器人和远程操作设备。

  • 支持的硬件: SO100、LeKiwi、Koch、HopeJR、OMX、EarthRover、Reachy2、游戏手柄、键盘、手机、OpenARM、Unitree G1。

  • 可以轻松地实现 Robot 接口,从而利用 LeRobot 的数据采集、训练和可视化工具来开发自己的定制机器人。参考链接:https://huggingface.co/docs/lerobot/integrate_hardware

下面是支持的模型与方案:

Category Models
Imitation Learning ACT, Diffusion, VQ-BeT
Reinforcement Learning HIL-SERL, TDMPC & QC-FQL (coming soon)
VLAs Models Pi0Fast, Pi0.5, GR00T N1.5, SmolVLA, XVLA

下面是提供参考学习的:

综述汇总 awesome-embodied-vla-va-vln:https://github.com/jonyzhang2023/awesome-embodied-vla-va-vln

综述汇总 Awesome-RL-VLA:https://github.com/Denghaoyuan123/Awesome-RL-VLA

综述汇总 Awesome-VLA:https://github.com/yueen-ma/Awesome-VLA

分享完成,后续会持续更新~

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐