实测：VLA用扩散模型比自回归快100倍！

扩展规模VLA模型在不同硬件平台上的推理性能对比。扩散与自回归VLA性能对比：在动作块大小（左图）和自由度（右图）增加时，经典自回归模型（蓝色）的延迟呈指数级增长，而基于扩散的模型（绿色/橙色）则保持近乎恒定的低延迟。基于VLA-Perf的分析模型，研究团队对π₀这一代表性的VLA模型在不同硬件上的性能进行了预测，并给出了一系列关于模型缩放、长下文推理等关键问题的洞见。将所有模型组件的延迟和数据在

深蓝学院

371人浏览 · 2026-03-18 17:22:48

深蓝学院 · 2026-03-18 17:22:48 发布

你以为VLA在思考，其实它光是看清楚你在哪儿就已经“累够呛”……

——VLA的速度计算器

01 如何将VLA性能“算”出来？

02 研究亮点：一些发现

架构选择的惊人影响：扩散模型比自回归快100倍

今天这篇文章，我们将视线聚焦在VLA的推理速度上面，如何判断一个模型：它反应得够快吗？

在机器人需要与动态环境实时互动的场景下，比如抓住一个下落的物体或避开一个移动的障碍，毫秒级的延迟都可能导致任务失败。

业界普遍认为，10Hz（每秒10次决策）是可接受的实时门槛，而100Hz则是真正的高性能标准。

但是，VLA的推理性能一直是个“谜”。

模型大小、架构选择、硬件平台、网络条件……这些变量组合出了一个近乎无限的复杂空间。

我们如何知道一个800亿参数的VLA在WiFi 6网络下连接到云端GPU能跑多快？我们又该如何设计下一代模型和系统，以最低成本实现最高性能？

今天这篇来自NVIDIA团队的研究，提出了一个名为VLA-Perf的分析工具。

它就像一个VLA的“性能仪表盘”，通过一个对模型进行分析，精确预测出任意VLA在特定硬件和网络配置下的端到端推理速度。

01 如何将VLA性能“算”出来？

面对VLA推理这个由无数变量构成的“黑箱”，VLA-Perf 将整个端到端推理流程分解为一系列独立且可预测的基本组件。

一个典型的同步VLA推理过程包括：

机器人从摄像头捕捉图像，将图像数据传输给推理系统；

系统进行VLA模型的前向传播生成动作指令；

最后机器人执行动作。

这个过程必须在下一次相机捕捉到新画面之前完成，才能保证实时性。

▲图1 | 同步VLA推理时间线：整个流程从相机捕捉图像开始，到机器人执行动作为止，其总延迟必须小于相机帧间隔，才能实现实时交互。

VLA-Perf将这个流程进一步拆解为视觉编码器、VLM主干网络和动作专家三个核心模型组件，以及它们之间的数据传输过程。

对于每一个模型组件的运算，VLA-Perf都采用了高性能计算领域经典的Roofline模型进行建模。

▲图2 | VLA-Perf框架概览：它将复杂的VLA推理场景分解为模型和系统两大类配置参数，并围绕“一个模型能跑多快？”“性能瓶颈在哪里？”以及“如何设计未来系统？”这三个核心问题展开系统性分析。

Roofline模型指出，任何计算任务的性能上限，要么受限于处理器的浮点运算能力（FLOP/s），要么受限于内存带宽（Memory Bandwidth）。

通过这个模型，VLA-Perf可以精确计算出每个算子（Operator）的延迟。

将所有模型组件的延迟和数据在不同硬件（如CPU、GPU）之间传输的延迟相加，就得到了整个VLA的端到端推理延迟预测。

这个看似简单的模型，却抓住了决定性能的关键，其预测结果与在真实硬件（如RTX 4090）上运行的延迟相比，保真度高达70-80%，展现了强大的预测能力。

02 研究亮点：一些发现

架构选择的惊人影响：扩散模型比自回归快100倍

在动作生成方面，VLA通常采用自回归（Autoregressive）或扩散（Diffusion）两种范式。

传统观念认为，自回归模型逐个token生成动作，虽然精确但速度很慢。VLA-Perf的分析首次定量揭示了其速度劣势有多么巨大。

研究显示，在生成中等长度的动作序列（chunk size=50）时——

基于扩散的VLA（如论文中使用的π₀模型）比经典的自回归VLA快超过100倍！

▲图3 | 扩散与自回归VLA性能对比：在动作块大小（左图）和自由度（右图）增加时，经典自回归模型（蓝色）的延迟呈指数级增长，而基于扩散的模型（绿色/橙色）则保持近乎恒定的低延迟。

这一“堪称惊人”的根源在于计算特性。

自回归模型每生成一个token都需要进行一次完整的VLM前向传播，使其成为计算密集型任务，延迟随动作序列长度线性增长。

而扩散模型可以一次性并行生成整个动作序列，其计算主要集中在内存密集型的去噪网络上，对序列长度变化不敏感。

这一发现为未来VLA架构设计提供了明确指导：

在需要快速连续动作的场景，扩散模型是毫无疑问的最优选择。

部署策略的权衡：云端推理并非总是最优解

“将计算卸载到云端”似乎是解决端侧算力不足的万能钥匙。但对于延迟敏感的机器人任务，网络延迟可能成为新的瓶颈。

VLA-Perf 对设备端（On-device）、边缘服务器（Edge-server）和云端（Cloud）三种部署策略进行了系统性对比。

▲图4 | 不同部署方式下的端到端延迟对比：在各种网络条件下，边缘服务器（蓝色/绿色线）通常优于纯设备端推理（红色星形），但网络质量是决定性因素。

分析得出了一个“反直觉”的结论：在大多数情况下，使用本地网络连接的边缘服务器（即使只配备消费级GPU如RTX 4090）是最佳选择。

它不仅远快于纯设备端推理（在Jetson Thor上为52.6ms），而且在良好网络（如10G以太网或WiFi 7）下，其延迟（3-8ms）甚至低于连接到云端顶级B100 GPU的延迟（23.4ms）。

只有在网络条件极差（如4G网络+慢速云连接）时，云端推理的延迟才会飙升至无法接受的273.4ms。

异步推理的魔力：让吞吐量提升13倍

除了优化模型和硬件，VLA-Perf还探索了计算流程本身的优化空间，其中最亮眼的就是异步推理（Asynchronous Inference）。

在传统的同步模式下，机器人必须“等待”VLA完成思考才能行动。

而在异步模式下，VLA可以基于前一时刻的观测进行“预判”，并将推理计算与机器人的物理动作执行并行起来。

▲图5｜采用双系统（异步）推理机制带来的性能提升。该表对比展示了引入双系统推理架构前后的性能变化情况，量化分析其在推理效率、响应速度或整体系统表现方面的提升效果。

这种并行带来了巨大的性能提升，尤其是在有显著网络延迟的服务器端推理场景中。

VLA-Perf 的分析显示，在云端推理场景下，采用异步可以将系统吞吐量从同步模式下的3.7Hz提升到50.5Hz，增幅高达13.79倍！

即使在网络条件较好的WiFi 7环境下，异步也能带来2.63倍的吞吐量提升。

这一发现揭示了通过软件和系统层面的优化，可以在不改变模型或硬件的情况下，极大压榨VLA系统的性能潜力。

03 更多结论

基于VLA-Perf的分析模型，研究团队对π₀这一代表性的VLA模型在不同硬件上的性能进行了预测，并给出了一系列关于模型缩放、长下文推理等关键问题的洞见。

▲图6｜扩展规模VLA模型在不同硬件平台上的推理性能对比。该表比较了规模增大的视觉-语言-动作（VLA）模型在多种硬件平台上的推理表现，分析模型参数规模与算力平台差异对计算效率和系统性能的影响。

模型缩放：VLA的推理延迟与模型参数量大小近似线性相关。

一个标准的2.7B π₀模型在边缘设备Jetson Thor上可以跑到19Hz，但在数据中心级的B100上可以跑到惊人的314.4Hz。

而当模型扩展到81B时，只有B100还能勉强维持接近10Hz的实时推理能力。

长下文推理：随着机器人与环境交互时间的增长，VLA需要处理的上下文信息（过去的视觉帧）也越来越长。

分析表明，B100可以支持长达1000个时间步（约100秒）的实时历史回溯，而消费级的RTX 4090和边缘设备Jetson Thor则在超过100个时间步后性能便会急剧下降到10Hz以下。

▲图7｜长上下文VLA模型的推理性能与显存占用对比。该表统计并比较了不同长上下文视觉-语言-动作（VLA）模型在推理阶段的性能表现及其内存消耗情况，用于分析上下文长度扩展对计算效率与资源需求的影响。

设备-服务器协同推理：一个看似合理的想法是将计算量大的VLM主干放在服务器上，将轻量的动作专家放在设备端。

然而，VLA-Perf 的分析否定了这种方案。因为VLM的KV Cache需要在服务器和设备间传输，其带来的网络开销使得这种协同方案的性能甚至不如纯设备端推理。

▲图8｜端侧—服务器协同推理与纯服务器、纯端侧方案对比示意图。该图比较了设备—服务器协同推理架构与仅服务器部署、仅端侧部署三种方案的差异，展示不同计算分配方式在推理效率、延迟控制与资源利用方面的权衡关系。

04 总结与延伸

NVIDIA的VLA-Perf工作，首次为我们提供了一张清晰、量化的VLA推理性能地图——

将模型设计、硬件能力和系统部署这三个维度统一起来，并提炼出15条极具实践价值的“规则”。

当大模型的能力边界不断被拓宽时，如何让这些强大的“大脑”在物理世界中高效、敏捷地运行，将成为决定其能否真正落地的核心。

大家认为在机器人领域，是追求更强的模型能力更重要，还是追求更快的响应速度更关键呢？欢迎在评论区留言。

Ref

论文标题：How Fast Can I Run My VLA? Demystifying VLA Inference Performance with VLA-Perf

论文链接：https://arxiv.org/abs/2602.18397

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

AI 原生营销矩阵系统：智能线索管理与私域转化技术实现

本文从工程实践角度，深入拆解了 AI 原生营销矩阵系统的智能线索管理系统与私域转化闭环技术，详细讲解了跨平台消息统一接入、微信抖音消息互通、智能客服机器人、线索智能分配与跟进等核心技术的实现细节。通过构建完善的智能线索管理体系，能够有效解决公域获客与私域转化之间的技术鸿沟，提高客户响应速度和线索转化率，帮助企业实现营销效果的最大化。在未来，随着 AI 技术的不断发展，智能线索管理系统将变得更加智能

DAMO开发者矩阵

从人力到算力：库萨科技无人清扫车领跑无人化环卫时代

DAMO开发者矩阵

【学习笔记】BifrostUMI 论文全面解析

本文提出BifrostUMI框架，通过低成本VR-UMI接口采集人类全身演示数据，并采用分层控制策略实现人形机器人全身技能迁移。系统包含：1）无机器人数据采集系统，记录人类关键点轨迹和腕部视觉；2）高层扩散策略预测5个关键点相对位姿；3）空间关键点重定向模块（SKR）处理体型差异；4）底层全身控制器执行运动。实验在Unitree G1机器人上验证了取放和垃圾处理任务的有效性。相比现有方法，Bifr