中科院AIR-VLA+：把飞行和操控解耦了，任务完成率提升80%！

深蓝学院

34人浏览 · 2026-06-22 17:15:00

深蓝学院 · 2026-06-22 17:15:00 发布

「空中机器人VLA新范式」

01 两类动作天然冲突，传统解耦方案失效

02 重构解码器，区别于传统补丁式优化

03 三大模块搭建一体化协同闭环

3.1 级联双解码器：单向信息流守住精度底线

3.2 输入特征增强：补齐语义与环境感知能力

3.3 非对称MoE：多专家网络适配全任务流程

3.4 动作硬缝合：划分边界，独立反向传播

04 性能优势显著，应用存在明确局限

05 空中VLA还有很长的路

地面机器人VLA已迭代至π0.7，但将这套方案直接套用到“无人机+机械臂”的空中复合机器人时，问题就暴露了——无人机管宏观移动，机械臂管微观对位，两者动作尺度和动力学特性完全不在一个量级。

传统端到端VLA把两类动作混在同一隐空间联合优化，结果往往是无人机漂移、机械臂丢目标、整机卡死。

中科院自动化所团队推出的AIR-VLA+，选择在特征层面解耦飞行与操控模块，通过级联双解码器+非对称MoE实现单向协同。在AIR-VLA基准上，模型综合得分48.0，任务完成率相比单头π0.5策略提升80.2%。

01 两类动作天然冲突，传统解耦方案失效

VLA依托“视觉-语言-动作”端到端链路，在地面机器人领域已走向成熟。

但空中操作机器人包含两套完全不同的运动系统：无人机动作连续平滑，以空间位移为主；机械臂动作非线性强，对定位精度要求严苛。

图 | AIR-VLA+ 的动机与成果概览

强行融合优化会引发三大问题：

机械臂的梯度反向干扰，造成无人机悬停震荡；
长时序任务中模型遗忘语义指令，沦为机械执行单元；
机械臂作业阶段，无人机陷入悬停或移动的决策僵局。

此前行业尝试在动作层使用Soft MoE、Hard MoE完成解耦，前者破坏动作轨迹连续性、大幅降低安全性，后者直接造成模型与求解器崩溃。

AIR-VLA+ 跳出固有思路，选择在特征层面实现解耦，从根源化解矛盾。

02 重构解码器，区别于传统补丁式优化

目前机器人VLA分为地面操作、纯飞行、空中操作三大技术路线。

空中操作方向起步较晚，过往代表性工作均基于单头模型改造，通过添加物理约束缓解问题，属于“打补丁”的优化方式。

AIR-VLA+ 与之有着本质区别：它重新设计解码器架构，为飞行、操控分别搭建独立动作流形，依托特征交互实现协同运作。

在Isaac Sim仿真平台的四大任务（基础操作、物体空间、语义理解、长时序）测试中，该模型全面超越ACT、扩散策略、原版π系列等基线。需要客观说明的是，所有实验均基于作者自建的AIR-VLA基准开展，且仅在理想仿真环境中验证，模型应对真实场景风扰、传感器噪声等问题的能力，仍有待检验。

图 | 各模型在四类任务套件上的详细性能评估

03 三大模块搭建一体化协同闭环

AIR-VLA+ 由级联双解码器、输入特征增强模块、非对称特征级MoE三大核心部分组成，形成“机械臂输出动作意图、无人机协同决策、专家网络动态适配任务阶段”的完整链路。

图 | AIR-VLA+ 非对称特征级流匹配架构总览

3.1 级联双解码器：单向信息流守住精度底线

模型拆分出两套独立解码器：机械臂解码器专注高精度动作预测，无人机解码器负责飞行控制。

架构引入stop-gradient单向传输机制，机械臂的动作意图可以传递给无人机，引导其配合作业；但无人机的梯度无法反向传播，彻底避免飞行扰动影响机械臂的精密操作。

3.2 输入特征增强：补齐语义与环境感知能力

针对无人机易遗忘指令、无法判断抓取状态的问题，模型新增两类增强特征：

一是全局语义特征，对图文指令压缩并全域广播，持续强化任务记忆；

二是视觉抓取特征，通过轻量化网络识别夹爪与物体的接触状态，让无人机实时掌握作业进度。两类特征结合机械臂意图，共同构成无人机解码器的输入。

3.3 非对称MoE：多专家网络适配全任务流程

空中操作可划分为接近目标、抓取物体、转运目标三个阶段，不同阶段对飞行状态要求不同。

模型在无人机解码器中设置3个专家网络，由路由网络根据场景动态分配权重。训练过程中，三位专家会自发形成分工，分别适配抓取、接近、转运场景。单独启用任意一个专家都会出现飞行异常，也印证了多专家协同的必要性。

路由权重计算：

$w_i = \text{Softmax}(\text{MLProuter}([C_{\text{global}}, f_{\text{grasp}}]))$

特征级软融合：

$\hat{v}_{\text{move}} = \sum_{i=1}^{K} w_i \cdot E_i(f_{\text{move\_input}})$

图 |长时序任务中的专家路由动态

图 |专家隔离下的性能退化

3.4 动作硬缝合：划分边界，独立反向传播

模型采用维度切片方式整合输出，前4维参数控制无人机飞行，剩余维度对应机械臂动作。两套动作的损失函数沿物理边界独立反向传播，既保留各自运动特性，又输出完整动作序列，规避了传统MoE轨迹断裂的问题。

动作空间硬缝合：

$\hat{v}_t^{(j)} = \begin{cases} \hat{v}_{move}^{(j)}, & j \in \{1, 2, 3, 4\} \\ \hat{v}_{manip}^{(j)}, & j > 4 \end{cases}$

04 性能优势显著，应用存在明确局限

实验数据显示，AIR-VLA+ 任务完成率大幅提升，基础操作、长时序任务成功率涨幅明显。消融实验与参数测试证明，双解码器、特征增强、单向梯度隔离、3专家配置，都是模型性能的核心支撑。

图 |详细消融研究

同时也要理性看待实验结果：该模型依托自建基准，无法与RLBench、CALVIN等主流公开数据集横向对标；实验环境为理想仿真场景，仿真到真实场景的迁移难度未知；论文未验证模型在无人机机载边缘设备的推理表现，且多专家网络在复杂动态任务中的泛化能力，仍需进一步测试。

图 |隐式专家数量的敏感性分析

05 空中VLA还有很长的路

AIR-VLA+ 最核心的价值，是为无人机、移动机械臂、人形机器人等异构复合机器人，提供了“级联解码器+特征级MoE”的通用异构协同方案，为行业开辟了新的设计思路。

放眼整个领域，空中操作VLA仍处于发展初期。

目前所有研究都局限于仿真环境，空中机器人容错率极低，仿真算法落地真实设备面临巨大挑战；现有任务仅为简单的“识别-抓取-放置”逻辑，难以应对动态障碍物、多步骤复杂指令等真实场景；此外模型性能依赖预训练骨干网络，能力上限受到制约。

整体来看，AIR-VLA+ 是一次成功的架构创新，有效解决了空中机器人动作耦合的行业难题，具备很高的参考价值。但想要实现规模化落地，还需要攻克仿真迁移、复杂场景适配、端侧部署等一系列难题。

Ref

论文：AIR-VLA+: Decoupling Movement and Manipulation via Cascaded Dual-Action Decoders with Asymmetric MoE for Aerial Robots

论文地址：https://arxiv.org/abs/2606.12859

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

物联网机器人设备物模型分析

DAMO开发者矩阵

NSK LW27EL 宽幅直线导轨技术手册

DAMO开发者矩阵

人形伴侣机器人落地的过渡解法

DAMO开发者矩阵

所有评论(0)

查看更多评论

深蓝学院

@soaring_casia

已为社区贡献96条内容

中科院AIR-VLA+：把飞行和操控解耦了，任务完成率提升80%！

深蓝学院

01 两类动作天然冲突，传统解耦方案失效

02 重构解码器，区别于传统补丁式优化

03 三大模块搭建一体化协同闭环

3.1 级联双解码器：单向信息流守住精度底线

3.2 输入特征增强：补齐语义与环境感知能力

3.3 非对称MoE：多专家网络适配全任务流程

3.4 动作硬缝合：划分边界，独立反向传播

04 性能优势显著，应用存在明确局限

05 空中VLA还有很长的路

所有评论(0)

温馨提示：您尚未绑定手机号

深蓝学院