中科院AIR-VLA+:把飞行和操控解耦了,任务完成率提升80%!

「空中机器人VLA新范式」
目录
地面机器人VLA已迭代至π0.7,但将这套方案直接套用到“无人机+机械臂”的空中复合机器人时,问题就暴露了——无人机管宏观移动,机械臂管微观对位,两者动作尺度和动力学特性完全不在一个量级。
传统端到端VLA把两类动作混在同一隐空间联合优化,结果往往是无人机漂移、机械臂丢目标、整机卡死。
中科院自动化所团队推出的AIR-VLA+,选择在特征层面解耦飞行与操控模块,通过级联双解码器+非对称MoE实现单向协同。在AIR-VLA基准上,模型综合得分48.0,任务完成率相比单头π0.5策略提升80.2%。
01 两类动作天然冲突,传统解耦方案失效
VLA依托“视觉-语言-动作”端到端链路,在地面机器人领域已走向成熟。
但空中操作机器人包含两套完全不同的运动系统:无人机动作连续平滑,以空间位移为主;机械臂动作非线性强,对定位精度要求严苛。

图 | AIR-VLA+ 的动机与成果概览
强行融合优化会引发三大问题:
- 机械臂的梯度反向干扰,造成无人机悬停震荡;
- 长时序任务中模型遗忘语义指令,沦为机械执行单元;
- 机械臂作业阶段,无人机陷入悬停或移动的决策僵局。
此前行业尝试在动作层使用Soft MoE、Hard MoE完成解耦,前者破坏动作轨迹连续性、大幅降低安全性,后者直接造成模型与求解器崩溃。
AIR-VLA+ 跳出固有思路,选择在特征层面实现解耦,从根源化解矛盾。
02 重构解码器,区别于传统补丁式优化
目前机器人VLA分为地面操作、纯飞行、空中操作三大技术路线。
空中操作方向起步较晚,过往代表性工作均基于单头模型改造,通过添加物理约束缓解问题,属于“打补丁”的优化方式。
AIR-VLA+ 与之有着本质区别:它重新设计解码器架构,为飞行、操控分别搭建独立动作流形,依托特征交互实现协同运作。
在Isaac Sim仿真平台的四大任务(基础操作、物体空间、语义理解、长时序)测试中,该模型全面超越ACT、扩散策略、原版π系列等基线。需要客观说明的是,所有实验均基于作者自建的AIR-VLA基准开展,且仅在理想仿真环境中验证,模型应对真实场景风扰、传感器噪声等问题的能力,仍有待检验。

图 | 各模型在四类任务套件上的详细性能评估
03 三大模块搭建一体化协同闭环
AIR-VLA+ 由级联双解码器、输入特征增强模块、非对称特征级MoE三大核心部分组成,形成“机械臂输出动作意图、无人机协同决策、专家网络动态适配任务阶段”的完整链路。

图 | AIR-VLA+ 非对称特征级流匹配架构总览
3.1 级联双解码器:单向信息流守住精度底线
模型拆分出两套独立解码器:机械臂解码器专注高精度动作预测,无人机解码器负责飞行控制。
架构引入stop-gradient单向传输机制,机械臂的动作意图可以传递给无人机,引导其配合作业;但无人机的梯度无法反向传播,彻底避免飞行扰动影响机械臂的精密操作。
3.2 输入特征增强:补齐语义与环境感知能力
针对无人机易遗忘指令、无法判断抓取状态的问题,模型新增两类增强特征:
一是全局语义特征,对图文指令压缩并全域广播,持续强化任务记忆;
二是视觉抓取特征,通过轻量化网络识别夹爪与物体的接触状态,让无人机实时掌握作业进度。两类特征结合机械臂意图,共同构成无人机解码器的输入。
3.3 非对称MoE:多专家网络适配全任务流程
空中操作可划分为接近目标、抓取物体、转运目标三个阶段,不同阶段对飞行状态要求不同。
模型在无人机解码器中设置3个专家网络,由路由网络根据场景动态分配权重。训练过程中,三位专家会自发形成分工,分别适配抓取、接近、转运场景。单独启用任意一个专家都会出现飞行异常,也印证了多专家协同的必要性。
路由权重计算:
特征级软融合:

图 |长时序任务中的专家路由动态

图 |专家隔离下的性能退化
3.4 动作硬缝合:划分边界,独立反向传播
模型采用维度切片方式整合输出,前4维参数控制无人机飞行,剩余维度对应机械臂动作。两套动作的损失函数沿物理边界独立反向传播,既保留各自运动特性,又输出完整动作序列,规避了传统MoE轨迹断裂的问题。
动作空间硬缝合:
04 性能优势显著,应用存在明确局限
实验数据显示,AIR-VLA+ 任务完成率大幅提升,基础操作、长时序任务成功率涨幅明显。消融实验与参数测试证明,双解码器、特征增强、单向梯度隔离、3专家配置,都是模型性能的核心支撑。

图 |详细消融研究
同时也要理性看待实验结果:该模型依托自建基准,无法与RLBench、CALVIN等主流公开数据集横向对标;实验环境为理想仿真场景,仿真到真实场景的迁移难度未知;论文未验证模型在无人机机载边缘设备的推理表现,且多专家网络在复杂动态任务中的泛化能力,仍需进一步测试。

图 |隐式专家数量的敏感性分析
05 空中VLA还有很长的路
AIR-VLA+ 最核心的价值,是为无人机、移动机械臂、人形机器人等异构复合机器人,提供了“级联解码器+特征级MoE”的通用异构协同方案,为行业开辟了新的设计思路。
放眼整个领域,空中操作VLA仍处于发展初期。
目前所有研究都局限于仿真环境,空中机器人容错率极低,仿真算法落地真实设备面临巨大挑战;现有任务仅为简单的“识别-抓取-放置”逻辑,难以应对动态障碍物、多步骤复杂指令等真实场景;此外模型性能依赖预训练骨干网络,能力上限受到制约。
整体来看,AIR-VLA+ 是一次成功的架构创新,有效解决了空中机器人动作耦合的行业难题,具备很高的参考价值。但想要实现规模化落地,还需要攻克仿真迁移、复杂场景适配、端侧部署等一系列难题。
Ref
论文:AIR-VLA+: Decoupling Movement and Manipulation via Cascaded Dual-Action Decoders with Asymmetric MoE for Aerial Robots
论文地址:https://arxiv.org/abs/2606.12859
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐



所有评论(0)