VLA(Vision-Language-Action)最新研究进展报告

时间范围:2026年1月23日 - 2026年1月30日

概述

本报告总结了arXiv平台上最近一周发布的VLA(Vision-Language-Action)相关论文。这一周的研究呈现出几个重要趋势:

  1. 多模态融合增强 - 更多研究专注于融合触觉、力觉等多模态信息
  2. 动态场景适应 - 针对动态环境的VLA模型改进
  3. 效率优化 - 知识蒸馏、令牌修剪等技术提升推理效率
  4. 安全性提升 - 碰撞避免、风险评估等安全机制
  5. 新应用领域 - 空中操作、手术机器人等新场景

按日期分类的论文汇总

2026年1月29日

1. DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation
  • 作者:Haozhe Xie, Beichen Wen, Jiarui Zheng, Zhaoxi Chen, Fangzhou Hong, Haiwen Diao, Ziwei Liu
  • 主要贡献
    • 提出DynamicVLA框架,专门处理动态物体操作
    • 解决现有VLA模型在静态操纵上表现好,但在动态场景中遇到困难的问题
    • 集成时间推理、时间预测和连续控制能力
    • 支持快速感知、时间预测和持续控制
2. MetricAnything: Scaling Metric Depth Pretraining with Noisy Heterogeneous Sources
  • 作者:Baorui Ma, Jiahui Yang, Donglin Di, Xuancheng Zhang, Jianxun Cui, Hao Li, Yan Xie, Wei Chen
  • 主要贡献
    • 扩展度量深度预训练方法
    • 使用噪声异构源进行大规模预训练
    • 无提示的学生模型在单目深度估计、相机内参恢复、单/多视角度量3D重建和VLA规划上达到SOTA结果
    • 预训练ViT作为视觉编码器显著提升多模态大语言模型的空间智能能力
3. MoE-ACT: Improving Surgical Imitation Learning Policies through Supervised Mixture-of-Experts
  • 作者:Lorenzo Mazza, Ariel Rodriguez, Rayan Younis, Martin Lelis, Ortrun Hellig, Chenpan Li, Sebastian Bodenstedt, Martin Wagner, Stefanie Speidel
  • 主要贡献
    • 通过监督混合专家(Mixture-of-Experts)改进手术模仿学习策略
    • 模仿人类外科医生,在变形组织上执行有针对性抓取和持续牵拉
    • 与SOTA VLA模型和标准ACT基线进行基准测试
    • 通用VLA模型即使在标准分布设置下也无法完全获取任务
4. CoFreeVLA: Collision-Free Dual-Arm Manipulation via Vision-Language-Action Model and Risk Estimation
  • 作者:Xuanran Zhai, Binkai Ou, Yemin Wang, Hui Yi Leong, Qiaojun Yu, Ce Hao, Yaohua Liu
  • 主要贡献
    • 通过VLA模型和风险评估实现无碰撞双臂操作
    • 解决双臂部署中的安全问题:手臂和被抓物体之间的自碰撞建模不足
    • 用短视界自碰撞风险估计器增强端到端VLA
    • 预测类似碰撞事件以避免自碰撞
5. AIR-VLA: Vision-Language-Action Systems for Aerial Manipulation
  • 作者:Jianli Sun, Bin Tian, Qiyao Zhang, Chengxiang Li, Zihan Song, Zhiyong Cui, Yisheng Lv, Yonglin Tian
  • 主要贡献
    • 首个针对空中操作系统(AMS)的VLA系统
    • 解决AMS的固有特性:浮动基座动力学、UAV与操纵器强耦合、多步长视界任务
    • VLA模型在基于地面的具身智能中取得成功,但在AMS应用仍是未开发领域
    • 处理空中的复杂动力学和控制挑战

2026年1月28日

6. Demonstration-Free Robotic Control via LLM Agents
  • 作者:Brian Y. Tsui, Alan Y. Fang, Tiffany J. Hwu
  • 主要贡献
    • 探索通用大语言模型(LLM)智能体框架是否可以替代VLA模型
    • VLA模型虽然性能强,但通常需要任务特定演示和微调,在域偏移下泛化能力差
    • 最初为软件工程开发的LLM智能体框架可能成为机器人控制的有力替代方案
    • 提出无需演示的机器人控制方法
7. Tactile-Force Alignment in Vision-Language-Action Models for Force-aware Manipulation
  • 作者:Yuzhe Huang, Pei Lin, Wanlin Li, Daohan Li, Jiajun Li, Jiaming Jiang, Chenxi Xiao, Ziyuan Jiao
  • 主要贡献
    • 解决VLA模型缺乏接触丰富任务所需的物理直觉问题
    • 由于主要依赖视觉模态,VLA模型缺乏精确力调节和物理推理能力
    • 提出触觉-力对齐方法,将触觉和力信息与视觉特征对齐
    • 支持需要精确力控制的接触丰富任务
8. Shallow-π: Knowledge Distillation for Flow-based VLAs
  • 作者:Boseong Jeon, Yunho Choi, Taehan Kim
  • 主要贡献
    • 机器人实时部署需求需要对VLA模型进行快速和设备端推理
    • 提出基于流(Flow-based)的VLA知识蒸馏方法
    • 从大型教师模型蒸馏到浅层学生模型
    • 在保持性能的同时显著减少计算开销和推理延迟

2026年1月27日

9. AC²-VLA: Action-Context-Aware Adaptive Computation in Vision-Language-Action Models for Efficient Robotic Manipulation
  • 作者:Wenda Yu, Tianshi Wang, Fengling Li, Jingjing Li, Lei Zhu
  • 主要贡献
    • 动作上下文感知的自适应计算框架
    • 解决VLA模型闭环部署受限于高延迟和高计算成本的问题
    • 观察到:并非每个时间步都需要完整的大规模VLM推理
    • 根据动作上下文自适应调整计算量

2026年1月26日

10. A Pragmatic VLA Foundation Model
  • 作者:Wei Wu, Fan Lu, Yunnan Wang, Shuai Yang, Shi Liu, Fangjing Wang, Qian Zhu, He Sun, Yong Wang等(28位作者)
  • 主要贡献
    • 提出LingBot-VLA基础模型
    • 基于20,000小时真实世界机器人数据训练
    • 专注于跨任务和平台的忠实泛化,同时确保成本效率
    • 在数据自适应和GPU小时方面的成本效率优化
11. TC-IDM: Grounding Video Generation for Executable Zero-shot Robot Motion
  • 作者:Weishi Mi, Yong Bao, Xiaowei Chi, Xiaozhu Ju, Zhiyuan Qin, Kuangzhi Ge, Kai Tang, Peidong Jia, Shanghang Zhang, Jian Tang
  • 主要贡献
    • VLA范式的替代方法:基于生成世界模型的机器人控制
    • 解决VLA依赖大规模高质量机器人数据限制其泛化能力的问题
    • 生成世界模型提供通用具身AI的有前景替代方案
    • 弥合像素级规划和物理现实之间的关键差距

2026年1月25日

12. PEAfowl: Perception-Enhanced Multi-View Vision-Language-Action for Bimanual Manipulation
  • 作者:Qingyu Fan, Zhaoxiang Li, Yi Lu, Wang Chen, Qiu Shen, Xiao-xiao Long, Yinghao Cai, Tao Lu, Shuo Wang, Xun Cao
  • 主要贡献
    • 感知增强的多视角VLA策略,用于双手操作
    • 解决现有方法中语言作为全局条件导致粗糙指令定位的问题
    • 对于空间推理,PEAfowl预测每个令牌的深度分布
    • 执行可微分3D提升,聚合跨视图邻域

2026年1月24日

13. SPACE-CLIP: Spatial Perception via Adaptive CLIP Embeddings for Monocular Depth Estimation
  • 作者:Taewan Cho, Taeryang Kim, Andrew Jaeyong Choi
  • 主要贡献
    • 单目深度估计的自适应CLIP嵌入
    • 不仅作为独立深度估计器,而是下一代具身AI系统(如VLA模型)的现成集成空间感知模块
    • 开源实现:https://github.com/taewan2002/space-clip

2026年1月23日

14. ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance
  • 作者:Zhuohao Li, Yinghao Li, Jian-Jian Jiang, Lang Zhou, Tianyu Zhang, Wei-Shi Zheng
  • 主要贡献
    • 减少VLA模型中的错误完成问题
    • 解决现有方法直接融合本体感觉信号与VLM编码视觉-语言特征导致状态主导偏差的问题
    • 即使可见执行失败,仍会错误地报告完成
    • 通过视觉-本体感觉重新平衡解决这个问题

其他重要论文(补充)

15. IVRA: Improving Visual-Token Relations for Robot Action Policy with Training-Free Hint-Based Guidance
  • 提交日期:2026年1月22日
  • 主要贡献
    • 通过基于提示的无训练引导改进视觉令牌关系
    • 许多VLA模型将图像补丁展平为1D令牌序列,削弱了精确操作所需的2D空间线索
    • 轻量级、无训练方法,利用模型内置视觉编码器中的亲和力提示
16. DTP: A Simple yet Effective Distracting Token Pruning Framework for Vision-Language Action Models
  • 提交日期:2026年1月22日
  • 主要贡献
    • 简单而有效的干扰令牌修剪框架
    • VLA模型利用VLM的强大感知能力,但存在无关视觉信息
    • 通过修剪干扰令牌减少计算负担,提高推理效率
17. CompliantVLA-adaptor: VLM-Guided Variable Impedance Action for Safe Contact-Rich Manipulation
  • 提交日期:2026年1月21日
  • 主要贡献
    • 通过VLM指导的可变阻抗控制(VIC)增强VLA模型
    • 提高接触丰富机器人操纵任务的安全性和有效性
    • 上下文感知的可变阻抗控制,提高接触任务的适应性

主要趋势分析

1. 效率优化成为重点

多篇文章关注VLA模型的推理效率提升:

  • 知识蒸馏:Shallow-π通过蒸馏减少计算开销
  • 自适应计算:AC²-VLA根据动作上下文自适应调整计算量
  • 令牌修剪:DTP和IVRA通过去除无关信息优化推理

2. 多模态融合深入发展

研究人员正超越纯视觉VLA,融合更多模态:

  • 触觉融合:Tactile-Force Alignment加入力觉和触觉
  • 深度感知:MetricAnything和SPACE-CLIP增强3D空间理解
  • 本体感觉:ReViP优化视觉-本体感觉平衡

3. 动态环境适应能力

多篇论文针对动态和复杂环境:

  • 动态对象:DynamicVLA专门处理运动物体
  • 空中操作:AIR-VLA针对UAV和机械臂耦合系统
  • 双手操作:PEAfowl支持复杂双手协同任务

4. 安全性机制强化

安全成为VLA部署的关键考量:

  • 碰撞避免:CoFreeVLA通过风险评估避免自碰撞
  • 接触安全:CompliantVLA-adaptor通过可变阻抗提高接触安全性
  • 风险评估:多种风险评估和预防机制被提出

5. 应用场景扩展

VLA模型正在扩展到新的应用领域:

  • 医疗手术:MoE-ACT专注手术机器人
  • 空中机器人:AIR-VLA针对UAV系统
  • 教育场景:Pedagogical Alignment面向教育应用

技术创新要点

架构创新

  1. 混合专家架构:MoE-ACT采用Mixture-of-Experts
  2. 时间推理集成:DynamicVLA加入时间预测能力
  3. 多视角融合:PEAfowl的多视角3D提升
  4. 分层架构:AC²-VLA的自适应计算层

训练策略

  1. 大规模预训练:MetricAnything的异构源预训练
  2. 无演示学习:LLM Agents的零样本方法
  3. 知识蒸馏:Shallow-π的教师-学生框架
  4. 持续学习:CLARE的自主适配器路由

评估方法

  1. 物理现实差距:TC-IDM的像素-现实对齐
  2. 安全性评估:CoFreeVLA的碰撞风险建模
  3. 多任务泛化:Being-H0.5的跨具身泛化
  4. 细粒度指标:The Great March 100的100项详细任务

开源资源

以下是本周期提到的开源项目:

  1. SPACE-CLIP:https://github.com/taewan2002/space-clip

    • 单目深度估计的自适应CLIP嵌入
    • 可作为VLA模型的空间感知模块
  2. MetricAnything

    • 度量深度预训练框架
    • 支持多模态空间推理
  3. The Great March 100:https://rhos.ai/research/gm-100

    • 100项详细任务评估具身AI智能体
    • 区分不同VLA模型性能

未来展望

短期趋势(1-3个月)

  • 更多关注实时部署优化
  • 多模态融合技术成熟
  • 安全性机制标准化

中期趋势(3-6个月)

  • VLA模型在不同具身平台的泛化能力提升
  • 与大语言模型的深度融合
  • 新应用领域涌现

长期趋势(6-12个月)

  • VLA成为机器人控制的标准范式
  • 自适应学习机制成熟
  • 跨任务零样本泛化成为标准能力

总结

2026年1月23-30日这一周的VLA研究呈现出蓬勃发展的态势。主要特点包括:

  1. 研究数量众多:一周内发表了超过15篇VLA相关高质量论文
  2. 技术深度增加:从简单的视觉-语言-行动映射发展到复杂的多模态融合
  3. 应用广泛化:从传统机器人操作扩展到医疗、航空、教育等领域
  4. 效率重视:知识蒸馏、自适应计算等技术受到重视
  5. 安全强化:多种安全机制和风险评估方法被提出

这一周的研究表明VLA领域正从学术探索向实用化方向发展,技术逐渐成熟,应用场景不断扩展。


报告生成时间:2026年1月30日
数据来源:arXiv.org
分析周期:2026年1月23日 - 2026年1月30日

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐