【无标题】

2026年1月VLA研究进展速览本周VLA领域呈现五大趋势：多模态融合（触觉/力觉）、动态场景适应、效率优化、安全性提升和新应用拓展。重点研究包括：DynamicVLA框架解决动态物体操作难题；AIR-VLA实现首个空中操作系统；CoFreeVLA通过风险评估增强双臂操作安全性；MoE-ACT改进手术机器人策略；AC²-VLA提出自适应计算框架降低延迟。另有研究探索LLM替代方案、触觉力对齐方法

Asimov_Liu

641人浏览 · 2026-01-30 19:57:57

Asimov_Liu · 2026-01-30 19:57:57 发布

VLA（Vision-Language-Action）最新研究进展报告

时间范围：2026年1月23日 - 2026年1月30日

概述

本报告总结了arXiv平台上最近一周发布的VLA（Vision-Language-Action）相关论文。这一周的研究呈现出几个重要趋势：

多模态融合增强 - 更多研究专注于融合触觉、力觉等多模态信息
动态场景适应 - 针对动态环境的VLA模型改进
效率优化 - 知识蒸馏、令牌修剪等技术提升推理效率
安全性提升 - 碰撞避免、风险评估等安全机制
新应用领域 - 空中操作、手术机器人等新场景

按日期分类的论文汇总

2026年1月29日

1. DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation

作者：Haozhe Xie, Beichen Wen, Jiarui Zheng, Zhaoxi Chen, Fangzhou Hong, Haiwen Diao, Ziwei Liu
主要贡献：
- 提出DynamicVLA框架，专门处理动态物体操作
- 解决现有VLA模型在静态操纵上表现好，但在动态场景中遇到困难的问题
- 集成时间推理、时间预测和连续控制能力
- 支持快速感知、时间预测和持续控制

2. MetricAnything: Scaling Metric Depth Pretraining with Noisy Heterogeneous Sources

作者：Baorui Ma, Jiahui Yang, Donglin Di, Xuancheng Zhang, Jianxun Cui, Hao Li, Yan Xie, Wei Chen
主要贡献：
- 扩展度量深度预训练方法
- 使用噪声异构源进行大规模预训练
- 无提示的学生模型在单目深度估计、相机内参恢复、单/多视角度量3D重建和VLA规划上达到SOTA结果
- 预训练ViT作为视觉编码器显著提升多模态大语言模型的空间智能能力

3. MoE-ACT: Improving Surgical Imitation Learning Policies through Supervised Mixture-of-Experts

作者：Lorenzo Mazza, Ariel Rodriguez, Rayan Younis, Martin Lelis, Ortrun Hellig, Chenpan Li, Sebastian Bodenstedt, Martin Wagner, Stefanie Speidel
主要贡献：
- 通过监督混合专家（Mixture-of-Experts）改进手术模仿学习策略
- 模仿人类外科医生，在变形组织上执行有针对性抓取和持续牵拉
- 与SOTA VLA模型和标准ACT基线进行基准测试
- 通用VLA模型即使在标准分布设置下也无法完全获取任务

4. CoFreeVLA: Collision-Free Dual-Arm Manipulation via Vision-Language-Action Model and Risk Estimation

作者：Xuanran Zhai, Binkai Ou, Yemin Wang, Hui Yi Leong, Qiaojun Yu, Ce Hao, Yaohua Liu
主要贡献：
- 通过VLA模型和风险评估实现无碰撞双臂操作
- 解决双臂部署中的安全问题：手臂和被抓物体之间的自碰撞建模不足
- 用短视界自碰撞风险估计器增强端到端VLA
- 预测类似碰撞事件以避免自碰撞

5. AIR-VLA: Vision-Language-Action Systems for Aerial Manipulation

作者：Jianli Sun, Bin Tian, Qiyao Zhang, Chengxiang Li, Zihan Song, Zhiyong Cui, Yisheng Lv, Yonglin Tian
主要贡献：
- 首个针对空中操作系统（AMS）的VLA系统
- 解决AMS的固有特性：浮动基座动力学、UAV与操纵器强耦合、多步长视界任务
- VLA模型在基于地面的具身智能中取得成功，但在AMS应用仍是未开发领域
- 处理空中的复杂动力学和控制挑战

2026年1月28日

6. Demonstration-Free Robotic Control via LLM Agents

作者：Brian Y. Tsui, Alan Y. Fang, Tiffany J. Hwu
主要贡献：
- 探索通用大语言模型（LLM）智能体框架是否可以替代VLA模型
- VLA模型虽然性能强，但通常需要任务特定演示和微调，在域偏移下泛化能力差
- 最初为软件工程开发的LLM智能体框架可能成为机器人控制的有力替代方案
- 提出无需演示的机器人控制方法

7. Tactile-Force Alignment in Vision-Language-Action Models for Force-aware Manipulation

作者：Yuzhe Huang, Pei Lin, Wanlin Li, Daohan Li, Jiajun Li, Jiaming Jiang, Chenxi Xiao, Ziyuan Jiao
主要贡献：
- 解决VLA模型缺乏接触丰富任务所需的物理直觉问题
- 由于主要依赖视觉模态，VLA模型缺乏精确力调节和物理推理能力
- 提出触觉-力对齐方法，将触觉和力信息与视觉特征对齐
- 支持需要精确力控制的接触丰富任务

8. Shallow-π: Knowledge Distillation for Flow-based VLAs

作者：Boseong Jeon, Yunho Choi, Taehan Kim
主要贡献：
- 机器人实时部署需求需要对VLA模型进行快速和设备端推理
- 提出基于流（Flow-based）的VLA知识蒸馏方法
- 从大型教师模型蒸馏到浅层学生模型
- 在保持性能的同时显著减少计算开销和推理延迟

2026年1月27日

9. AC²-VLA: Action-Context-Aware Adaptive Computation in Vision-Language-Action Models for Efficient Robotic Manipulation

作者：Wenda Yu, Tianshi Wang, Fengling Li, Jingjing Li, Lei Zhu
主要贡献：
- 动作上下文感知的自适应计算框架
- 解决VLA模型闭环部署受限于高延迟和高计算成本的问题
- 观察到：并非每个时间步都需要完整的大规模VLM推理
- 根据动作上下文自适应调整计算量

2026年1月26日

10. A Pragmatic VLA Foundation Model

作者：Wei Wu, Fan Lu, Yunnan Wang, Shuai Yang, Shi Liu, Fangjing Wang, Qian Zhu, He Sun, Yong Wang等（28位作者）
主要贡献：
- 提出LingBot-VLA基础模型
- 基于20,000小时真实世界机器人数据训练
- 专注于跨任务和平台的忠实泛化，同时确保成本效率
- 在数据自适应和GPU小时方面的成本效率优化

11. TC-IDM: Grounding Video Generation for Executable Zero-shot Robot Motion

作者：Weishi Mi, Yong Bao, Xiaowei Chi, Xiaozhu Ju, Zhiyuan Qin, Kuangzhi Ge, Kai Tang, Peidong Jia, Shanghang Zhang, Jian Tang
主要贡献：
- VLA范式的替代方法：基于生成世界模型的机器人控制
- 解决VLA依赖大规模高质量机器人数据限制其泛化能力的问题
- 生成世界模型提供通用具身AI的有前景替代方案
- 弥合像素级规划和物理现实之间的关键差距

2026年1月25日

12. PEAfowl: Perception-Enhanced Multi-View Vision-Language-Action for Bimanual Manipulation

作者：Qingyu Fan, Zhaoxiang Li, Yi Lu, Wang Chen, Qiu Shen, Xiao-xiao Long, Yinghao Cai, Tao Lu, Shuo Wang, Xun Cao
主要贡献：
- 感知增强的多视角VLA策略，用于双手操作
- 解决现有方法中语言作为全局条件导致粗糙指令定位的问题
- 对于空间推理，PEAfowl预测每个令牌的深度分布
- 执行可微分3D提升，聚合跨视图邻域

2026年1月24日

13. SPACE-CLIP: Spatial Perception via Adaptive CLIP Embeddings for Monocular Depth Estimation

作者：Taewan Cho, Taeryang Kim, Andrew Jaeyong Choi
主要贡献：
- 单目深度估计的自适应CLIP嵌入
- 不仅作为独立深度估计器，而是下一代具身AI系统（如VLA模型）的现成集成空间感知模块
- 开源实现：https://github.com/taewan2002/space-clip

2026年1月23日

14. ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance

作者：Zhuohao Li, Yinghao Li, Jian-Jian Jiang, Lang Zhou, Tianyu Zhang, Wei-Shi Zheng
主要贡献：
- 减少VLA模型中的错误完成问题
- 解决现有方法直接融合本体感觉信号与VLM编码视觉-语言特征导致状态主导偏差的问题
- 即使可见执行失败，仍会错误地报告完成
- 通过视觉-本体感觉重新平衡解决这个问题

其他重要论文（补充）

15. IVRA: Improving Visual-Token Relations for Robot Action Policy with Training-Free Hint-Based Guidance

提交日期：2026年1月22日
主要贡献：
- 通过基于提示的无训练引导改进视觉令牌关系
- 许多VLA模型将图像补丁展平为1D令牌序列，削弱了精确操作所需的2D空间线索
- 轻量级、无训练方法，利用模型内置视觉编码器中的亲和力提示

16. DTP: A Simple yet Effective Distracting Token Pruning Framework for Vision-Language Action Models

提交日期：2026年1月22日
主要贡献：
- 简单而有效的干扰令牌修剪框架
- VLA模型利用VLM的强大感知能力，但存在无关视觉信息
- 通过修剪干扰令牌减少计算负担，提高推理效率

17. CompliantVLA-adaptor: VLM-Guided Variable Impedance Action for Safe Contact-Rich Manipulation

提交日期：2026年1月21日
主要贡献：
- 通过VLM指导的可变阻抗控制（VIC）增强VLA模型
- 提高接触丰富机器人操纵任务的安全性和有效性
- 上下文感知的可变阻抗控制，提高接触任务的适应性

主要趋势分析

1. 效率优化成为重点

多篇文章关注VLA模型的推理效率提升：

知识蒸馏：Shallow-π通过蒸馏减少计算开销
自适应计算：AC²-VLA根据动作上下文自适应调整计算量
令牌修剪：DTP和IVRA通过去除无关信息优化推理

2. 多模态融合深入发展

研究人员正超越纯视觉VLA，融合更多模态：

触觉融合：Tactile-Force Alignment加入力觉和触觉
深度感知：MetricAnything和SPACE-CLIP增强3D空间理解
本体感觉：ReViP优化视觉-本体感觉平衡

3. 动态环境适应能力

多篇论文针对动态和复杂环境：

动态对象：DynamicVLA专门处理运动物体
空中操作：AIR-VLA针对UAV和机械臂耦合系统
双手操作：PEAfowl支持复杂双手协同任务

4. 安全性机制强化

安全成为VLA部署的关键考量：

碰撞避免：CoFreeVLA通过风险评估避免自碰撞
接触安全：CompliantVLA-adaptor通过可变阻抗提高接触安全性
风险评估：多种风险评估和预防机制被提出

5. 应用场景扩展

VLA模型正在扩展到新的应用领域：

医疗手术：MoE-ACT专注手术机器人
空中机器人：AIR-VLA针对UAV系统
教育场景：Pedagogical Alignment面向教育应用

技术创新要点

架构创新

混合专家架构：MoE-ACT采用Mixture-of-Experts
时间推理集成：DynamicVLA加入时间预测能力
多视角融合：PEAfowl的多视角3D提升
分层架构：AC²-VLA的自适应计算层

训练策略

大规模预训练：MetricAnything的异构源预训练
无演示学习：LLM Agents的零样本方法
知识蒸馏：Shallow-π的教师-学生框架
持续学习：CLARE的自主适配器路由

评估方法

物理现实差距：TC-IDM的像素-现实对齐
安全性评估：CoFreeVLA的碰撞风险建模
多任务泛化：Being-H0.5的跨具身泛化
细粒度指标：The Great March 100的100项详细任务

开源资源

以下是本周期提到的开源项目：

SPACE-CLIP：https://github.com/taewan2002/space-clip
- 单目深度估计的自适应CLIP嵌入
- 可作为VLA模型的空间感知模块
MetricAnything：
- 度量深度预训练框架
- 支持多模态空间推理
The Great March 100：https://rhos.ai/research/gm-100
- 100项详细任务评估具身AI智能体
- 区分不同VLA模型性能