【无标题】
2026年1月VLA研究进展速览 本周VLA领域呈现五大趋势:多模态融合(触觉/力觉)、动态场景适应、效率优化、安全性提升和新应用拓展。重点研究包括:DynamicVLA框架解决动态物体操作难题;AIR-VLA实现首个空中操作系统;CoFreeVLA通过风险评估增强双臂操作安全性;MoE-ACT改进手术机器人策略;AC²-VLA提出自适应计算框架降低延迟。另有研究探索LLM替代方案、触觉力对齐方法
VLA(Vision-Language-Action)最新研究进展报告
时间范围:2026年1月23日 - 2026年1月30日
概述
本报告总结了arXiv平台上最近一周发布的VLA(Vision-Language-Action)相关论文。这一周的研究呈现出几个重要趋势:
- 多模态融合增强 - 更多研究专注于融合触觉、力觉等多模态信息
- 动态场景适应 - 针对动态环境的VLA模型改进
- 效率优化 - 知识蒸馏、令牌修剪等技术提升推理效率
- 安全性提升 - 碰撞避免、风险评估等安全机制
- 新应用领域 - 空中操作、手术机器人等新场景
按日期分类的论文汇总
2026年1月29日
1. DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation
- 作者:Haozhe Xie, Beichen Wen, Jiarui Zheng, Zhaoxi Chen, Fangzhou Hong, Haiwen Diao, Ziwei Liu
- 主要贡献:
- 提出DynamicVLA框架,专门处理动态物体操作
- 解决现有VLA模型在静态操纵上表现好,但在动态场景中遇到困难的问题
- 集成时间推理、时间预测和连续控制能力
- 支持快速感知、时间预测和持续控制
2. MetricAnything: Scaling Metric Depth Pretraining with Noisy Heterogeneous Sources
- 作者:Baorui Ma, Jiahui Yang, Donglin Di, Xuancheng Zhang, Jianxun Cui, Hao Li, Yan Xie, Wei Chen
- 主要贡献:
- 扩展度量深度预训练方法
- 使用噪声异构源进行大规模预训练
- 无提示的学生模型在单目深度估计、相机内参恢复、单/多视角度量3D重建和VLA规划上达到SOTA结果
- 预训练ViT作为视觉编码器显著提升多模态大语言模型的空间智能能力
3. MoE-ACT: Improving Surgical Imitation Learning Policies through Supervised Mixture-of-Experts
- 作者:Lorenzo Mazza, Ariel Rodriguez, Rayan Younis, Martin Lelis, Ortrun Hellig, Chenpan Li, Sebastian Bodenstedt, Martin Wagner, Stefanie Speidel
- 主要贡献:
- 通过监督混合专家(Mixture-of-Experts)改进手术模仿学习策略
- 模仿人类外科医生,在变形组织上执行有针对性抓取和持续牵拉
- 与SOTA VLA模型和标准ACT基线进行基准测试
- 通用VLA模型即使在标准分布设置下也无法完全获取任务
4. CoFreeVLA: Collision-Free Dual-Arm Manipulation via Vision-Language-Action Model and Risk Estimation
- 作者:Xuanran Zhai, Binkai Ou, Yemin Wang, Hui Yi Leong, Qiaojun Yu, Ce Hao, Yaohua Liu
- 主要贡献:
- 通过VLA模型和风险评估实现无碰撞双臂操作
- 解决双臂部署中的安全问题:手臂和被抓物体之间的自碰撞建模不足
- 用短视界自碰撞风险估计器增强端到端VLA
- 预测类似碰撞事件以避免自碰撞
5. AIR-VLA: Vision-Language-Action Systems for Aerial Manipulation
- 作者:Jianli Sun, Bin Tian, Qiyao Zhang, Chengxiang Li, Zihan Song, Zhiyong Cui, Yisheng Lv, Yonglin Tian
- 主要贡献:
- 首个针对空中操作系统(AMS)的VLA系统
- 解决AMS的固有特性:浮动基座动力学、UAV与操纵器强耦合、多步长视界任务
- VLA模型在基于地面的具身智能中取得成功,但在AMS应用仍是未开发领域
- 处理空中的复杂动力学和控制挑战
2026年1月28日
6. Demonstration-Free Robotic Control via LLM Agents
- 作者:Brian Y. Tsui, Alan Y. Fang, Tiffany J. Hwu
- 主要贡献:
- 探索通用大语言模型(LLM)智能体框架是否可以替代VLA模型
- VLA模型虽然性能强,但通常需要任务特定演示和微调,在域偏移下泛化能力差
- 最初为软件工程开发的LLM智能体框架可能成为机器人控制的有力替代方案
- 提出无需演示的机器人控制方法
7. Tactile-Force Alignment in Vision-Language-Action Models for Force-aware Manipulation
- 作者:Yuzhe Huang, Pei Lin, Wanlin Li, Daohan Li, Jiajun Li, Jiaming Jiang, Chenxi Xiao, Ziyuan Jiao
- 主要贡献:
- 解决VLA模型缺乏接触丰富任务所需的物理直觉问题
- 由于主要依赖视觉模态,VLA模型缺乏精确力调节和物理推理能力
- 提出触觉-力对齐方法,将触觉和力信息与视觉特征对齐
- 支持需要精确力控制的接触丰富任务
8. Shallow-π: Knowledge Distillation for Flow-based VLAs
- 作者:Boseong Jeon, Yunho Choi, Taehan Kim
- 主要贡献:
- 机器人实时部署需求需要对VLA模型进行快速和设备端推理
- 提出基于流(Flow-based)的VLA知识蒸馏方法
- 从大型教师模型蒸馏到浅层学生模型
- 在保持性能的同时显著减少计算开销和推理延迟
2026年1月27日
9. AC²-VLA: Action-Context-Aware Adaptive Computation in Vision-Language-Action Models for Efficient Robotic Manipulation
- 作者:Wenda Yu, Tianshi Wang, Fengling Li, Jingjing Li, Lei Zhu
- 主要贡献:
- 动作上下文感知的自适应计算框架
- 解决VLA模型闭环部署受限于高延迟和高计算成本的问题
- 观察到:并非每个时间步都需要完整的大规模VLM推理
- 根据动作上下文自适应调整计算量
2026年1月26日
10. A Pragmatic VLA Foundation Model
- 作者:Wei Wu, Fan Lu, Yunnan Wang, Shuai Yang, Shi Liu, Fangjing Wang, Qian Zhu, He Sun, Yong Wang等(28位作者)
- 主要贡献:
- 提出LingBot-VLA基础模型
- 基于20,000小时真实世界机器人数据训练
- 专注于跨任务和平台的忠实泛化,同时确保成本效率
- 在数据自适应和GPU小时方面的成本效率优化
11. TC-IDM: Grounding Video Generation for Executable Zero-shot Robot Motion
- 作者:Weishi Mi, Yong Bao, Xiaowei Chi, Xiaozhu Ju, Zhiyuan Qin, Kuangzhi Ge, Kai Tang, Peidong Jia, Shanghang Zhang, Jian Tang
- 主要贡献:
- VLA范式的替代方法:基于生成世界模型的机器人控制
- 解决VLA依赖大规模高质量机器人数据限制其泛化能力的问题
- 生成世界模型提供通用具身AI的有前景替代方案
- 弥合像素级规划和物理现实之间的关键差距
2026年1月25日
12. PEAfowl: Perception-Enhanced Multi-View Vision-Language-Action for Bimanual Manipulation
- 作者:Qingyu Fan, Zhaoxiang Li, Yi Lu, Wang Chen, Qiu Shen, Xiao-xiao Long, Yinghao Cai, Tao Lu, Shuo Wang, Xun Cao
- 主要贡献:
- 感知增强的多视角VLA策略,用于双手操作
- 解决现有方法中语言作为全局条件导致粗糙指令定位的问题
- 对于空间推理,PEAfowl预测每个令牌的深度分布
- 执行可微分3D提升,聚合跨视图邻域
2026年1月24日
13. SPACE-CLIP: Spatial Perception via Adaptive CLIP Embeddings for Monocular Depth Estimation
- 作者:Taewan Cho, Taeryang Kim, Andrew Jaeyong Choi
- 主要贡献:
- 单目深度估计的自适应CLIP嵌入
- 不仅作为独立深度估计器,而是下一代具身AI系统(如VLA模型)的现成集成空间感知模块
- 开源实现:https://github.com/taewan2002/space-clip
2026年1月23日
14. ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance
- 作者:Zhuohao Li, Yinghao Li, Jian-Jian Jiang, Lang Zhou, Tianyu Zhang, Wei-Shi Zheng
- 主要贡献:
- 减少VLA模型中的错误完成问题
- 解决现有方法直接融合本体感觉信号与VLM编码视觉-语言特征导致状态主导偏差的问题
- 即使可见执行失败,仍会错误地报告完成
- 通过视觉-本体感觉重新平衡解决这个问题
其他重要论文(补充)
15. IVRA: Improving Visual-Token Relations for Robot Action Policy with Training-Free Hint-Based Guidance
- 提交日期:2026年1月22日
- 主要贡献:
- 通过基于提示的无训练引导改进视觉令牌关系
- 许多VLA模型将图像补丁展平为1D令牌序列,削弱了精确操作所需的2D空间线索
- 轻量级、无训练方法,利用模型内置视觉编码器中的亲和力提示
16. DTP: A Simple yet Effective Distracting Token Pruning Framework for Vision-Language Action Models
- 提交日期:2026年1月22日
- 主要贡献:
- 简单而有效的干扰令牌修剪框架
- VLA模型利用VLM的强大感知能力,但存在无关视觉信息
- 通过修剪干扰令牌减少计算负担,提高推理效率
17. CompliantVLA-adaptor: VLM-Guided Variable Impedance Action for Safe Contact-Rich Manipulation
- 提交日期:2026年1月21日
- 主要贡献:
- 通过VLM指导的可变阻抗控制(VIC)增强VLA模型
- 提高接触丰富机器人操纵任务的安全性和有效性
- 上下文感知的可变阻抗控制,提高接触任务的适应性
主要趋势分析
1. 效率优化成为重点
多篇文章关注VLA模型的推理效率提升:
- 知识蒸馏:Shallow-π通过蒸馏减少计算开销
- 自适应计算:AC²-VLA根据动作上下文自适应调整计算量
- 令牌修剪:DTP和IVRA通过去除无关信息优化推理
2. 多模态融合深入发展
研究人员正超越纯视觉VLA,融合更多模态:
- 触觉融合:Tactile-Force Alignment加入力觉和触觉
- 深度感知:MetricAnything和SPACE-CLIP增强3D空间理解
- 本体感觉:ReViP优化视觉-本体感觉平衡
3. 动态环境适应能力
多篇论文针对动态和复杂环境:
- 动态对象:DynamicVLA专门处理运动物体
- 空中操作:AIR-VLA针对UAV和机械臂耦合系统
- 双手操作:PEAfowl支持复杂双手协同任务
4. 安全性机制强化
安全成为VLA部署的关键考量:
- 碰撞避免:CoFreeVLA通过风险评估避免自碰撞
- 接触安全:CompliantVLA-adaptor通过可变阻抗提高接触安全性
- 风险评估:多种风险评估和预防机制被提出
5. 应用场景扩展
VLA模型正在扩展到新的应用领域:
- 医疗手术:MoE-ACT专注手术机器人
- 空中机器人:AIR-VLA针对UAV系统
- 教育场景:Pedagogical Alignment面向教育应用
技术创新要点
架构创新
- 混合专家架构:MoE-ACT采用Mixture-of-Experts
- 时间推理集成:DynamicVLA加入时间预测能力
- 多视角融合:PEAfowl的多视角3D提升
- 分层架构:AC²-VLA的自适应计算层
训练策略
- 大规模预训练:MetricAnything的异构源预训练
- 无演示学习:LLM Agents的零样本方法
- 知识蒸馏:Shallow-π的教师-学生框架
- 持续学习:CLARE的自主适配器路由
评估方法
- 物理现实差距:TC-IDM的像素-现实对齐
- 安全性评估:CoFreeVLA的碰撞风险建模
- 多任务泛化:Being-H0.5的跨具身泛化
- 细粒度指标:The Great March 100的100项详细任务
开源资源
以下是本周期提到的开源项目:
-
SPACE-CLIP:https://github.com/taewan2002/space-clip
- 单目深度估计的自适应CLIP嵌入
- 可作为VLA模型的空间感知模块
-
MetricAnything:
- 度量深度预训练框架
- 支持多模态空间推理
-
The Great March 100:https://rhos.ai/research/gm-100
- 100项详细任务评估具身AI智能体
- 区分不同VLA模型性能
未来展望
短期趋势(1-3个月)
- 更多关注实时部署优化
- 多模态融合技术成熟
- 安全性机制标准化
中期趋势(3-6个月)
- VLA模型在不同具身平台的泛化能力提升
- 与大语言模型的深度融合
- 新应用领域涌现
长期趋势(6-12个月)
- VLA成为机器人控制的标准范式
- 自适应学习机制成熟
- 跨任务零样本泛化成为标准能力
总结
2026年1月23-30日这一周的VLA研究呈现出蓬勃发展的态势。主要特点包括:
- 研究数量众多:一周内发表了超过15篇VLA相关高质量论文
- 技术深度增加:从简单的视觉-语言-行动映射发展到复杂的多模态融合
- 应用广泛化:从传统机器人操作扩展到医疗、航空、教育等领域
- 效率重视:知识蒸馏、自适应计算等技术受到重视
- 安全强化:多种安全机制和风险评估方法被提出
这一周的研究表明VLA领域正从学术探索向实用化方向发展,技术逐渐成熟,应用场景不断扩展。
报告生成时间:2026年1月30日
数据来源:arXiv.org
分析周期:2026年1月23日 - 2026年1月30日
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐



所有评论(0)