【论文自动阅读】PI-VLA: A Symmetry-Aware Predictive and Interactive Vision-Language-Action Framework for Rob
现有的 VLA(视觉-语言-动作)模型在执行长序列任务时往往很“脆弱”(brittle)。它们通常假设环境是对称和稳定的,无法有效处理视觉干扰、新物体或动作误差的累积,导致一旦出现微小偏差,错误就会不断累积最终导致任务失败。本文提出了一种能让机器人通过“视觉-语言-动作”模型更稳定地完成复杂长任务的新方法,它能让机器人在发现自己动作可能出错时,主动停下来重新规划路线。,实时监测动作中的“不确定性”
所有评论(0)