Sparse Video Generation Propels Real-World Beyond-the-View Vision-Language Navigation
摘要 本文提出了一种基于稀疏视频生成的新方法SparseVideoNav,用于解决真实世界中的超越视野视觉语言导航(BVN)问题。论文的核心贡献包括:1) 将BVN明确定义为一个与传统指令跟随导航不同的新问题设定,指出现有方法的短视程监督是主要瓶颈;2) 提出使用视频生成模型作为长视程预测接口,通过稀疏化设计、历史注入、扩散蒸馏和逆向动力学动作头等技术组合,构建了一个可实机部署的系统。实验在真实机
所有评论(0)