VLingNav:基于自适应推理和视觉-辅助语言记忆的具身导航
26年1月来自字节Seed、北大和中关村学院的论文“VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory”。视觉-语言-动作(VLA)模型通过统一感知和规划,并继承大型视觉-语言模型(VLM)强大的泛化能力,在具身导航领域展现出巨大的潜力。然而,大多数现有的VLA模型依
26年1月来自字节Seed、北大和中关村学院的论文“VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory”。
视觉-语言-动作(VLA)模型通过统一感知和规划,并继承大型视觉-语言模型(VLM)强大的泛化能力,在具身导航领域展现出巨大的潜力。然而,大多数现有的VLA模型依赖于从观察到动作的直接反应式映射,缺乏复杂、长时域导航任务所需的显式推理能力和持久记忆。为了应对这些挑战,VLingNav,一种基于语言驱动认知的具身导航VLA模型。首先,受人类认知双-过程理论的启发,引入一种自适应思维链(AdaCoT)机制,该机制仅在必要时动态触发显式推理,使智体能够在快速、直觉的执行和缓慢、深思熟虑的规划之间流畅切换。
其次,为了处理长时域空间依赖性,开发一个视觉辅助语言记忆模块(VLingMem),该模块构建一个持久的跨模态语义记忆,使智体能够回忆过去的观察结果,从而避免重复探索,并推断动态环境中的运动趋势。在训练方面,构建迄今为止最大的具身导航推理标注数据集Nav-AdaCoT-2.9M,并添加自适应CoT标注,从而构建一种能够根据思考时间调整思考内容的推理范式。此外,还引入一个在线专家指导的强化学习阶段,使模型能够超越纯粹的模仿学习,并获得更鲁棒、自主探索的导航行为。
具身导航模型
作为机器人技术的核心任务,导航长期以来一直备受机器人研究人员的关注[11]。近年来,随着具身人工智能的兴起,机器人导航逐渐从传统的点对点导航[22]转向更智能的具身导航。具身导航包含视觉语言导航(VLN)[10, 56, 70, 73, 75]、物体目标导航(ObjectNav)[42, 60, 62]、图像目标导航(ImageNav)[25, 59, 63]和具身视觉跟踪(EVT)[30, 52, 84]等子任务,强调机器人能够遵循自然语言指令,在未知环境中进行感知、推理和规划。
具身导航方法大致可以分为模块化方法和端到端方法。模块化范式依赖于成熟的组件,例如现成的大模型[85, 86]、SLAM[5, 38]、视觉基础模型[39, 71]和规划算法[21]。它将导航任务分解为不同的模块(例如感知、定位、规划),并通过手动定义的接口将它们连接起来。这种设计具有较高的可解释性和较强的零样本迁移能力[63]。然而,集成多个模块不可避免地会造成信息丢失[34];此外,模块间的紧密耦合会增加系统的脆弱性[34]。端到端方法利用数据驱动学习将传感器输入直接映射到机器人动作[59, 66, 69]。通过移除手动设计的接口并减少信息丢失,这些方法取得了显著进展[42, 43]。然而,它们的泛化能力有限,并且在分布外条件下可能会产生异常动作。近年来,随着大型模型的快速发展,越来越多的研究采用预训练的视觉语言模型(VLM)作为骨干网络,以增强模型的泛化能力、环境感知能力和空间理解能力。
NaVid [73] 是首个具身导航视觉语言模型。它设计一个基于视频的 VLM,并在 VLN 数据集上进行微调,展现出强大的泛化能力。然而,随着视频流长度的增加,其推理时间显著增加,这使得实际部署面临挑战。Uni-NaVid [75] 在 NaVid 的基础上,引入了一种视频流压缩机制来控制视觉tokens的数量。此外,Uni-NaVid 将模型扩展到多种具身导航任务,并在多个基准测试中取得了最先进的性能。类似地,NaVILA [10] 和 StreamVLN [56] 采用了类似的架构;它们进一步整合了大规模开放世界导航数据,并利用K-V缓存(KV cache)来同时提升模型的泛化能力和推理速度。 JanusVLN [70] 通过融合 VGGT [51] 生成的空间特征来增强 3D 理解能力,从而展现出强大的指令跟踪性能。值得注意的是,上述所有工作都将机器人动作表示为离散的tokens。这种简化导致动作质量低下,且在动态场景下的适应性较弱。为了解决这一局限性,TrackVLA [52] 设计一种基于锚点的扩散策略,直接输出机器人的运动轨迹,显著提高了动作质量和效率。NavFoM [74] 通过引入 TVI tokens进一步扩展了该模型,使其能够接收来自跨具身导航数据的输入。
然而,现有的导航 VLA 模型仅依赖于动作标签进行微调,因此未能充分利用 VLM [2, 13] 固有的推理能力。此外,它们仅通过隐式视觉特征来维护历史记录,而没有显式记忆,这最终阻碍了 VLM 主干网络潜力的充分发挥。
具身思维链
由于思维链显著提升了LLM和VLM在复杂任务上的性能[20, 54, 55],一些研究尝试将这种范式扩展到具身任务。通过在机器人执行动作之前显式输出推理过程,可以更好地利用VLM固有的推理能力。这种方法旨在增强模型在任务分解、环境感知和决策方面的能力,最终提高模型生成动作的准确性和质量,以及其在真实场景中的泛化能力和性能。具身思维链[68]首先利用富含空间定位信息的结构化文本指令。CoT-VLA[83]和VPP[19, 72]通过未来图像预测集成推理。π0.5[3]通过文本进行任务分解和推理。 ChatVLA-2 [87] 通过引入额外的开放世界视觉推理预训练数据,提升了模型在复杂视觉推理任务中的性能。ThinkAct [20] 设计了一个双系统框架,将高层推理与低层动作连接起来。然而,上述方法仅限于桌面操作任务,尚未扩展到开放空间导航。OctoNav [14] 通过以固定频率执行 CoT 任务,提高了模型在导航任务中的性能并增强了可解释性。然而,CoT 频率需要手动配置,这限制了 CoT 潜力的充分发挥。Aux-Think [53] 构建了一个带有 CoT 标注的 VLN 数据集,实验表明,在训练过程中使用 CoT 作为辅助任务可以提升模型的导航性能,而过多的推理会影响模型的效率和性能。 NavA3 [76] 采用 GPT-4o 作为推理 VLM 进行任务分解和 3D 空间定位,但其推理延迟较长,难以部署到真正的机器人上。
VLA模型中的记忆
对于长时程具身任务,VLA模型必须具备强大的记忆能力。例如,RoboFlamingo [27] 将视觉语言表征压缩成潜tokens,并通过长的短期记忆(LSTM)网络进行传播。然而,由此产生的潜表征粒度相对较粗,导致精细感知历史的显著丢失。相比之下,MemoryVLA [48] 将高层认知语义和精细感知细节整合到一个统一的记忆框架中,从而能够有效地对长时程操作任务进行时间建模。然而,它仅使用单个隐认知token作为语义记忆,未能充分利用LLM的推理能力。在导航方面,基于视频的VLA模型[10, 30, 52, 56, 73, 75]通常将历史图像观测编码为输入,以提供隐视觉记忆。然而,这种隐记忆会阻碍学习者专注于关键区域,并且随着视觉特征的反复压缩,语义信息会进一步退化。最后,Mem2Ego [78] 和 MapNav [77] 将全局地图信息作为记忆组件融入到 VLA 模型中。然而,当前的 VLM 主干网络缺乏对地图格式输入的原生支持,VLA 的地图表示设计仍有待深入研究。
与基于潜记忆、视觉记忆或地图记忆相比,语言记忆由于大规模语言预训练的开展,与 VLA 框架更加契合。
VLA模型的后训练
强化学习增强了大型模型的探索能力,释放了它们的推理潜力,并有望缓解模仿学习引起的协变量偏移和因果混淆等问题。值得注意的是,OctoNav [14]、VLN-R1 [37] 和 Nav-R1 [31] 已将GRPO [47] 集成到导航VLA模型中,从而实现了CoT输出和动作的同时优化。
大型推理模型(例如DeepSeek-R1 [16])的最新进展表明,即使仅依赖基于结果的奖励,强化学习也能取得显著进步。一些研究也尝试利用基于结果的奖励对VLA模型进行强化学习后训练。例如,SimpleVLA-RL [26] 率先在 OpenVLA-OFT [23] 的强化学习后训练中引入基于结果的奖励机制,并在操纵基准测试中显著提高了成功率。ActiveVLN [82] 将所有历史动作和状态缓存到模型tokens中,并利用 GRPO 通过此机制实现基于结果的强化学习。
上述工作仍然局限于自回归动作输出,无法支持更高级的连续动作预测。最近,ReinFlow [80] 通过将流匹配建模为 MDP 解决了这个问题,从而能够通过 PPO [45] 或 GRPO 进行强化学习训练。
现有的 VLA-RL 框架要么采用策略空间有限的离散自回归动作,要么采用推理速度较慢的连续流动作。
VLingNav
如图所示VLingNav概述。VLingNav是一个VLA模型,它融合自适应CoT推理和视觉-辅助语言记忆技术。这种架构使模型能够利用历史视觉和语言记忆,此外VLingNav可以零样本部署到真实世界的机器人上,执行各种复杂的导航任务。
导航任务定义
具身导航任务可以定义如下:移动机器人接收指令 I 和一系列视觉观测数据 O_1:t,这些数据由安装在机器人上的自中心摄像头在每个时间步 {1,…,t} 捕获。根据这些观测数据和指令,策略模型 π 需要输出机器人的下一个动作 a_t ∈ A = {v,ω}。机器人通过执行模型预测的动作来完成导航任务,该动作可以表示为 a_t = π(I, O_1:t)。VLingNav 能够执行多种具身导航任务,包括对象导航 (ObjectNav)、环境视觉跟踪 (EVT) 和图像导航 (ImageNav)。对象导航要求机器人根据对物体类别的文本描述探索未知环境,并找到符合指定目标的物体。环境视觉跟踪则侧重于在动态、拥挤的场景中识别文本指令描述的正确目标,并持续跟踪移动目标。 ImageNav 与 ObjectNav 类似,主要区别在于 ImageNav 的目标由图像而非文本指定。同样,机器人必须探索未知环境并找到与图像目标对应的位置。
VLingNav 概述
VLingNav 扩展基于视频的 VLM(具体来说是 LLaVA-Video-7B [81]),并集成一个动作模型,以实现文本token生成和轨迹规划的同步进行。对于文本token预测,该模型遵循传统的自回归范式。对于轨迹规划,动作模型以 VLM 主干网的输出为条件,预测运动轨迹 τ = {a_1, a_2, … a_n},其中 n 是轨迹范围,每个 a = (x, y, θ) 表示一个路径点,该路径点包含了位置和方向信息。
VLingNav 架构
观测编码
对于基于视频的VLA模型,在线推理过程中图像帧的数量会随时间增长。这显著增加计算负担,使得在实际机器人上部署时难以保证推理效率。此外,对于低速移动机器人,以高帧率捕获的相邻以自我为中心帧包含大量冗余的视觉信息。以往的研究探索两种主要的策略来缓解这个问题。一种方法是将历史帧中的视觉token合并,以减少相邻帧之间的冗余[4, 75];然而,这种操作通常会扭曲原始语义特征并引入额外的计算。另一种方法是对视频流进行均匀采样以减少帧数[10],但这不可避免地会导致决策延迟和不准确,因为在低采样率下短期观测不足。
为了克服这两种方法的局限性,提出一种动态帧率采样策略。受艾宾浩斯(Ebbinghaus)遗忘曲线[12]的启发,根据历史帧相对于当前帧的时间间隔对其进行采样。具体而言,较早的历史框架(被视为长期记忆)以较低的频率进行采样,以模拟遗忘过程。相反,较近期的历史框架(被视为短期记忆)则以较高的频率进行采样,且采样频率有保证。通过这种方法,可以在选择性地保留更重要的图像的同时,控制输入图像token的数量。
在对输入视觉观测进行采样后,需要将视觉观测编码并映射到VLM骨干网络的潜空间。参照LLaVA-Video,采用预训练的视觉编码器(SigLIP-400M [71])对机器人的输入以自我为中心的视频流O_1:t = {o_1, · · · , o_t}进行编码。该编码过程生成视觉特征V_1:t,其中N表示图像块的数量(N = 729),C表示嵌入维度(C = 1152)。为了有效地概括历史视觉信息,用网格池化策略处理过去的观测数据。这种方法对历史观测数据的特征图进行下采样,使模型能够在有效控制计算成本的同时,捕获高层语义特征。与动态 FPS 类似,也根据时间间隔确定网格池化的下采样率。
此外,为了消除动态帧率采样导致的视频流中的时间不一致性,在视觉观测的每一帧中都加入时间戳信息。具体来说,在每一帧之前引入一个时间-觉察指示器token ET(·),它可以反映给定历史视觉观测与当前观测之间的时间间隔。通过使用旋转位置嵌入(RoPE)[49]对时间戳信息进行编码,ET 使模型能够感知不同历史帧与当前帧之间的绝对时间间隔。
对于视觉特征的投影,遵循成熟的 VLM 框架 [29]。具体来说,采用基于两层多层感知器 (MLP) P(·) 的跨模态投影器,将视觉特征 V 映射到 VLM 的潜空间,得到投影结果 EV_t = P(V_t′ ),其中 EV_t 表示投影的视觉token。
自适应CoT与视觉-辅助语言记忆
如图所示,将视觉tokens EV_t与语言tokens EI和时间-觉察指示器 tokenET连接起来,形成VLM的输入序列。为了平衡模型的推理性能和效率,用大规模高质量自适应CoT数据集训练模型,使其能够自主决定是否对给定输入执行CoT推理。具体来说,对于当前输入,VLM首先预测一个CoT指示器token(<think_on>或<think_off>)。输出<think_on>后,模型以自回归的方式生成CoT的具体内容,该内容包含两个部分:
• 推理内容,包含在和 token中。该内容包括对视觉观察的感知、任务分解和分析、对当前位置是否已被访问的评估以及对下一步动作的确定。
• 当前观测的环境概要,包含在 <summary> 和 </summary> 标签内。该概要作为语言记忆被整合到后续输入中。
动作模型
为了将 VLM 主干网络的推理和决策知识迁移到机器人特定的动作空间,将基于 MLP 的动作模型 A_θ(·) 集成到 VLingNav 中。具体来说,VLM 主干网络预测的最终标签对应的隐状态向量 hpred_t 被用作指导动作模型将此表示转换为机器人运动轨迹 τ 的条件。
算法 1 中的伪代码详细展示 VLingNav 的完整在线推理过程。

该框架基于构建的大规模数据集 Nav-AdaCoT-2.9M 进行训练,并辅以公开的开放世界视频数据集。下表展示 Nav-AdaCoT-2.9M 与现有公开的具身导航数据集之间的统计比较,评估的指标包括场景数量、任务类型、总步数、CoT 标注数量和动作模态。值得注意的是,数据集在场景数量、任务多样性和输入模态丰富度方面均优于其他数据集。它还拥有迄今为止最多的 CoT 标注数量。此外,Nav-AdaCoT-2.9M 采用基于轨迹的标注方法,与基于离散动作的数据集相比,该方法提供更细粒度的监督。

具身导航数据
导航数据生成
为了确保多样性和可比性,从几个广泛使用的具身导航基准数据集构建训练数据。
目标导航。用来自三个基准数据集的数据:
• HM3D ObjNav [41]:对于此类别级搜索任务,用 Habitat-Web [42] 提供的人类演示数据集的子集。
• MP3D ObjNav [7]:收集最短路径轨迹作为训练数据。
• HM3D OVON [66]:对于此零样本、开放词汇任务,也收集最短路径轨迹。
视觉跟踪。用 EVT-Bench [52] 构建一个多人室内跟踪数据集。图像目标导航。用 HM3D Instance ImageNav [24] 基准数据集。为此,也生成最短路径轨迹并推导出逐步动作标签。
利用现有资源,提出 Nav-AdaCoT-2.9M,这是一个包含 290 万条逐步自适应思维链(CoT)轨迹的大规模数据集。与以往主要仅提供指令和专家动作标签的数据集不同,Nav-AdaCoT-2.9M 明确地整合与观察和指令相一致的结构化推理。这种设计有效地连接感知、语言和动作领域。作为 VLingNav 监督式微调阶段的基石,该数据集有助于 VLingNav 在基于强化学习的后训练之前获得结构化推理能力。
自主自适应思维链标注流程
提出一种自主自适应思维链数据标注流程,专门用于为具身导航和推理任务构建高质量的思维链标签。该流程利用视觉语言模型(VLM)的推理能力,生成连贯的、循序渐进的思维链(CoT)逻辑,从而为复杂环境中的导航决策提供依据。如图所示,将自适应 CoT 标注应用于前面所述的整个具身导航数据集。
开放世界视频数据
此外,多项研究[3, 56, 75]表明,与开放世界视频数据进行联合训练可以增强模型的泛化能力并缩小模拟到真实环境的迁移差距。与这些研究结果一致,本文将多个公开可用的开放世界视频数据集[1, 13, 81]整合到训练数据中。与以往的研究相比,该方法不仅提高了模型的一般视觉理解能力,还通过额外的自适应CoT标注进一步增强了自适应推理能力。具体而言,用三个数据集:LLaVA-Video-178K[81]、Video-R1[13]和ScanQA[1],共包含160万个样本,并通过根据难度对样本进行分类,构建了一个基于自适应CoT的视频数据集。特别地,包含难度较高的视频问答对的Video-R1数据集被组织成一个CoT标注的子集,而其他两个数据集则被组织成非CoT标注的子集。这种设计使模型能够进一步发展自主判断给定输入是否需要推理的能力。
数据集统计
最终,VLingNav 的训练数据集包含上述两种类型的数据集,总计 450 万个训练样本。具体而言,它包含 290 万个具身导航数据样本和 160 万个开放世界视频数据样本,详细的数据分布如图所示。
为了生成高质量的思维链标注,为 Qwen2.5-VL-72B [2] 设计一个复合提示,该提示包含五个关键组成部分:1)导航指令;2)以自我为中心的视觉流输入(包含最近 10 帧,以降低 VLM 的计算负荷);3)先前记忆内容;4)每一步的专家轨迹;以及 5)明确的格式要求。该提示引导 VLM 推理空间关系、环境约束和指令的语义,从而生成结构化的、循序渐进的 CoT 序列。输出结果遵循标准化格式:推理过程包含在 <think> · · · </think> 标签内,而摘要则包含在 <summary> · · · </summary> 标签内。这种格式确保了观察、推理和记忆之间的清晰一致性。当该流程在各种环境中执行时,从 290 万个样本中生成约 47.2 万个 CoT 响应。每个响应都包含针对导航场景的详细 CoT 分析和决策过程,以及描述当前环境上下文的语言记忆。这些原始输出结果通过两阶段过滤程序进一步优化:1)基于规则的检查:丢弃不完整或逻辑不一致的响应。2)质量验证:将决策与专家导航轨迹进行交叉验证,以确保准确性。优化后,构建 Nav-AdaCoT-2.9M 数据集。作为 VLingNav 的监督微调数据,该数据集提供丰富的推理轨迹,紧密地整合感知、指令遵循和导航决策。
模型预训练
VLingNav 中使用的 VLM 骨干网络本身并不支持自适应推理。为了解决这个问题,首先在自定义的开放世界自适应 CoT 视频数据集上进行预训练。遵循标准的 VLM 训练范式,对模型进行单轮微调。此过程使模型具备执行自适应视觉推理的基础能力。训练采用监督式学习,使用标准的交叉熵 (CE) 损失函数,并在 token 级别应用。
监督式微调
预训练阶段结束后,执行监督式微调 (SFT) 以建立稳健的导航和视频推理能力。具体来说,用标准的模仿学习方法,在一个融合具身导航数据和开放世界视频数据的联合数据集上训练模型。这种协同训练策略确保模型在获得特定任务的导航技能的同时,保留通用的视觉推理能力。
在线专家指导的后训练
为了解决离线模仿学习的局限性(例如协变量偏移),并更好地将VLM的高级表征与闭环机器人连续动作对齐,引入一个在线后训练阶段。从SFT检查点开始,智体主动与仿真环境交互,以收集新的、符合策略的轨迹。然后使用混合目标函数更新策略。该目标函数结合结果驱动的优化和专家指导的监督。这种双重方法使模型能够探索更有效的策略,同时防止专家策略的灾难性遗忘。
概率连续动作模型
现有的VLA架构通常采用离散token化来处理动作,这会牺牲精度;其他架构则使用生成模型(例如扩散或流匹配),由于需要迭代去噪,因此会产生很高的计算成本。为了解决高精度连续控制和高效推理之间的权衡问题,提出一种轻量级的概率投影头。
令 h_t 表示在时间步 t 从 VLM 主干网络提取的视觉语言特征。将策略 π_θ(a_t|s_t) 参数化为多元高斯分布。具体来说,动作头将 h_t 投影以预测均值 μ_θ(h_t) 和标准差的对数 logσ_θ(h_t):
π_θ(a_t|s_t) = N( μ_θ(h_t), diag σ_θ(h_t)2 )
在训练后在线推广阶段,通过从策略分布 ∼ π_θ(· | s_t) 中采样动作来实现随机探索。相比之下,在验证阶段,采用确定性执行,其中动作被设置为策略动作分布在给定隐状态 h_t 条件下的均值 a_t = μ_θ(h_t)。
混合部署
为了平衡探索与任务成功完成,采用一种混合数据采集策略。如图所示,交替使用两种部署模式:
朴素部署:当前策略 π_θ 与环境独立交互。存储完整的交互轨迹 τ = {(s_t, a_t, r_t)},仅过滤出成功的轨迹并将其纳入混合缓冲区。作为策略内数据,该数据集能够准确反映当前策略的能力,并为强化成功的动作序列提供高质量的正例。
专家引导部署:为了解决探索效率低下和减少错误行为,系统引入专家策略 π∗(通过模拟器中的最短路径规划器实现)。当智体触发非理性状态(例如,振荡或停滞 k 步,此处 k = 15)或最终失败时,专家会接管控制权并展示恢复路径,从而提供高质量的纠正性轨迹。然后将这些演示添加到混合缓冲区中,用如何摆脱困难状态的宝贵示例来丰富它,并提高智体的整体鲁棒性。
基于增强损失的在线微调
在奖励稀疏和训练周期较长的情况下,纯强化学习可能不稳定且样本效率低下;而纯模仿学习则可能过拟合专家状态分布并受到协变量偏移的影响。因此,采用一种基于演示增强的在线后训练方案[40],其中交互数据提供结果驱动的学习信号,而专家引导的轨迹提供稳定的监督信号。
实现细节
训练细节
VLingNav 在配备 128 个 NVIDIA A100 GPU 的集群上使用三阶段训练流程进行训练。在第一阶段,利用开放世界视频数据进行预训练,赋予模型自适应的通用视觉推理能力。与标准 VLM 实践 [29] 一致,此预训练运行一个 epoch。在第二阶段,所有具身导航数据和开放世界视频数据混合并随机打乱,进行 2 万步的协同训练,总批大小为 512。在在线后训练阶段,使用 HM3D OVON、HM3D Instance ImageNav 和 EVT-Bench DT 基准测试的训练数据集,对策略进行 10 次迭代更新。每次迭代中,用当前策略收集 128 个回合的在线策略数据,然后将其添加到混合缓冲区,之后更新模型。对于开放世界视频数据,所有视频均以 1 FPS 的采样率进行采样,以减少连续帧之间的冗余。在整个训练阶段,仅视觉编码器的参数被冻结;所有其他组件均会更新。超参数设置为 α = 0.5 和 λ = 0.01,其值由不同损失函数的尺度决定。
推理细节
在推理过程中,不使用特定于任务的tokens进行任务划分,从而保持模型架构的紧凑性和一致性。相反,在每个步骤中,模型自回归地预测一个 CoT 指示token。基于该指示token,模型可以生成 CoT 内容。最后,与最后一个生成的token对应的隐状态被输入到动作模块,该模块预测机器人的未来运动轨迹。
实验设置
基准测试
方法在多个公开基准测试集上进行评估,包括目标导航(HM3Dv1 ObjNav、HM3Dv2 ObjNav、MP3D ObjNav 和 HM3D OVON)、具身视觉跟踪(EVT-Bench)和图像目标导航(HM3D Instance ImageNav)。值得注意的是,所有任务均使用共享的模型检查点,未针对任何单个任务进行额外的微调。
基线
对 VLingNav 与当前最先进的模型进行全面比较,这些模型分为三类:(1)模块化方法,通常将模型分为感知、建图和规划三个部分,例如 [8, 25, 62, 63, 66, 67, 74, 79];(2)端到端小规模模型,通常利用预训练网络进行视觉特征提取,然后将其与策略网络集成以输出机器人动作,例如 [42, 43, 64, 66, 69, 84];以及(3)VLA 模型 [30, 31, 52, 74, 75, 89]。
指标
为了评估导航性能,用来自公开基准测试的标准指标,包括成功率 (SR)、成功加权路径长度 (SPL)、跟踪率 (TR) 和碰撞率 (CR)。
机器人平台及部署
如图展示机器人平台。该平台基于 Unitree Go2 四足机器人,其头部配备 Intel RealSense D457 摄像头。在工作中,仅使用该摄像头拍摄的 1280×800 分辨率的 RGB 帧,水平视场角 (HFOV) 为 90°。此外,机器人背部还安装了一个便携式 Wi-Fi 模块,以便通过互联网与远程服务器通信。

VLingNav 部署在配备 NVIDIA RTX 4090 GPU 的远程服务器上。在实际部署过程中,服务器通过互联网接收摄像头拍摄的指令和图像。为了确保高效通信,图像在传输前会进行压缩。模型接收到数据后,会进行推理并预测未来的轨迹,然后将预测结果发送给四足机器人执行。考虑到实际导航是一个在线过程,会缓存历史观测图像中的视觉标记。因此,模型在每个步骤中仅对最新帧进行编码,从而显著提高推理效率。此外,通过利用 VLingNav 的视觉内存压缩策略,模型在 500 帧视频中保持低于 300 毫秒的推理延迟。考虑到通信开销(约 100 毫秒),VLingNav 在长时域的真实机器人实验中实现约 2.5 FPS 的有效推理速度。
机器人接收到预测轨迹后,采用非线性模型预测控制 (NMPC) 模块进行轨迹跟踪 [15]。该控制器将任务建模为基于运动学单轮车模型的优化问题,并在滚动时域内计算最优线速度和角速度。
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐
所有评论(0)