EVOLVE-VLA:基于环境反馈的视觉-语言-动作模型测试时训练方法
25年12月来自新加坡国立的论文“EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models”。实现真正具有适应性的具身智能需要智体不仅通过模仿静态示例进行学习,还能通过与环境的持续交互不断改进,这类似于人类通过练习掌握技能的方式。视觉-语言-动作(VLA)模型利用大语言模型推
25年12月来自新加坡国立的论文“EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models”。
实现真正具有适应性的具身智能需要智体不仅通过模仿静态示例进行学习,还能通过与环境的持续交互不断改进,这类似于人类通过练习掌握技能的方式。视觉-语言-动作(VLA)模型利用大语言模型推动机器人操作技术的发展,但其根本上仍然受限于监督微调(SFT):每个任务需要数百个示例,死记硬背轨迹,并且在部署条件偏离训练条件时无法适应。EVOLVE-VLA,是一种测试-时训练框架,使 VLA 能够通过与环境的交互持续适应,且只需极少或无需特定任务的示例。关键的技术挑战在于用自主反馈取代预言机奖励信号(测试时无法获得)。通过学习的进度估计器提供密集反馈来解决这个问题,并且至关重要的是,设计该框架,通过两种机制来“驯服”这种固有的噪声信号:(1)累积进度估计机制,用于平滑噪声点估计;(2)渐进时间范围扩展策略,实现策略的逐步演化。EVOLVE-VLA 取得显著的提升:在长时程任务上提升 8.6%,在单样本学习中提升 22.0%,并实现跨任务泛化——在没有特定任务示例训练的情况下,在未见过的任务上实现 20.8% 的成功率(而纯 SFT 的成功率为 0%)。定性分析揭示示例中不存在的涌现能力,包括错误恢复和新颖的策略。
如图所示:(a) 传统的监督微调范式训练 VLA 模型需要大量的演示数据,并且存在严格复制训练数据中轨迹的风险。(b) 提出的测试-时训练框架仅需要少量(甚至无需)演示数据进行预训练,并且可以在部署环境中进行迭代优化。© 和 (d) 展示该方法在不同数量的演示数据和不同任务集上均能实现性能提升。值得注意的是,首次观察到使用测试时训练框架实现零样本跨任务生成。(e) 展示该方法在测试-时训练过程中纠正错误的能力。
用于视觉-语言-动作(VLA)模型的强化学习微调。随着大语言模型(LLM)[5, 24] 和多模态大语言模型(MLLM)[15, 25] 中强化学习后训练技术的最新进展,一些研究开始探索 VLA 模型的强化学习后训练。例如,iRe-VLA [10] 探索在线强化学习如何通过交互实现持续改进来增强预训练的 VLA 模型。VLA-RL [17] 引入一种轨迹级强化学习公式用于 VLA 训练。OctoNav [8] 研究类似 GRPO 的强化学习训练如何提高具身导航中 VLA 的推理能力。SimpleVLA-RL [13] 和 𝜋RL [6] 分别探索自回归和基于流 VLA 的强化学习微调。RL4VLA [16] 系统地研究了不同的强化学习策略以及强化学习微调在各种视觉、语义和执行维度上的影响。尽管这些工作探索 VLA 模型的强化学习后训练策略,但它们仍然假设在强化学习训练阶段可以访问真实标签(GT)信息,例如轨迹是否成功或失败。然而,在测试时,此类 GT 监督信号是不可用的。为了解决这个问题,本文提出一种测试-时训练框架,使模型能够在不依赖 GT 反馈的情况下进行自适应。
同期工作:𝜋∗0.6。Physical Intelligence 发布 𝜋∗0.6 [1],这是一种视觉-语言-动作模型,它使用其 Recap 方法(基于优势条件策略的经验和纠正强化学习)从自主经验中学习。本文工作与 𝜋∗0.6 在解决纯粹基于演示数据训练 VLA 模型的一个基本局限性方面有着相似的动机和理念:即无法处理累积误差并从部署经验中改进。
这两项工作同时出现在学术界和工业界,凸显人们日益认识到基于经验的强化学习对于 VLA 模型超越行为克隆至关重要。这两种方法都表明,要获得可靠且鲁棒的性能,需要从机器人自身的经验中学习,而不是仅仅模仿专家演示。 本文的EVOLVE-VLA,代表该方向的学术工作。
在部署过程中,通过专家演示进行SFT预训练的VLA模型,会遇到与其训练数据分布不同的新场景。传统的SFT模型纯粹依靠模仿学习,缺乏适应这些分布外状态的机制。工作目标是使VLA能够在测试阶段利用与环境的在线交互继续学习。
测试-阶段训练(TTT)需要两个关键组成部分:(1)能够主动与环境交互以生成多样化的轨迹,以及(2)一个反馈信号来评估和改进这些轨迹。通过在线强化学习来实现这一点,其中策略会根据从环境交互中获得的奖励进行迭代优化。如图显示TTT框架的概述:
在线强化学习
交互式轨迹生成。对于给定的任务,通过以温度 𝑇 > 1 从策略的动作token分布中采样来生成多个不同的轨迹。具体来说,从初始状态 𝑠_0 开始,在每个时间步 𝑡,策略输出动作token概率并从分布中采样一个动作 𝑎_𝑡。该动作在环境中执行,产生新的状态 𝑠_𝑡+1。这种闭环交互持续进行,直到估计的任务进度超过阈值(表示完成)或达到最大时间步长 𝐻_max,从而生成轨迹 𝜏 = {(𝑠_0, 𝑎_0), . . . , (𝑠_H, 𝑎_H)}。通过使用不同的随机种子采样 𝐺 条轨迹 {𝜏_i},可以探索不同的解决方案策略。
环境反馈。每条轨迹都会收到一个奖励 𝑅_𝑖,用于评估其质量。该奖励信号作为监督反馈,指导策略改进。与仅从成功演示中学习的 SFT 不同,奖励信号提供差异化反馈,区分更好的轨迹和更差的轨迹,使模型能够通过试错发现并强化有效的行为。
策略更新。采用组相对策略优化 (GRPO) [21] 来更新策略。GRPO 对每个批次中的轨迹奖励进行归一化以计算优势,并应用 PPO -风格的裁剪以实现稳定的更新,而无需单独的值网络。
任务进度估计
测试-时训练的一个关键挑战,是缺少在模拟器训练期间可用但在部署时不可用的预言机奖励信号(例如,来自模拟器的真实成功指标)。通过学习基于任务进度的奖励函数来解决这个问题:估计任务已完成的程度。
任务进度作为奖励函数。基于进度的奖励比二元成功信号具有几个优势。首先,它们是密集的:可以在执行过程中的任何时间点估计进度,即使对于失败的尝试也能提供持续的反馈。这种密集性对于样本高效学习至关重要,尤其是在初始阶段成功轨迹可能很少的长时程任务中。其次,进度是一个比特定任务指标或黑盒子奖励分数更通用、更基础的概念,使其适用于各种操作任务。
任务进度作为终止条件。除了提供奖励之外,任务进度估计还决定何时终止策略执行。当估计进度超过预定义的阈值时,策略执行停止,因为任务被认为已完成;否则,执行将继续,直到达到最大时间步长 𝐻_max。这种双重用途对估计器提出严格的要求:它必须 (1) 计算高效,因为它会被频繁查询(每 Δ check 步)以实时检测任务完成情况;(2) 时间上平滑且一致,因为不稳定的估计会导致过早终止(提前停止有前景的轨迹)或延迟终止(在已完成的任务上浪费计算资源)。虽然可以通过在策略学习过程中进行平均来缓解奖励中的噪声,但一个错误的终止决策可能会截断整个轨迹。因此,稳定进度信号不仅对于学习效率至关后重要,而且对于正确的策略执行也至关重要。
传统进度估计。采用基础critic模型 VLAC [29],该模型以两张图像和任务指令作为输入,并输出一个评论值。正值表示第二张图像相对于第一张图像在任务进度上的提升程度。负值则表示相反的情况。具体而言,给定轨迹 𝜏 = {(𝑠_0, 𝑎_0), . . . , (𝑠_𝐻 , 𝑎_𝐻 )},奖励计算为 𝑅_𝑖 = Critic(𝑜_0, 𝑜_𝐻, 𝑙_task),其中 𝑜_0 和 𝑜_𝐻 是轨迹的初始和最终观测值,𝑙_task 是任务指令。然后将估计的奖励归一化到 [0, 1] 范围内,作为 GRPO 的轨迹奖励 𝑅_𝑖。
累积进度估计
虽然进度评估器提供了密集的反馈,但它可能存在噪声且不一致,尤其对于涉及多个子目标的长期任务而言。单帧对比可能会被表面的视觉变化误导,或者无法捕捉中间进度。这种噪声估计,会对奖励反馈和轨迹终止产生负面影响。
为了解决这些挑战,引入一种累积进度估计机制。关键思想受到快-慢结合哲学的启发:不将最终状态与初始状态进行比较(这对于长轨迹来说变得不可靠),而是以固定的时间间隔维护里程碑帧,并以增量方式计算进度。
基于间隔的里程碑采样。定义一个采样间隔 Δmilestone(例如 64 个时间步)。在轨迹执行过程中,维护一个里程碑帧列表 F_milestone = {𝑓_0, 𝑓_Δmilestone, 𝑓_2Δmilestone, …},它以粗粒度捕捉轨迹的演变。这些里程碑作为衡量进度的参考点。
增量进度计算。以更细的粒度(每 Δcheck 步,其中 Δcheck < Δmilestone),查询评估器以估计相对于最近里程碑的进度。具体来说,在时间步 𝑡,计算:
𝑐_𝑡 = Critic(𝑓_⌊𝑡/Δmilestone⌋ · Δmilestone, 𝑜_𝑡),
其中 𝑐_𝑡 ∈ [−100, 100] 表示从上一个里程碑到当前状态的增量进度。当 𝑡 到达一个新的里程碑(𝑡 mod Δmilestone = 0)时,将 𝑜_𝑡 添加到 F_milestone 并将 𝑐_𝑡 存储在评估器历史记录中。
累积值聚合。给定一系列增量评估器值 {𝑐_Δmilestone, 𝑐_2Δmilestone, …},将里程碑处收集的值 {𝑐_𝑘Δmilestone} 累积到一个进度值 𝑣_𝑡 ∈ [0, 100] 中,该值用于估计任务完成百分比:
𝑣_𝑖 =𝑣_𝑖−1 +(100−𝑣_𝑖−1) · 𝑐_𝑖 / 100, 𝑣_0 =0,
其中 𝑖 表示里程碑的索引。这种递归公式应用收益递减原则:积极的进展会使值以剩余距离的一定比例向 100 靠近,而负面评价则会按比例降低该值。关键在于,调整幅度与 (100 − 𝑣_𝑖−1)(距离完成目标的剩余差距)成比例,这可以防止过于乐观的评价导致值过冲,也可以防止悲观的评价导致值灾难性崩溃。
完整的机制如算法 1 所示。它有效地平滑嘈杂的评价信号:通过与最近的里程碑而不是遥远的初始状态进行比较,减少长期漂移的影响;通过应用比例调整而不是原始评价值,创建更稳定的学习信号;通过以收益递减的方式逐步累积进度,平滑局部波动。这种平滑的奖励为强化优化提供更可靠的反馈。
此外,这种机制在计算上也十分高效。回想一下,由于需要频繁调用进度值来确定轨迹终止,在时间步长 𝑇 时,朴素的多帧方法需要进行 𝑇 − 1 次评价调用来评估所有成对比较,而本方法只需要一次调用——将当前帧与最近的里程碑进行比较。
渐进式时间范围扩展
长时程任务对测试时训练提出根本性的挑战:在训练早期,策略远未达到熟练程度,成功完成任务的情况很少见,这使得在嘈杂的奖励信号下进行信用分配变得困难。简单地允许自由探索直到最大时间范围 𝐻_max 会导致低质量的轨迹,从而提供微弱的学习信号。即使使用累积进度估计,从一开始就对非常长的时间范围进行优化也可能导致不稳定的学习动态。
为了解决这个问题,采用渐进式时间范围扩展策略。将训练过程分为多个阶段,每个阶段都使用最大轨迹时间范围 𝐻_max。随着训练阶段的推进,逐渐增加 𝐻_max,使策略能够首先掌握较短的子目标,然后再解决完整的任务。在早期阶段,智体专注于短期目标和基本操作行为,此时奖励信号更加清晰直接。随着后期阶段时间范围的扩展,策略学会将这些行为串联起来,并对更长的时间依赖关系进行推理,最终优化整个任务的执行。
这种安排具有多项优势。首先,较短的时间范围自然会减少进度估计中噪声的累积,因为需要更少的里程碑比较。其次,在较简单的子目标上取得早期成功可以提供积极的学习信号,而从头开始优化完整轨迹时则缺乏这种信号。第三,分阶段的进展使策略能够构建组合技能,早期阶段建立稳健的基本操作,而后期阶段则学习如何协调这些操作。
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐


所有评论(0)