25年12月来自Nvidia、UCLA和斯坦福的论文“Counterfactual VLA: Self-Reflective Vision-Language-Action Model with Adaptive Reasoning”。

近年来,基于推理增强的视觉-语言-动作(VLA)模型通过生成中间推理轨迹,提高端到端自动驾驶的可解释性。然而,这些模型主要描述其感知的内容和意图,很少质疑其规划动作是否安全或恰当。本文提出一种反事实VLA(CF-VLA)框架,该框架具有自反思能力,使模型能够在执行前对其规划动作进行推理和修正。CF-VLA首先生成概括驾驶意图的时间分段元动作,然后基于元动作和视觉环境进行反事实推理。这一步骤模拟潜结果,识别不安全行为,并输出修正后的元动作,从而指导最终轨迹的生成。为了高效地获得这种自反能力,提出一种“展开(rollout)-过滤-标注”流程,该流程从基础(非反事实)VLA的展开数据中挖掘高价值场景,并为后续训练轮次标注反事实推理轨迹。在大规模驾驶数据集上的实验表明,CF-VLA将轨迹精度提高17.6%,安全指标提高20.5%,并展现出自适应思维:它仅在具有挑战性的场景中启用反事实推理。


反事实视觉-语言-动作模型(CF-VLA),是一种配备自反推理循环的VLA系统,它直接对其预测的控制行为进行反事实分析。如图(底部)所示,CF-VLA首先预测一系列基于语言、按时间分段的元动作,这些元动作概括智体的意图。该模型并非将这些元动作视为最终结果,而是根据视觉环境和自身的元动作,进行反事实思维链步骤,并提出“如果我按照这个规划执行,会发生什么?这样做是否可取?”的问题。在确定最终轨迹之前,它会修正不安全或次优的规划(例如,从“加速驶向交叉路口”改为“提前减速并让行”)。这种“元动作→反事实推理→更新后的元动作→轨迹”循环将推理从一次性描述提升到对模型自身行为的反事实分析,并将这种一次性分析转化为可操作的自我修正。为了在实践中实现这种行为,CF-VLA 将元动作与“展开-过滤-标注”流程相结合:1)展开当前策略以生成候选元动作和轨迹;2)通过检查预填充真实元动作是否能显著改善模型生成的轨迹(相对于模型生成的元动作),自动选择高价值数据点;3)提示教师模型生成反事实推理轨迹,解释当前方案为何不太理想以及如何调整它。在统一的指令提示下,对名义数据集和反事实标注数据集的混合进行训练,可以得到一个具有自适应反事实推理能力的 CF-VLA 模型:如图(顶部)所示,该模型在最困难的场景中思考更频繁,任务改进也更大。
请添加图片描述

端到端的视觉-语言-动作(VLA)模型在将视觉上下文直接映射到控制输出方面展现出了令人瞩目的进展。然而,它们的推理过程在很大程度上是描述性的:当智体提出错误的规划时,模型本身并没有机制来分析该规划并在执行前修正决策。反事实视觉-语言-动作(CF-VLA),它为VLA配备一个自反循环,该循环能够对其自身预测的动作进行推理,并利用该推理来修正规划。

自反反事实推理

要使VLA具备反事实(CF)推理能力,仍然存在一些挑战。首先,模型需要一个中间表示,该表示既能被语言骨架解释,又能与动作紧密耦合。通过时间分段的元动作来解决这个问题,这样模型就可以在解码轨迹之前,对语言空间中的高层意图进行推理和修正。其次,反事实推理必须将元动作与其未来后果关联起来。为了准备用于微调模型的数据,开发一个展开-过滤-标注流程,该流程选择数据并自动生成高价值的反事实推理轨迹。将反事实推理视为元动作之上的一个插入式自反机制。如图所示,CF-VLA 不是将元动作映射到轨迹(元动作→轨迹),而是执行一个自反循环:

元动作→反事实推理→更新后的元动作→轨迹
请添加图片描述

自适应思维。自适应推理允许模型动态地决定何时进行推理以及何时直接响应。这种机制至关重要,因为大多数场景都很简单明了,而对其进行显式推理会增加产生幻觉的风险并浪费测试时间。如图 (A) 所示,对模型使用相同的指令,并允许其隐式地决定是否生成推理轨迹。由于元动作和推理都在语言空间中运行,CF 推理行为由第一个元动作序列之后生成的词语(动作:或思考:)控制。通过混合训练包含和不包含 CF 轨迹的样本,模型可以隐式地学习何时需要进行自我反思推理。

请添加图片描述

元动作

元动作提供一种语言原生的中间抽象,介于推理和底层动作之间。每个元动作序列都表达自车在三个正交维度上的预期行为:纵向(加速、减速、保持速度、等待、倒车)、横向(直行、左转、右转)和车道级(保持车道、左变道、右变道)。

尽管与操控VLA[11, 23]、导航模型[6]和自动驾驶VLA[24, 33]中使用的底层命令类似,但元动作考虑时间因素,并与连续轨迹紧密耦合。CF-VLA 将元动作建模为覆盖 6.4 秒规划时域的时间分割片段。在三个组中,元动作均在互不重叠的时间间隔内定义,共同描述驾驶行为的预期演变。这种时间格式使模型能够对动作转换进行组合推理,捕捉时间意图,并将语言推理与预测轨迹的结构直接对齐。

展开-过滤-标注的反事实流程

如上图 (B) 所示,为了监督反事实推理,CF-VLA 依赖于一个展开-过滤-标注的数据管理流程,该流程从模型自身的行为中挖掘高价值场景。
数据展开。从一个使用元动作训练但没有反事实推理的 VLA 模型开始,将模型展开到训练集上。对于每个场景,生成两组轨迹:1)自由生成轨迹 x_free:模型首先预测元动作,然后根据自身的元动作解码轨迹。2)预填充元动作轨迹 x_pf:模型根据真实元动作进行解码。为了提高鲁棒性,每个场景在每种设置下采样 6 条输出轨迹。这样,对于相同的视觉上下文,就会生成成对的轨迹集 (x_free, x_pf)。

数据过滤。令 minADE(x, x⋆) 表示预测轨迹集 x 与专家预测的未来轨迹 x⋆ 之间的最小位移误差。在上图 © 中基于 (minADE(x_free , x⋆ ), minADE(x_pf , x⋆ )) 对每个场景进行散布,其中每个数据点的颜色代表自由生成中的元动作准确率 (IOU)。关键在于,许多场景位于对角线下方:模型在自由生成中表现不佳,但在预先填充元动作后能够与专家轨迹相匹配,并且这些场景通常具有较低的 IOU。这些场景恰恰是元动作成为瓶颈的场景。 CF-VLA 利用自由生成轨迹与由填充真实值的元动作诱导轨迹之间的轨迹差异来过滤数据:minADE (x_pf, x⋆) < minADE (x_free, x⋆) 且 minADE (x_free, x⋆) > ε,其中 ε = 0.5 避免标注已掌握的场景。直观地说,这些情况表明改进元动作将显著提高轨迹质量。只要改进元动作使其更接近真实值,就能提升任务性能。对角线以上的样本已经拥有良好的自由生成轨迹,因此反事实监督带来的益处有限,无需使用。数据过滤对最终性能至关重要。

数据标注。对于过滤后的场景,用高容量教师模型(Qwen2.5-VL-72B-Instruct)生成简洁的反事实推理轨迹。教师模型的提示概要如上图(B)所示。输出结果为一段文字,其内容包括:1) 分析预测的元动作为何不如专家方案,以及 2) 指出应如何调整这些元动作。这些标注样本构成反事实推理数据集DCF。

实现细节

混合数据训练。采用混合数据训练方案,结合仅包含轨迹的数据集 D_traj、元动作标注的数据集 D_meta 和反事实推理数据集 D_CF,如图所示。训练分阶段进行。首先在 D_traj 上训练基础 VLM 模型,以学习基本的轨迹生成(仅轨迹)。然后通过在 D_traj ∪ D_meta 上进行微调引入元动作,得到初始部署中使用的元动作模型。最后,通过在混合数据集 D_traj ∪ D_meta ∪ D_CF 上进一步微调,得到完整的 CF-VLA 模型。在训练过程中解冻所有参数。
请添加图片描述

损失掩码和加权。该模型仅使用基于助手生成的tokens交叉熵损失进行优化;来自系统或用户提示的tokens会被屏蔽。对于 DCF 中的反事实样本,第一个(未纠正的)元动作块的损失也会被屏蔽,以防止模型从先前的错误中学习。在辅助响应中,不同的token组(元动作、推理或轨迹tokens)具有不同的损失权重。

多轮训练。CF-VLA 的一个吸引人的特性是,训练好的模型可以重新插入 rollout-filter-label 循环中,以创建新轮的 CF 数据 DRound2_CF。与传统的 CoT 方法主要为给定场景生成确定性解释不同,CF-VLA 的推理基于预测的元动作,因此可以为同一场景生成不同的推理轨迹。这能够进一步利用数据集,并生成具有不同元动作的不同推理轨迹。在另一轮反事实数据集上进行微调进一步改进模型,实现自改进的反事实飞轮。

模型架构。CF-VLA 的大小和设计与 Alpamayo-R1 [19] 类似。该模型以文本提示、两个前置视频和自我轨迹历史记录作为输入。文本提示定义任务:1)纯轨迹预测,或 2)元动作和轨迹预测(可选反事实推理)。广角(120°)和长焦(30°)摄像头以 2 Hz 的采样率提供过去 2 秒的两个视频。过去 1.6 秒的自车运动通过基于 MLP 的轨迹历史记录编码器嵌入到单个轨迹历史记录token中。未来的运动由一组紧凑的离散轨迹token表示。扩展 VLM 主干的词汇表,以容纳轨迹token化器引入的新tokens,以及额外的 <begin_of_traj> 和 <end_of_traj> tokens。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐