某中心的“内部强化学习”如何解锁长视距AI智能体

研究人员开发了一种新技术,使得AI模型更容易学习通常会导致大语言模型产生幻觉或崩溃的复杂推理任务。他们的技术被称为内部强化学习,不是通过下一个令牌预测来训练大语言模型,而是引导模型的内部激活,为输入问题开发高层级的、分步的解决方案。最终,这可能为创建能够处理复杂推理和现实世界机器人技术的自主智能体,提供一条可扩展的路径,而无需持续的人工指导。

下一个令牌预测的局限性

强化学习在大语言模型的后训练中扮演着关键角色,尤其是对于需要长视距规划的复杂推理任务。然而,问题在于这些模型的架构。大语言模型是自回归的,这意味着它们一次生成一个令牌序列。当这些模型在训练期间探索新策略时,它们通过对下一个单一令牌或动作进行微小的随机更改来实现。这暴露了一个更深层次的限制:下一个令牌预测迫使模型在错误的抽象层级上搜索解决方案,使得长视距推理效率低下,即使模型“知道”该做什么。

这种逐个令牌的方法对于基本的语言建模效果很好,但在奖励稀疏的长视距任务中会失效。如果模型仅仅依赖随机的令牌级采样,那么偶然发现正确的多步解决方案的概率微乎其微,“大约只有百万分之一”,研究人员表示。

问题不仅仅是模型会混淆;而是它们在错误的层级上混淆。论文合著者在评论中指出,在一个20步的任务中,智能体可能迷失在单个步骤的细微细节中,或者可能忘记总体目标。

“我们认为,当面对具有某些抽象结构的问题时……[面向目标的探索]是你想要的,”合著者说。通过在抽象层面首先解决问题,智能体就确定了一条路径,确保它不会“在某个推理步骤中迷失”而无法完成更广泛的工作流。

引导大语言模型的内部思维

为了解决这个问题,该领域长期以来一直关注分层强化学习。分层强化学习试图通过将复杂问题分解为时间抽象动作的层级结构来解决问题,而不是将任务作为一串令牌来管理。

然而,发现这些合适的子程序仍然是一个长期的挑战。当前的分层强化学习方法常常无法发现合适的策略,经常“收敛到退化的选项”,这些选项不代表有意义的行为。即使像GRPO这样复杂的现代方法在复杂环境中也会失败,因为它们无法有效弥合低级执行和高级规划之间的差距。

为了克服这些限制,某中心团队提出了内部强化学习。先进的自回归模型在内部已经“知道”如何执行复杂的多步任务,即使它们没有经过明确的训练来这样做。因为这些复杂行为隐藏在模型的残差流中,研究人员引入了一个“内部神经网络控制器”或元控制器。元控制器不是监视和更改输出令牌,而是通过向模型中间层的内部激活施加更改来控制模型的行为。

这种微调将模型引导到一个特定的有用状态。然后,基础模型会自动生成实现该目标所需的各个步骤序列,因为它已经在初始预训练期间看到了这些模式。

元控制器通过无监督学习进行操作,不需要人工标记的训练样本。相反,研究人员使用一个自监督框架,模型在其中分析完整的行为序列,并逆向推断出最能解释这些行动的隐藏的高层级意图。

在内部强化学习阶段,更新应用于元控制器,这将训练从下一个令牌预测转变为学习能够导致解决方案的高层级动作。

要理解其实际价值,可以考虑一个负责代码生成的企业智能体。目前存在一个艰难的权衡:需要“低温度”来保证语法正确,但需要“高温度”来解决逻辑难题。

“内部强化学习可能通过允许模型探索抽象动作的空间来促进这一点,即结构化逻辑和方法调用,同时将这些动作的令牌级实现委托给基础模型稳健的、较低温度的分布,”合著者说。智能体在不破坏语法的情况下探索解决方案。

研究人员研究了应用该控制器的两种方法。在第一种方法中,基础自回归模型在行为数据集上预训练后固定,而训练元控制器来引导固定模型的残差流。在第二种方法中,元控制器和基础模型联合优化,两个网络的参数同时更新。

内部强化学习实践

为了评估内部强化学习的有效性,研究人员在旨在难倒传统学习者的分层环境中进行了实验。这些环境包括一个离散网格世界和一个连续控制任务,其中四足“蚂蚁”机器人必须协调关节运动。两种环境都使用了奖励稀疏且行动序列非常长的设置。

由于在长视距上信用分配的困难,像GRPO和CompILE这样的基线方法在一百万次尝试内都无法学会这些任务,而内部强化学习仅用少量训练尝试就实现了高成功率。通过选择高层级目标而非微小步骤,元控制器极大地减少了搜索空间。这使得模型能够识别哪些高层级决策导致了成功,使信用分配足够高效,从而解决了稀疏奖励问题。

值得注意的是,研究人员发现“固定”方法更优。当基础模型和元控制器从头开始共同训练时,系统未能发展出有意义的抽象。然而,当应用于固定模型时,元控制器成功地发现了关键检查点,无需任何人标签,完美地将其内部切换机制与智能体完成一个子目标并开始下一个子目标的真实时刻对齐。

未来影响

随着行业目前专注于输出冗长“思维链”以解决问题的推理模型,某中心的研究指向了一个不同的、可能更高效的未来。

“我们的研究加入了越来越多的工作,表明‘内部推理’不仅是可行的,而且可能比基于令牌的方法更高效,”合著者说。“此外,这些无声的‘思维’可以与特定的输入模式解耦——这一特性可能对多模态AI的未来特别重要。”

如果内部推理可以在不外化的前提下被引导,那么AI智能体的未来可能更少地依赖于提示策略,而更多地取决于我们访问和引导模型内部已表示内容的能力。对于那些押注于必须进行长期规划、适应和行动的自主系统的企业来说,这种转变可能比任何新的推理基准都更重要。FINISHED
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐