推理“刹不住车”?新框架让DeepSeek-R1们告别过度思考,已开源
DeepSeek-R1、OpenAI o1等推理模型大放异彩。但随着能力增强,一个副作用越来越明显——它们开始想太多了。从奥数题到程序逻辑,能解的题越来越多、推理链条越来越长。也就是说,模型在完成推理任务时,常常出现过度思考:步骤繁冗:明明两步能解完,非要绕七八步,搞得逻辑链又长又乱;表述拖沓:简单结论非要用复杂语言兜圈子,说了一堆才到点子上;输出冗长:生成了大量无效tokens,既浪费算力,又拖
前言
DeepSeek-R1、OpenAI o1等推理模型大放异彩。但随着能力增强,一个副作用越来越明显——
它们开始想太多了。
从奥数题到程序逻辑,能解的题越来越多、推理链条越来越长。
也就是说,模型在完成推理任务时,常常出现过度思考:
- 步骤繁冗:明明两步能解完,非要绕七八步,搞得逻辑链又长又乱;
- 表述拖沓:简单结论非要用复杂语言兜圈子,说了一堆才到点子上;
- 输出冗长:生成了大量无效tokens,既浪费算力,又拖慢推理速度。
这不光影响效率,更可能导致错误——在长链式思考中,每一步的小误差都会累积放大,最后可能想着想着就跑偏了。
于是,一个关键问题摆在了现实面前:
如何让模型既然会思考推理,也懂得“适可而止”,知道什么时候该停下来?
针对于此,来自浙江大学、天津大学和MSRA的研究团队提出了一个新方法,Self-Braking Tuning(SBT)。
它是一种轻量级、通用的调优机制,可无缝集成到现有大模型中。其主要目的是让模型不再一味求“多想”,而是在最短路径上到达正确答案。
其核心设计包括刹车信号机制、多任务微调,且无需外部模块或改动推理流程。
其中,刹车信号机制是在训练阶段引入一类特殊的信号,指示“当前信息已经足够完成任务”,模型据此学习何时应终止推理。
多任务微调则指挥模型同时学习如何解题&何时停步,兼顾准确性与效率。
总结成一句话,SBT就像在大模型头脑里装了个“限速器”,让它不再无休止地输出,更聪明,也更节能。
让模型知道自己“是否想太多”
SBT框架的核心目标,是让模型具备自我判断是否“想得太多”的能力,能够在无需外部干预的情况下,适时终止推理过程。
它的特别之处在于,不依赖外部规则或指令,而是从模型内部出发,重塑模型对自身思考状态的理解与掌控力。
简单来说,就是让模型像人一样,在觉得“想得差不多了”时,能够自然地停下来,而不是无休止地继续推理。
构建过度推理识别指标体系
为了更有效地识别推理过程中可能出现的冗余部分,研究团队构建了一套参考标准答案的评估体系。
**他们将推理划分为两个主要阶段:*基础方案(Foundation Solution)和进化方案(Evolution Solution)*。
前者是模型在初步理解问题后给出的第一轮解答,而后者则是大模型后续对这一初始方案的进一步思考、补充和验证。
基于此,团队提出了两个核心指标:推理效率比和过度推理标记比。
推理效率比衡量表示的是模型在达到第一个正确答案所需的推理步骤与整个推理过程总步骤的比例。
比例越接近1,表示模型的推理效率越高,过度推理的可能性越低。
而过度推理标记比则通过分析推理过程中的语言模式,识别与过度推理行为相关的特定词汇,如 “Wait”“But”“However” 等,来量化过度推理的严重程度。
这两种指标相互补充,从结构和语言两个维度全面评估推理过程中的冗余程度。
创新性数据构建策略
研究团队基于上述指标体系,开发了Self-Braking Tuning Exact*(SBT-E)和Self-Braking Tuning Dynamic*(SBT-D)两种互补的数据构建策略。
SBT-E采用了一种统一的截断策略,对每条推理路径进行结构化处理。
在存在过度推理的案例中,保留模型生成的基础解决方案以及一个进化方案,并补充一小段被掩码的后续内容。
这样的设计有助于模型在训练时明确区分哪些推理是必要的,哪些则是多余的,从而逐步学会控制推理的深度,避免无效延展。
SBT-D则采用逐步适应的策略,根据不同问题的特点动态调整推理长度。
从完整保留基础解决方案开始,逐步添加后续推理步骤,并在每一步重新计算过度推理分数。当分数超过预设的阈值时,停止添加推理步骤,并将超出部分进行掩码处理。
这种方法使得模型能够在不同复杂度的问题上自适应地终止推理,避免过度推理的发生。
自我调节制动策略
除了数据构建策略外,研究团队还引入了自我调节制动策略,进一步增强模型对推理过程的自我控制能力。
在SBT-E和SBT-D构建的数据样本里,研究团队对推理过程的后期冗余部分进行了掩码处理。
这就像给模型的推理之路设置关卡,挡住那些非必要的重复思考。
模型能看见这些被掩码的内容,但在训练时,这些部分不会计入损失函数,仿佛是“只展示不考核”。
通过这种方式,模型逐渐学会聚焦关键推理步骤,不再深陷无意义的冗余思考,从而提升推理效率。
除了对冗余推理部分进行掩码处理,SBT框架还引入了自然语言提示机制,作为引导模型停步的辅助方式。
这些提示以简洁的语言表达模型当前的判断,例如:”Wait, my answer is too verbose. Let me answer it more concisely”。
借助语言模型对语义的理解能力,这种方式能够在推理过程中起到提醒作用,帮助模型识别信息已足够、无需继续展开,从而减少无谓生成,提升整体推理的效率与简洁性。
实现“少思考但不失准确”的效果
在数学推理基准测试*(AIME、AMC、MATH500、GSM8K)*上,研究团队对SBT框架进行了广泛的实验评估。
从实验结果来看,SBT框架在多个数学推理数据集上展现出了显著的性能提升,尤其是在推理效率方面,取得了前所未有的进展。
相比于传统的完整推理过程,SBT通过识别并主动规避冗余推理步骤,实现了“少思考但不失准确”的效果。
以Llama-3.1-8B-Instruct模型为例,应用SBT-E策略后,模型在推理过程中生成的token数量减少了62.8%,但最终的准确率仍稳定维持在94.1%。
更为重要的是,这一方法在多个模型架构和规模下均表现出高度的稳定性和通用性,充分证明了其方法论的鲁棒性和推广价值。
它不仅证明了大量推理内容在实际任务中是冗余的,而且表明这些冗余部分的剔除不会损害模型对复杂数学问题的理解与解答能力。
最后
为什么要学AI大模型
当下,⼈⼯智能市场迎来了爆发期,并逐渐进⼊以⼈⼯通⽤智能(AGI)为主导的新时代。企业纷纷官宣“ AI+ ”战略,为新兴技术⼈才创造丰富的就业机会,⼈才缺⼝将达 400 万!
DeepSeek问世以来,生成式AI和大模型技术爆发式增长,让很多岗位重新成了炙手可热的新星,岗位薪资远超很多后端岗位,在程序员中稳居前列。
与此同时AI与各行各业深度融合,飞速发展,成为炙手可热的新风口,企业非常需要了解AI、懂AI、会用AI的员工,纷纷开出高薪招聘AI大模型相关岗位。
最近很多程序员朋友都已经学习或者准备学习 AI 大模型,后台也经常会有小伙伴咨询学习路线和学习资料,我特别拜托北京清华大学学士和美国加州理工学院博士学位的鲁为民老师给大家这里给大家准备了一份涵盖了AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频 全系列的学习资料,这些学习资料不仅深入浅出,而且非常实用,让大家系统而高效地掌握AI大模型的各个知识点。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】

AI大模型系统学习路线
在面对AI大模型开发领域的复杂与深入,精准学习显得尤为重要。一份系统的技术路线图,不仅能够帮助开发者清晰地了解从入门到精通所需掌握的知识点,还能提供一条高效、有序的学习路径。
但知道是一回事,做又是另一回事,初学者最常遇到的问题主要是理论知识缺乏、资源和工具的限制、模型理解和调试的复杂性,在这基础上,找到高质量的学习资源,不浪费时间、不走弯路,又是重中之重。
AI大模型入门到实战的视频教程+项目包
看视频学习是一种高效、直观、灵活且富有吸引力的学习方式,可以更直观地展示过程,能有效提升学习兴趣和理解力,是现在获取知识的重要途径
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
海量AI大模型必读的经典书籍(PDF)
阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。
600+AI大模型报告(实时更新)
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
AI大模型面试真题+答案解析
我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】


DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐
所有评论(0)