本文系统综述了Agentic Reasoning智能体推理范式,将其定义为使LLMs成为自主智能体的推理模式,包含基础、自进化和集体三层核心框架,以及上下文内和训练后两种优化模式。该范式已在数学探索、科学发现、机器人、医疗等领域落地应用,相关基准涵盖工具使用、搜索、记忆等核心机制,同时面临个性化、长周期交互等开放挑战,为智能体系统设计提供了统一roadmap。


编者摘要:本文系统综述了Agentic Reasoning(智能体推理)范式,将其定义为使大语言模型(LLMs)成为自主智能体,通过规划、行动、持续交互实现目标的推理模式,核心分为基础智能体推理(单智能体核心能力)、自进化智能体推理(反馈与记忆驱动的持续改进)、集体多智能体推理(多智能体协作分工)三个互补层面;优化模式分为上下文内推理(推理时无参数更新)训练后推理(通过强化学习 / 微调优化),已在数学探索、科学发现、机器人、医疗等领域落地,相关基准涵盖工具使用、搜索、记忆等核心机制,当前仍面临个性化、长周期交互、世界建模等开放挑战,为智能体系统设计提供了统一 roadmap。

一、引言:从 LLM 推理到 Agentic Reasoning
  1. 研究背景
  • 传统 LLM 推理局限于静态输入、单轮推理,无法适应开放动态环境;
  • 智能体推理 重构 LLM 为自主智能体,通过 “感知 - 规划 - 行动 - 反馈” 闭环,实现交互式、自适应推理。
  1. 核心定义
  • 涵盖基础能力(规划、工具使用、搜索)、自进化(反馈 / 记忆驱动改进)、集体协作(多智能体分工),通过上下文内或训练后优化实现。
  1. 与传统 LLM 推理的差异

二、三层核心推理框架
(一)基础智能体推理:单智能体核心能力
  • 规划推理

    将目标分解为子任务,包括上下文内规划(Workflow 设计、树搜索如 MCTS、过程形式化)和训练后规划(奖励设计、最优控制),代表方法有 ToT(Tree of Thoughts)、ReWOO 等;

  • 工具使用优化

    分上下文内集成(推理时调用工具)、训练后集成(SFT/RL 优化工具使用策略)、编排式集成(多工具协同),支持 API 调用、代码执行等,代表框架有 HuggingGPT、ToolLLM;

  • 智能体搜索

    动态决定检索时机与内容,分上下文内搜索(推理时交互检索)、训练后搜索(SFT/RL 优化检索策略)、结构增强搜索(知识图谱辅助),解决传统 RAG 静态检索局限。

(二)自进化智能体推理:持续改进机制
  1. 反馈机制

    分反思反馈(推理时自批判修正)、参数适配(训练时将反馈内化到权重)、验证器驱动反馈(外部信号引导重试),代表方法有 Reflexion、Self-Refine;

  2. 智能体记忆

    包括扁平记忆(事实 / 经验存储)、结构化记忆(图 / 多模态表示)、训练后记忆控制(RL 优化记忆读写),解决长上下文与经验复用问题;

  3. 核心能力进化

    自进化规划(任务生成 + 策略修正)、自进化工具使用(工具创建与合成)、自进化搜索(动态检索策略优化)。

(三)集体多智能体推理:协作与分工
  1. 角色分类
  • 通用角色:领导者(任务分解)、执行者(工具调用)、评论家(质量验证)、记忆管理者(知识存储)、沟通协调者(信息流转);
  • 领域专属角色:软件工程(架构师 / 开发者 / 测试员)、医疗(分诊员 / 专科医生 / 医生)、金融(分析师 / 风险管理者 / 交易员);
  1. 协作模式

    上下文内协作(手动 / LLM 驱动流水线)、训练后协作(提示优化 / 拓扑优化 / 策略学习);

  2. 多智能体进化

    跨会话进化(任务间经验迁移)、记忆管理(共享 / 分布式记忆)、协作训练(协同优化协作策略)。

三、两种优化模式
优化模式 核心逻辑 关键方法 优势
上下文内推理 推理时通过结构化编排实现,无参数更新 树搜索、Workflow 设计、提示工程 灵活、无需额外训练
训练后推理 通过训练将推理策略内化到模型权重 强化学习(PPO/GRPO)、监督微调(SFT) 性能更稳定、适配复杂任务
四、主要应用领域
应用领域 核心场景 代表案例
数学探索与编程 奥林匹克数学、代码生成 / 调试、程序搜索 AlphaGeometry、ChatDev、CodeAgent
科学发现 药物研发、材料设计、实验自动化 ChemCrow、LIDDIA、AI Scientist-v2
机器人与 embodied 智能体 导航、操作、多模态交互 Voyager、SayCan、EmbodiedGPT
医疗健康 诊断、治疗规划、医疗数据处理 MMedAgent、MedAgent-Pro、EHRAgent
自主 Web 探索与研究 网页导航、文献综述、科研自动化 WebGPT、GPT Researcher、DeepResearcher
五、基准测试体系
(一)核心机制基准
核心机制 代表基准 关键指标
工具使用 ToolQA(1530 对话)、ToolLLMToolBench(16464 API) 工具调用准确率、任务完成率
搜索 WebWalker、InfoDeepSeek、MMSearch 信息检索准确率、多跳推理成功率
记忆与规划 PerLTQA(8.5K QA)、LOCOMO(19 会话)、PlanBench 记忆 retention 率、规划有效性
多智能体 AgentBench、MultiAgentBench、MMAS 协作效率、任务完成率、沟通成本
(二)应用基准
  • 机器人:ALFWorld(文本 3D 环境交互)、OSWorld(桌面生产力任务);
  • 科学发现:ScienceWorld(基础科学实验)、LAB-Bench(生物学任务);
  • 医疗:AgentClinic(虚拟医院诊断)、MedAgentBench(医疗 QA + 患者模拟);
  • Web 智能体:WebArena(90 + 真实网站)、Mind2Web(跨域网页自动化)。
六、开放问题与未来方向
  1. 用户中心与个性化:适配个体偏好、动态需求与使用习惯;
  2. 长周期交互:长时域推理中的信用分配与误差控制;
  3. 世界建模:动态环境中的内部仿真、因果推理与预测;
  4. 多智能体协作训练:大规模智能体的协作策略优化与训练效率;
  5. 潜在智能体推理:latent 空间推理的可解释性与可控性;
  6. 治理框架:现实部署中的安全、合规与风险防控。

七 关键问题Q&A

问题 1:Agentic Reasoning 的核心框架是什么?其三层推理结构之间是如何关联的?

:核心框架是 “三层推理 + 两种优化模式” 的统一体系。三层推理结构呈递进关联:① 基础智能体推理是底层,提供单智能体的核心能力(规划、工具使用、搜索),适配稳定环境;② 自进化智能体推理在基础层之上,通过反馈、记忆机制实现核心能力的持续改进,适配动态环境;③ 集体多智能体推理是扩展层,将单智能体能力通过角色分工、协作机制规模化,解决复杂任务。三者互补,基础层是能力基石,自进化层提升适应性,集体层扩大应用边界,共同支撑 Agentic Reasoning 从 “能做” 到 “做好” 再到 “协同做” 的演进。

问题 2:Agentic Reasoning 的两种优化模式(上下文内推理与训练后推理)在技术路径、适用场景上有何核心差异?

:核心差异集中在技术逻辑与场景适配:① 技术路径:上下文内推理无需更新模型参数,通过结构化编排(如树搜索、Workflow 设计)、提示工程实现推理时优化;训练后推理通过强化学习(如 PPO/GRPO)、监督微调(SFT),将有效推理策略内化到模型权重;② 适用场景:上下文内推理适合快速部署、任务多变的场景(如临时网页检索、低资源环境),优势是灵活、无训练成本;训练后推理适合任务固定、对性能要求高的场景(如专业医疗诊断、长期机器人控制),优势是推理效率高、稳定性强;③ 互补关系:实际应用中常结合使用,如用上下文内推理快速适配新任务,再通过训练后推理固化高频有效策略。

问题 3:Agentic Reasoning 在现实场景中已落地的主要领域有哪些?各领域的核心应用价值是什么?

:已落地六大核心领域,核心价值如下:① 数学探索与编程:解决奥林匹克数学题、自动化代码生成 / 调试,价值是提升推理精度与开发效率(如 AlphaGeometry 实现奥数级几何推理);② 科学发现:加速药物研发、材料设计、实验自动化,价值是缩短科研周期(如 ChemCrow 实现化学合成规划);③ 机器人与 embodied 智能体:实现导航、物理操作、多模态交互,价值是提升机器人自主化水平(如 Voyager 实现开放世界机器人技能学习);④ 医疗健康:辅助诊断、治疗规划、医疗数据处理,价值是提高医疗效率与准确性(如 MMedAgent 实现多模态医疗工具使用);⑤ 自主 Web 探索与研究:自动化网页导航、文献综述、科研流程,价值是降低信息获取与研究成本(如 GPT Researcher 生成带引用的研究报告);⑥ 金融 / 法律:支持风险评估、合同分析、合规审查,价值是提升决策科学性与合规性(如 FinRobot 适配金融场景多智能体协作)。

“大语言模型(LLM)的 Agentic Reasoning(智能体推理)总览图”,清晰展示了 Agentic Reasoning 的核心流程、能力模块、进化机制、协作模式与应用场景,整体逻辑是 “从任务提出到泛化落地” 的闭环,各模块解析如下:

一、顶部核心流程:任务从提出到泛化的闭环

用户(User)向系统提出(Propose)任务(Task)→ 由Agentic Reasoning System(智能体推理系统)解决(Solve)→ 最终泛化(Generalize)到未来任务(Future Tasks),体现 Agentic Reasoning“解决当前任务 + 沉淀经验适配未来任务” 的核心价值。

二、核心对比:LLM 推理 vs Agentic Reasoning

图中明确了传统 LLM 推理与 Agentic Reasoning 的本质差异(对应文档中 “传统 LLM 推理的局限”):

  • 范式:从 “静态输入(Static Input)” 转为 “动态上下文(Dynamic Context)”;
  • 计算:从 “被动生成(Passive)” 转为 “交互式行动(Interactive)”;
  • 学习:从 “仅离线预训练(Pre-trained)” 转为 “持续进化(Evolving)”。

三、四大核心能力模块(图中四个主要板块)

1. Foundational Agentic Reasoning(基础智能体推理)

对应文档 “基础智能体推理” 部分,是单智能体的核心能力底座,包含 3 个关键能力:

  • Complex Planning(复杂规划)

    核心是 “任务分解→评估→调整”,实现复杂目标的分步落地(如图标展示 “任务拆解、多步骤支撑”);

  • Tool Use(工具使用)

    核心是 “工具选择→编排→上下文感知调用”,扩展 LLM 的能力边界(如图标展示 “多工具协同、适配场景”);

  • Web Search(网络搜索)

    核心是 “动态搜索→结构化搜索→搜索策略优化(SFT/RL)”,解决传统 RAG 的静态检索局限(如图标展示 “从网页获取经验、多源搜索”)。

2. Self-evolving Agentic Reasoning(自进化智能体推理)

对应文档 “自进化智能体推理” 部分,是智能体 “越用越好” 的核心机制:

  • Feedback Loop(反馈循环)

    通过 “自反思→自适应→重试” 修正错误(如图标展示 “反思→重新规划→重试” 的流程);

  • Agentic Memory(智能体记忆)

    通过 “记忆更新→目标管理→经验复用” 解决长上下文与经验沉淀问题(如图标展示 “记忆的更新、遗忘、利用”);

  • Self-evolving(自进化)

    实现 “规划、工具使用、搜索” 能力的自主迭代,支撑新的复杂任务。

3. Collective Multi-agent Reasoning(集体多智能体推理)

对应文档 “集体多智能体推理” 部分,是多智能体协作解决复杂任务的模式:

Role Assigning(角色分配)

分为 “通用角色(管理者、规划者、评论家等)” 和 “领域专属角色(如软件领域的开发者 / 测试员)”,实现 “专人专事”;

  • Collaboration(协作)

    包含 “上下文内协作(推理时动态分工)” 和 “训练后协作(固化协作策略)”;

  • Co-evolving(协同进化)

    通过 “分布式记忆更新→角色对齐使用” 实现多智能体集体能力的迭代。

4. Applications and Benchmarks(应用与基准)

对应文档 “应用领域与基准测试” 部分,展示能力落地的场景:

  • Core Agentic Abilities(核心智能体能力)

    总结 Agentic Reasoning 的基础能力(工具使用、规划、记忆、反思、协作等);

  • Core Agentic Applications(核心应用场景)

    覆盖机器人、科学、软件、医疗、金融、法律等领域,体现 Agentic Reasoning 的落地价值。

智能体推理 的 “规划推理” 能力拆分为 **“上下文内规划(In-context Planning)”**和 **“后训练规划(Post-training Planning)”**两类(对应之前提到的两种优化模式。

AI时代,未来的就业机会在哪里?

答案就藏在大模型的浪潮里。从ChatGPT、DeepSeek等日常工具,到自然语言处理、计算机视觉、多模态等核心领域,技术普惠化、应用垂直化与生态开源化正催生Prompt工程师、自然语言处理、计算机视觉工程师、大模型算法工程师、AI应用产品经理等AI岗位。

在这里插入图片描述

掌握大模型技能,就是把握高薪未来。

那么,普通人如何抓住大模型风口?

AI技术的普及对个人能力提出了新的要求,在AI时代,持续学习和适应新技术变得尤为重要。无论是企业还是个人,都需要不断更新知识体系,提升与AI协作的能力,以适应不断变化的工作环境。

因此,这里给大家整理了一份《2026最新大模型全套学习资源》,包括2026最新大模型学习路线、大模型书籍、视频教程、项目实战、最新行业报告、面试题、AI产品经理入门到精通等,带你从零基础入门到精通,快速掌握大模型技术!

由于篇幅有限,有需要的小伙伴可以扫码获取!
在这里插入图片描述

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。

在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

5. 大模型行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

为什么大家都在学AI大模型?

随着AI技术的发展,企业对人才的需求从“单一技术”转向 “AI+行业”双背景。企业对人才的需求从“单一技术”转向 “AI+行业”双背景。金融+AI、制造+AI、医疗+AI等跨界岗位薪资涨幅达30%-50%。

同时很多人面临优化裁员,近期科技巨头英特尔裁员2万人,传统岗位不断缩减,因此转行AI势在必行!

在这里插入图片描述

这些资料有用吗?

这份资料由我们和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

在这里插入图片描述
在这里插入图片描述

大模型全套学习资料已整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费】

在这里插入图片描述

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐