达摩院EMNLP'25 | ReasonMed多智能体框架，医学推理数据生成新范式

DAMO开发者矩阵

51人浏览 · 2025-11-24 11:34:26

DAMO开发者矩阵 · 2025-11-24 11:34:26 发布

作者｜孙雨阿里巴巴达摩院实习生

ReasonMed相关链接

论文链接：https://arxiv.org/abs/2506.09513

Hugging Face：https://huggingface.co/datasets/lingshu-medical-mllm/ReasonMed
Code：https://github.com/alibaba-damo-academy/ReasonMed

摘要

在人工智能领域，推理语言模型（RLM）虽然在数学与编程任务中已展现出色性能，但在像医学这样高度依赖专业知识的场景中，一个亟待回答的问题是：复杂的多步推理会帮助模型提升医学问答能力吗？要回答这个问题，需要构建足够高质量的医学推理数据，当前医学推理数据的构建存在以下挑战：

数据匮乏：现有医学领域思维链数据规模较少，且缺乏一个流水线来批量构建一个高质量大规模医学推理数据集；
来源单一：现有数据集多依赖单一模型生成，未能结合不同预训练模型的知识域差异，丰富和探索多样化的推理路径；
构建数据成本高：构建高质量、大规模医学推理数据集往往需要调用大模型生成和人工参与验证，计算和人力成本都非常高昂，难以支撑百万级规模的扩展；
缺乏有效性验证：缺乏系统性实验来对比“详细解说诊断思维”与“直接给出结论”两种训练策略的优劣。

因此，我们亟需探索更科学的方法，为模型注入权威医学知识、扩展其知识边界，并生成更严谨、高质量的多步推理路径。针对上述挑战，数据集ReasonMed 提出一套完整的医疗推理数据生成解决方案：

多源知识的整合：从四个权威医学问答基准（MedQA、MMLU、PubMedQA、MedMCQA）汇聚约 19.5 万医学问题，覆盖广泛的专业知识面；
多模型的数据构建：通过引入多个专有模型，共同生成并验证医疗推理路径，多模型互补与交叉验证提升了知识覆盖与逻辑一致性，更好的构建规模化且高质量的医学推理数据；
基于多智能体交互的多维验证和优化：设计“Easy-Medium-Difficult”分层管线，根据验证通过率动态选择不同处理策略。通过多智能体交互的方式来对医学推理数据的逻辑一致性、答案正确性和医学事实性多维度进行验证优化，实现高质量与低成本的平衡；
推理路径注入和精炼：引入推理路径注入与自动化精炼机制，以提升逻辑连贯性与知识准确度。同时对于每条推理样本保留完整的多步推理链（CoT）与由响应摘要器生成的简明答案（Response），实现推理过程与最终结论的双重监督。

基于上述框架，阿里巴巴达摩院联合多家机构提出医学推理数据生成新范式 ReasonMed，并开源百万级高质量数据集 ReasonMed370K。该范式通过多智能体协作、多温度采样与逐步校验，动态调用不同参数模型，既保证推理质量与知识注入，又显著提升数据多样性。

基于此数据集训练微调的 ReasonMed-7B/14B 在多项权威医学问答基准上（PubMedQA 上性能：82.0%）超越更大规模模型（LLaMA3.1-70B：77.4%），充分验证了「小模型 + 高质量数据」的潜力。同时 ReasonMed 也在 EMNLP 2025 上以高分（9 分）被接收。

多智能体协作构建海量高质量数据

2.1 数据集ReasonMed多智能体系统介绍

数据集ReasonMed 的多智能体体系由多个专门角色（Agents）组成，每个 Agent 负责不同阶段的推理生成、验证与优化，共同构建高质量医学推理数据集。下面是数据集ReasonMed中各个组件的功能介绍：

CoT Generator（推理生成Agent）：包含多种不同大语言模型（Qwen2.5-72B、HuatuoGPT-o1-70B、DeepSeek-R1-Distill-LLaMA-70B），通过在不同温度配置下生成多条推理路径，形成多样化的推理语料。这种多模型、跨温度的设计使数据集ReasonMed 能充分结合不同模型的知识优势与风格差异，既丰富推理模式，也增强数据的逻辑多样性；
Verifier（验证Agent）：评估每条推理链的正确性、临床要点识别、逻辑一致性与医学事实准确性。输出结构化结果（Correct/Error + 原因），为后续筛选与修正提供依据；
Response Summarizer（摘要Agent）：将复杂的 CoT 推理提炼为简洁、符合医学问答风格的总结回答，使数据同时具备推理深度与可读性；
Quality Ranker（质量排序Agent）：对通过验证的多条正确 CoT 进行评分与排序，选出前两条质量最高的推理路径（Top-2），确保训练数据的代表性与多样性；
Error Refiner（错误修正Agent）：聚焦难样本，基于验证反馈识别逻辑或事实错误，并调用更强模型进行针对性修正，以保持推理链逻辑完整性和事实准确性；
Score Evaluator（评分评估Agent）：量化不同阶段推理优化的效果，评估修正后样本的整体提升幅度与数据集质量，形成闭环反馈。数据集ReasonMed 的多智能体系统通过“生成-验证-排序-修正-评估”的闭环流程，将多个模型的专长整合为一个高可靠、可扩展的医学推理数据构建体系。

2.2 数据生成流程

基于以上的多智能体系统，数据集ReasonMed整个医疗推理数据生成过程分为以下三个步骤：

数据收集（Data Collection）

数据集ReasonMed 首先从四个权威医学问答数据集（MedQA、MedMCQA、PubMedQA、MMLU）收集 19.5 万个医学问题，构建初始问题库。这些问题覆盖解剖学、临床知识、遗传学等多个子领域，为多模型协同生成提供广泛知识基础。
多智能体推理生成与验证（Multi-Agent CoT Generation & Validation）

在该阶段，CoT Generator 针对每个问题以不同温度参数进行采样，共生成 9 条多步推理链，覆盖从直接推断到深度分析的多层逻辑，随后由Verifier智能体协同完成验证。这一流程实现了从多模型输出到结构化、多维验证的知识融合，确保了生成数据在多样性与正确性上的平衡，为后续分层精炼与高质量医学推理数据集的构建奠定了基础。
分层优化与推理精炼（CoT Pipeline Refinement）

根据Verifier验证后统计到的推理链错误数量，数据集ReasonMed 设计了Easy / Medium / Difficult 三条Pipeline：

Easy Pipeline (9条推理链中有0–4 个错误)：对于验证通过率高的问题，直接由 Quality Ranker 选出 Top-2 优质 CoT 作为最终样本；
Medium Pipeline (9条推理链中有5–7 个错误)： 存在部分逻辑或事实性错误的问题，调用 Error Refiner 基于 Verifier 的反馈进行针对性修正与细粒度补充，强化逻辑完整性；
Difficult Pipeline (9条推理链中有8–9 个错误)： 错误率极高，则调用更强模型（GPT-o1）重新生成完整推理链，相当于由专家重新诊断并开具“二次报告”。该分层机制显著提升了数据一致性与可靠性。通过在不同难度层面引入差异化处理，数据集ReasonMed 成功在保持高精度的同时，将整体数据构建成本降低约73%，实现高质量与低成本的统一。

2.3 质量评估与数据汇总

我们通过Score Evaluator ，基于逻辑连贯性（coherence）、医学事实一致性（factual fidelity）、选项分析完整性（option analysis）等方面对样本进行 0–10 分量化评分，验证各阶段精炼带来的质量提升。

经过这一全流程筛选与优化后，最终形成 37 万条高质量医学推理样本（数据集ReasonMed370K），用于后续模型训练与评估。基于同样的评分逻辑，我们也对比了生成的数据和当前公开医学推理数据的质量：

结果表明，数据集ReasonMed 在评分均值上显著优于现有公开数据集，验证了数据集ReasonMed框架的有效性。

为了进一步分析“显式推理”与“总结式回答”等不同的思维模式在医学大模型训练中的贡献，我们从同一数据源中抽取并拆分出三个变体：

CoTMed370K 保留原始的详细推理轨迹，重点训练模型复现多步推理过程与思维逻辑，使模型学习复杂医学推理的链式结构；
ResponseMed370K仅保留由 Response Summarizer 生成的精炼结论部分，用于训练模型在保留关键信息的同时生成简洁、临床友好的回答；
数据集ReasonMed370K 包含完整的多步推理链以及由多智能体生成的简明答案（Response）。

ReasonMed-7B / 14B模型效果评估

为了验证生成数据对于模型构建的贡献，我们基于数据集ReasonMed370K/ResponseMed370K/CoTMed370K在Qwen2.5-7B进行了微调构建了三族模型数据集ReasonMed-7/14B，ResponseMed-7B和 CoTMed-7B/14B。我们和当前的主流医疗/通用模型在MedQA/MedMCQA/PubMedQA/MMLU数据集上进行了对比。得到以下结论：

基于数据集ReasonMed370K训练的小模型效果可比甚至超越 70B 级别模型

在多个权威医学问答基准（包括 PubMedQA、MedMCQA、MMLU-Med）上，数据集ReasonMed-7B 展现了显著优势。

其中，在 PubMedQA 上达到82.0%的准确率，超过了LLaMA3.1-70B的77.4%；在 MedMCQA 与 MMLU 医学子集上也表现稳定提升。

进一步扩展至 14B 参数规模后，数据集ReasonMed-14B 的整体准确率达到 72.8%，相较于 Qwen2.5-14B 提升 3.8%（72.8% vs 69.0%），并在总体性能上超越 Qwen2.5-32B（72.6%），与 LLaMA3.1-70B（72.9%）几乎持平。

这表明数据集ReasonMed 的“多智能体生成 + 分层优化”策略具备强大的可扩展性——即便是中小规模模型，也能在医学推理任务中实现与超大模型相当的表现。
融合推理路径与总结答案的训练策略效果最佳

为了分析不同数据类型对模型推理能力的影响，团队基于同一底座（Qwen2.5-7B）训练了三个版本：
- CoTMed-7B：学习完整推理路径，强调逻辑链条复现；
- ResponseMed-7B：仅学习简明答案，注重输出的准确性与简洁性；
- 数据集ReasonMed-7B：结合推理路径与总结式答案的混合训练策略。
  
  结果显示，数据集ReasonMed-7B 的融合策略效果最佳，在综合准确率上达 69.6%，分别超越 CoTMed-7B（69.1%）和 ResponseMed-7B（67.0%）。同时，其生成输出在逻辑深度与表达简洁度之间取得了良好平衡，既具可解释性，又具实用性。
  
  这验证了数据集ReasonMed 的核心理念：显式推理链的学习能显著增强模型的泛化推理能力，而“推理+总结”融合策略是医学QA领域更优的训练路径。
基于多智能体的分层处理策略显著降低思维链路生成成本，兼顾质量与效率

同时我们也验证了，数据集ReasonMed 的分层优化机制（Easy / Medium / Difficult Pipeline） 在确保数据质量的同时显著降低了数据构建成本。

若完全依赖最先进的大模型 API 生成 37 万条复杂推理链，成本预计在 16,631 美元；而在数据集ReasonMed 的实际设计中，仅约 2.56% 的样本进入最高难度流程，需调用更强模型，其余问题均由中等规模模型完成。在这一策略下，项目总成本约 4,552 美元（o1 API 推理花费3,595美元），实现了 70% 以上的成本节省。

这种“难题精修、易题高效”的分层机制，在保证推理链质量与一致性的前提下，实现了高性价比的数据构建，为大规模推理数据的可持续生产提供了可复制模板。

项目意义和展望

数据集ReasonMed 项目的推出，为医学 AI 研究提供了新的范式，其核心价值主要体现在以下几个方面：

填补医学推理数据空白：数据集ReasonMed370K提供了当前业界规模最大、质量最高的开源医学推理数据集，极大缓解了医学领域数据匮乏的问题，为后续研究和应用提供了坚实可靠的基础；
验证了显式多步推理在医疗模型的训练的关键作用：通过系统性地验证显式推理路径对模型性能提升的关键作用，数据集ReasonMed明确了知识密集型AI的训练方法论，为未来AI模型的研发提供了清晰的实践指南；
推动“小模型 + 高质量数据”路线：在特定专业领域，小模型搭配高质量数据可显著超越更大规模模型的性能，可以有效降低了医疗AI工具研发的成本门槛；
低成本，标准化的可扩展思维链生成框架：数据集ReasonMed框架可以迁移至其他知识密集领域（如生命科学，材料科学等），为构建特定领域的数据集提供了参考，具有跨领域应用的潜力。

同时，数据集ReasonMed相关技术也用到了达摩院多模态医疗大模型 Lingshu[1] 的构建中。接下来，我们计划进一步扩展数据覆盖的深度与广度，探索如影像诊断、多模态理解、医学工具调用等更复杂的医学推理场景。同时，我们也希望通过开放协作，让更多研究者参与数据完善与模型优化，共同建立一个持续演化、可信可复用的医学推理生态。

社区反馈

数据集ReasonMed 发布后在社区内引发了积极反响。研究者普遍认为其“多智能体 × 分层调优”策略为高质量推理数据生成提供了新范式，并在 Hugging Face 与 GitHub 社区获得了广泛关注。论文发布当天即登上 Hugging Face「Paper of the Day」榜首，并获得 Hugging Face CEO 在 X 平台的转发与推荐，引发了业内研究者与开发者的热烈讨论。

[1] https://huggingface.co/lingshu-medical-mllm

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

当 Agent 长出身体：我用魔珐星云 SDK 让 DeepSeek 拥有了 3D 具身交互躯体

DAMO开发者矩阵

vlan综合实验

pc2/pc4/pc5/pc6处于同一网段;其中pc2可以访问pc4/pc5/pc6;pc4可以访问pc6;pc5不能访问pc6;[r1-GigabitEthernet0/0/0]ip ad 192.168.1.254 24 处理不带vlan标签的流量。3、所有pc通过DHCP获取IP地址，且pc1/pc3可以正常访问pc2/pc4/pc5/pc6。2、pc1/pc3与pc2/pc4/pc5/pc

DAMO开发者矩阵

基于 Rokid AI 眼镜的多模态智能 Agent：知识库检索、插件调用与生活服务实践

本项目通过 Rokid AI 眼镜获取用户第一视角图片与文本问题，利用知识库检索、插件调用和多模态大模型推理，为用户提供铁路民航规定、天气、周边地点、本地生活、食物营养、数值计算和热点资讯等查询能力。它不只是将普通聊天机器人放入眼镜，而是通过“端侧感知、知识库检索、工具调用和云端推理”的协同工作，让 Rokid AI 眼镜真正成为一个能够理解现场、查询信息并辅助决策的随身 Agent。