上财团队推出金融推理大语言模型 Fin-R1
·
论文标题:Fin-R1: A Large Language Model for Financial Reasoning through Reinforcement Learning
主要内容:推理大语言模型(Reasoning LLM)在各个领域发展迅速,但在处理复杂金融任务方面的能力仍有待深入探索。
在这项工作中,来自上海财经大学的研究团队及其合作者提出了专为金融领域设计的推理大语言模型 Fin-R1,其采用两阶段架构,利用了基于 DeepSeek-R1 蒸馏和处理的金融推理数据集。 通过监督微调(SFT)和强化学习(RL)训练,Fin-R1 在一系列金融推理任务中的性能接近于参数规模为 70 亿的 DeepSeek-R1。在 FinQA 和 ConvFinQA 任务中,Fin-R1 在评估的 LLM 中达到了 SOTA,在其他任务中也超过了更大的模型。



DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐

所有评论(0)