构建企业私有RAG大模型: DeepSeek-R1干翻OpenAI-o1-mini,开源部署走起(可商用)
DeepSeek-R1 的诞生将对大模型领域产生深远影响。首先,它在数学推理和代码理解方面的突破,推动了这些领域的技术进步。其次,DeepSeek-R1的成功应用将激励更多行业定制化大模型的需求,促使企业在特定领域开发适应性更强的模型。此外,凭借其高效的推理能力和低成本优势,DeepSeek-R1将推动开源大模型的普及,降低技术门槛,促进更多中小企业的应用。而其在推理效率、内存管理和分布式计算等方
DeepSeek-R1模型以仅占OpenAI o1模型3%-5%的成本,便实现了与o1相当或甚至超越的性能,这一创新成果令人震惊,标志着DeepSeek-R1的诞生可能正在重新定义大模型发展的战略。
在数学、编程及推理任务方面,DeepSeek-R1已成功达到了与OpenAI o1相媲美的性能。为了支持研究社区的发展,DeepSeek团队开源了DeepSeek-R1-Zero、DeepSeek-R1及基于Llama和Qwen从DeepSeek-R1衍生出的六个精简模型。其中,DeepSeek-R1-Distill-Qwen-32B在多个基准测试中超越了OpenAI-o1-mini,为密集型模型带来了全新的最先进成果。
DeepSeek-R1-Zero与DeepSeek-R1均基于DeepSeek-V3-Base进行训练,而DeepSeek-R1-Distill模型则经过Llama和Qwen的微调,使用DeepSeek-R1生成的样本进行配置,并对分词器做了轻微调整。
DeepSeek-R1及其衍生的六个精简模型在性能评估上表现出了极为出色的结果,在许多方面,R1的表现都超越了V3,成为了行业的标杆。
下表是DeepSeek-R1官网给出评估报告:
官网评估部分截取
从这份测试报告中可以看出,DeepSeek-R1在代码(Code)和数学(Math)领域的表现全面超越了几款闭源模型,特别是OpenAI的o1-mini。报告显示,DeepSeek-R1的性能不仅超越了o1-mini,还全面超过了V3。R1的问世,不仅在国内引起了广泛的关注,也对国际大模型市场产生了巨大冲击,迅速引起了OpenAI等科技巨头的高度关注。
官网评估部分截取
上表是基于Llama和Qwen从DeepSeek-R1衍生出的六个精简模型的测试报告,性能同样亮眼。尤其是DeepSeek-R1-Distill-Qwen-32B模型,各项指标均高于GPT-4o0513、Claude-3.5-Sonnet-1022、o1-mini等三个最受关注的闭源模型。
那么DeepSeek-R1是如何产生的?
DeepSeek-R1的诞生
DeepSeek在推出第一代推理模型 DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是一种通过大规模强化学习 (RL) 训练的模型,无需监督微调 (SFT) 作为初步步骤,在推理方面表现出色。在 RL 的帮助下,DeepSeek-R1-Zero 自然而然地出现了许多强大而有趣的推理行为。然而,DeepSeek-R1-Zero 面临着诸如无休止重复、可读性差和语言混合等挑战。为了解决这些问题并进一步提高推理性能,他们引入了 DeepSeek-R1,它在 RL 之前整合了冷启动数据。DeepSeek-R1 在数学、代码和推理任务中实现了与 OpenAI-o1 相当的性能。同时公司还从DeepSeek-R1 以及基于 Llama 和 Qwen 从 DeepSeek-R1 中提炼出的六个密集模型。 其中DeepSeek-R1-Distill-Qwen-32B 在各种基准测试中均优于 OpenAI-o1-mini。
训练后:基础模型上的大规模强化学习(说明来自DeepSeek-R1)
-
我们直接将强化学习 (RL) 应用于基础模型,而无需依赖监督微调 (SFT) 作为初步步骤。这种方法允许模型探索解决复杂问题的思路 (CoT),从而开发出 DeepSeek-R1-Zero。DeepSeek-R1-Zero 展示了自我验证、反思和生成长 CoT 等功能,标志着研究界的一个重要里程碑。值得注意的是,这是第一个公开研究,验证了 LLM 的推理能力可以纯粹通过 RL 来激励,而无需 SFT。这一突破为该领域的未来发展铺平了道路。
-
我们引入了用于开发 DeepSeek-R1 的流水线。该流水线包含两个 RL 阶段,旨在发现改进的推理模式并与人类偏好保持一致,以及两个 SFT 阶段,作为模型推理和非推理能力的种子。我们相信该流水线将通过创建更好的模型使行业受益。
DeepSeek-R1部署
DeepSeek-R1 基于 DeepSeek-V3-Base 进行训练。所以R1的部署可以参考V3的部署。
DeepSeek-R1-Distill 模型部署
DeepSeek-R1-Distill 模型可以与 Qwen 或 Llama 模型相同的方式使用。我们以DeepSeek-R1-Distill-Qwen-32B为例,讲讲如何使用开源加速工具部署。
模型下载,使用hf-mirror实现下载
cd deepseek-ai``git clone https://hf-mirror.com/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B
使用vLLM部署,请执行以下命令:
export CUDA_VISIBLE_DEVICES=0,1``vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager
使用SGLang部署,请执行以下命令:
export CUDA_VISIBLE_DEVICES=0,1``python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2
以vLLM为例进行命令解析:
-
vllm serve
: 这是启动 vLLM 服务的命令,vLLM 用于优化大型语言模型(LLM)的推理效率。 -
deepseek-ai/DeepSeek-R1-Distill-Qwen-32B
: 这是所要加载的模型名称。在这里,指定了 DeepSeek-R1-Distill-Qwen-32B 这个模型,属于 DeepSeek 系列,且经过蒸馏(Distill)处理的版本,适合大规模推理任务。 -
--tensor-parallel-size 2
: 这是设置模型分布式并行的参数,具体指定了分布式计算时的 tensor parallel 大小。值2
表示将模型分割成两个部分,使用两块 GPU 来共同处理模型的计算,适用于大模型的高效推理。 -
--max-model-len 32768
: 该参数指定了模型最大处理的输入长度,这里设置为 32,768。这个参数决定了模型在处理文本时,能够一次性处理的最大 token 数量。较大的模型长度有助于处理较长的上下文。 -
--enforce-eager
: 这个参数启用 eager execution 模式,意味着模型的推理将在计算时立即进行,而不等待所有操作被构建好后再进行。这种方式可以在某些情况下提高推理的灵活性和效率,但也可能增加内存开销。
DeepSeek-R1-Distill-Qwen-32B模型较大,如果是A100、H100的卡,2张可以启动,但是4090卡2张就不能启动了,会报GPU内存溢出,所以如果你使用4090至少设置4张卡。
写在最后
DeepSeek-R1 的诞生将对大模型领域产生深远影响。首先,它在数学推理和代码理解方面的突破,推动了这些领域的技术进步。其次,DeepSeek-R1的成功应用将激励更多行业定制化大模型的需求,促使企业在特定领域开发适应性更强的模型。此外,凭借其高效的推理能力和低成本优势,DeepSeek-R1将推动开源大模型的普及,降低技术门槛,促进更多中小企业的应用。而其在推理效率、内存管理和分布式计算等方面的创新,也将激发大模型领域的进一步优化,推动技术的持续进步。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐
所有评论(0)