为什么开源语言大模型很重要？

猿类崛起@

977人浏览 · 2024-05-29 20:38:44

猿类崛起@ · 2024-05-29 20:38:44 发布

在LLM领域，开源究竟意味着什么？

开源确实令人着迷。作为拥有悠久开源传统的伯克利大学的一员，我们普遍都是开源软件的忠实拥护者。但坦白来讲，人们关于开源的众多讨论都显得极其模糊。开源的倡导者往往强调开源LLM毋庸置疑的优势，却鲜有说明他们希望看到的具体内容。

这促使我们开始思考开源LLM的重要性，以及它们可能带来的益处。

但首先让我们锚定一个具体的讨论主题，对于LLM来说，究竟什么是开源？以下是几种定义：

公开可用的权重：LLaMa 2和Mistral这样的模型属于这一类别。这些模型基于相当宽松的许可证发布构成模型的权重文件，以便用户能够获取这些模型并进行自定义部署。
公开可用的数据集：据我们所知，目前还没有任何主流的开源LLM这样做，但公开模型数据将会产生重要影响，它将使社区了解模型的潜在偏见和缺陷。
公开可用的训练代码及基础设施：迄今为止，大部分大模型构建者都将这一点严格保密。因为模型训练过程中包含大量的配置参数，再加上人类反馈强化学习（RLHF）的过程，因此公开这类信息有助于社区从基本原理层面理解模型。

正如其他地方所讨论的那样，数据集的创建过程和嵌入在模型训练过程中的专业知识都被严格保密。主流的开源模型供应商很少（或不）发布有关用户数据集的信息，这让开源社区很失望。因此，到目前为止，我们主要见到的是公开可用的模型权重，但关于数据集、训练代码和基础设施的信息却少之又少。
在这里插入图片描述

让我们回到最初的问题。假设开源倡导者赢得了这场战役，如果我们拥有真正开源的语言大模型，其权重、数据集以及代码和基础设施都可获取，那么我们将从中获得哪些重要价值？

社区监督: 了解模型的盲点和缺陷对于未来的模型改进和对齐研究至关重要。通过简单地与GPT这样的模型进行聊天交互或使用其API，就已经能够发现很多盲点，研究人员可以通过托管模型来推动边界，用于测试策略。在洞察模型的偏见方面，模型底层数据集的可见性能否提供有价值的见解，这一点仍有待探讨。显然，模型构建者所做的编辑选择（如删除或包含数据）十分重要；然而，鉴于数据使用的大规模投资和潜在的法律风险，我们看到这些数据集完整公开的可能性非常小(除非政府干预)。
重构模型：在缺乏相关数据集和代码信息的情况下，这一点让开源社区感到非常沮丧。理想情况下，社区通过重新创建现有模型可以让研究人员尝试不同的模型参数和对齐方式。但现实情况是，这些模型的规模使得重新创建变得不大可能，甚至完全不可行。仅仅是训练所需的GPU成本就令人望而却步，而RLHF所需的基础设施和人力成本更是难以负担。与普通的存储基础设施不同，用户实际上可以使用Minio来代替AWS S3，但重新创建模型所需的硬件和时间成本使得这一有效的实验变得无法完成。社区所付出的努力不足以重新创建GPT（甚至是LLaMA）规模级别的模型———公共部门或大型研究机构可能会取得一定进展，但自下而上的实验仍然不可能实现。对齐研究很可能必须被视为现有模型的附加内容。
自托管与定制部署：这是一个关注热点，尽管在某些高度敏感的安全场景下，企业可能需要定制的大模型。我们确信OpenAI和Azure（以及相应的AWS + Athropic和GCP）会解决这一问题。由于模型质量存在巨大差距，用户如果可以安全部署私有模型（特别是具备适当的数据共享保护），那么他们选择开源LLM的意愿就会降低。就在本周，我们与一家市值约1000亿美元的科技公司进行了交流，他们正与一家主要的云服务供应商洽谈共享私人信息的条款，用于云服务供应商的LLM部署。现实情况是，主流的模型供应商具备规模经济与高效部署的优势，其他的竞争对手难以超越。
专有化：这在我们之前的文章中提到过，也是最具说服力的观点。开源LLM模型是开发专有化模型的良好基础。虽然GPT微调API功能强大，但它仅能通过LoRA进行微调（而不是完全权重更新），并且限制用户应用更高级的模型专有技术（如RLHF或RLCF），这些技术在专有化模型日益成熟时很可能极具价值。这就是未来几年中开源模型最有可能蓬勃发展的领域。

开源模型在专有化方面已经十分强大。有人指出，Code-LLaMA 34B已经是目前最好的代码模型，对此我们非常赞同！这是领域专用模型的一个绝佳的成功案例。不幸的是，由于训练模型所需的GPU和时间投资，微调可能仍然非常昂贵。幸运的是，我们已经从许多实际案例中得知（包括我们自己的工作中），微调模型不需要达到GPT-4等模型的规模和通用性。

这一思路引出一个显而易见的的结论：开源模型不需要变得更好，只需要变得更小和更专用。此前的文章曾指出，开源LLM需要在成本和规模方面提升大约两个量级，才能赶上GPT。如果它们能够跨越这一障碍，就可以提高企业对模型进行有效专用化的水准，并为开源软件的发展提供一条可行的路径。

我们对开源的价值有着坚定的信念，但结果很明显，开源模型无法与托管的通用模型的质量相抗衡。不过，这并不意味着失败，而是新的机会。做微调模型的用户并不需要最通用的模型，而是需要一个能够为他们的任务进行良好训练的模型。如果开源模型能够在轻量级的同时保持高质量，这就是未来市场的机会所在，将会有一个崭新的专有化领域静候开启。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

ABB工业机器人编程基础（十二）RobTarget 数据详解

DAMO开发者矩阵

自然语言处理实践

从智能客服到机器翻译，从情感分析到文本生成，NLP技术正深刻改变着我们的生活和工作方式。本文将带您走进NLP的实践世界，探索其背后的技术逻辑与应用场景，为读者揭开这一领域的神秘面纱。例如，电商平台利用文本分类对用户评论进行情感分析，快速识别正面或负面评价，从而优化产品服务。实际应用中，企业常定制专属对话机器人，集成知识图谱以提升专业领域应答能力，例如医疗咨询或法律助手。随着多模态技术和伦理框架的完

DAMO开发者矩阵

行业瞩目！慕尼黑国产连接器展台，中国星坤重磅亮相！

立足本届慕尼黑展会规模领先的国产连接器特装展台，中国星坤将持续以自主创新为内核，打磨高可靠互连产品，稳步拓宽全球市场版图，助力国产元器件品牌站上世界产业舞台中央，与广大合作伙伴携手共赢智能互连新时代。适配 800V 高压整车平台，展出电池包连接器、车载高压接插件、充电互连组件，具备耐高温、抗震动、高绝缘、高安全防护特性，支持整车轻量化专属定制开发。重载防水连接器、端子台、浮动板对板、储能 PACK