Embedding(嵌入)是大语言模型(如 BERT 和 GPT)的核心组件,其作用是将人类语言转换为机器能理解的数值向量。这一过程类似于为每个词、子词或符号赋予一个“数字身份证”,使得模型能够捕捉语义信息,让相似的词(如“快乐”和“高兴”)在向量空间中距离更近。

BERT vs GPT

一、BERT(Token + Segment + Position)

BERT的Embedding:三元嵌入融合RAG - Embedding for RAG

1、工作流程:

BERT的Embedding包括三个部分:Token Embeddings(词嵌入)、Segment Embeddings(分段嵌入)和Position Embeddings(位置嵌入)。

Embeddings = Token Embeddings + Segment Embeddings + Position Embeddings

(1)Token Embeddings

将输入文本中的单词或子词映射为固定维度的向量(如BERT-base为768维)。技术上使用WordPiece分词算法处理文本,解决未登录词(OOV)问题。例如,“playing”被拆分为“play”和“##ing”。

同时在输入序列头部添加特殊标记[CLS](用于分类任务)和[SEP](分隔句子)。

例如,句子“my dog is cute. he likes playing”处理为[CLS] my dog is cute [SEP] he likes play ##ing [SEP]。

(2)Segment Embeddings

区分不同句子(如问答对中的问题和答案),用A标识第一个句子(如问题),B标识第二个句子(如答案)。当单句输入时,所有位置标记为A。这样使得BERT的Embedding设计更注重理解(如问答)。

例如,输入[CLS] my dog is cute [SEP] he likes play ##ing [SEP]中,[CLS] my dog is cute [SEP]对应全A, he likes play ##ing [SEP]对应全B。

(3)Position Embeddings

编码单词在序列中的位置信息,用于解决长距离依赖问题,通过可训练的绝对位置嵌入表示位置信息,最大支持512个位置。每个位置(0~511)对应一个可学习的向量,与Token Embedding维度一致。

例如,输入[CLS] my dog is cute [SEP] he likes play ##ing [SEP]中,位置编码分别对应0-10(11个位置向量)。

在这里插入图片描述

2、专业术语:

  • 忽略:WordPiece算法、可训练的绝对位置嵌入

  • 关注:固定维度的向量(768维)、Token Embeddings(词嵌入)、Segment Embeddings(分段嵌入)和Position Embeddings(位置嵌入)

二、GPT(Token + Position)

GPT的Embedding:双元嵌入简化

在这里插入图片描述

GPT的Embedding层仅包含Token Embedding和Position Embedding,舍弃Segment Embedding。

Embeddings = Token Embeddings + Position Embeddings

(1)Token Embeddings

采用与BERT相似的词向量映射,但基于自回归任务优化生成能力。GPT使用字节对编码(BPE)进行分词,Token Embedding维度更高(如GPT-3为12288维)。

(2)Position Embeddings

使用可学习的绝对位置编码(如GPT-3的12288维向量),或旋转位置编码(RoPE)增强长文本处理能力。在生成长文本时,RoPE允许模型处理超过训练长度的序列(如4096→8192)。

GPT专注于单向生成任务,无需区分句子边界,因此舍弃Segment Embedding,从而简化嵌入结构以提升效率。
在这里插入图片描述

专业术语:

  • 忽略:自回归任务、字节对编码(BPE)、旋转位置编码(RoPE)
  • 关注:Token Embeddings(词嵌入)和Position Embeddings(位置嵌入)
    在这里插入图片描述

三、如何系统学习掌握AI大模型?

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
请添加图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 大模型行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

7. 为什么大家都在学AI大模型?

抓住时代风口!

阿里云副总裁叶杰平在2025世界人工智能大会(WAIC 2025)上强调,当前AI模型技术正经历从“渐进式创新”到“指数级跃迁”的历史性转变。这种速度下从业者必须持续学习,否则很快就会被行业淘汰。

复合型人才成为企业刚需,技术岗薪资断层领先!

随着AI技术的发展,企业对人才的需求从“单一技术”转向 “AI+行业”双背景。企业对人才的需求从“单一技术”转向 “AI+行业”双背景。金融+AI、制造+AI、医疗+AI等跨界岗位薪资涨幅达30%-50%。

同时很多人面临优化裁员,近期科技巨头英特尔裁员2万人,传统岗位不断缩减,因此转行AI势在必行!

在这里插入图片描述

8. 这些资料真的有用吗?

这份资料由我们和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

在这里插入图片描述
在这里插入图片描述

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费

在这里插入图片描述

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐