新的一年2025要对AI以及LLM有个强化的学习,所以第一篇先对整体有个大概的认知,一直分不清LLM和AI的关系,在整个体系里的位置,以及AIGC是什么东西,AI AGENT类似豆包等和大语言模型的具体关系是什么,整个AI的架构是什么,所以今天先对整体有个学习。分为以下几部分内容:AI分层架构、AI基本概念及分类、以及公司级的产品技术架构应该是什么样的。

AI分层架构

AI技术的分层架构通常从基础到应用分为多个层次,以下是常见的分层方式及其内容:
在这里插入图片描述

  1. 基础层,基础层是AI技术的底层支撑,主要包括硬件设备和数据服务:
    • 硬件设备 :包括AI芯片(如GPU、NPU、ASIC、FPGA等)、服务器和存储设备。这些硬件为AI的大量计算任务提供强大的算力。算力
    • 数据服务:涉及数据采集、标注、存储与管理。数据是AI的“粮食”,经过清洗、标注等预处理后,成为训练AI模型的重要素材。数据
  2. 技术层,技术层是AI技术的核心,包括算法模型、软件框架等:
    • 算法模型:涵盖机器学习、深度学习等技术,通过让计算机从数据中学习规律和模式,实现各种预测和决策任务。算法
    • 算法框架:如TensorFlow、PyTorch、Caffe等,为开发者提供了构建和训练AI模型的工具和接口。算法
    • 开发平台:云服务提供商的AI开发平台(如阿里云、腾讯云等)集成了计算资源、数据存储、算法框架等,方便开发者进行AI模型的开发、训练和部署。
  3. 应用层, 应用层是AI技术与具体场景相结合的产物,包括面向消费者(C端)和面向企业/政府(B/G端)的应用:工具
    • C端应用:如智能语音助手(Siri、Alexa)、个性化推荐(视频、音乐推荐)等,直接影响普通用户的体验。
    • B/G端应用:企业可以利用AI优化供应链管理、提升客户服务效率;政府则可以通过AI实现智能交通管理、公共安全监控等。

更高级的应有有AIGC,AI AGENT数字人等

AI基本概念及分类

对于上述全景图中涉及的内容解释,包含基础理论、数据、算法 等概念。我们通常说的人工智能三大核心概念:数据、算法与算力。算力主要是硬件设施不在这里讨论。主要讨论数据与算法概念

数学与计算机基础

了解一般的数学理论和计算机基础

一级概念 二级概念 三级概念 说明
基础理论 数学基础 概率论 处理不确定性,用于贝叶斯网络等概率推理,如医疗诊断中疾病概率推断
统计学 用于数据分析、模型评估,如样本估计总体、假设检验判断模型有效性
线性代数 处理向量和矩阵运算,是神经网络前向、反向传播算法核心,如计算神经元连接权重
计算机科学基础 算法 人工智能实现的具体步骤,搜索算法用于寻解,优化算法用于模型训练
数据结构 组织和存储数据,如知识图谱用图结构表示实体关系

数据收集、处理与存储

第一个环节就是对数据进行收集,处理与存储。

一级概念 二级概念 三级概念 说明
数据相关 数据收集 传感器 获取现实世界数据,图像传感器用于计算机视觉,麦克风用于语音识别
网络爬虫 从网页抓取数据,搜索引擎用于收集网页内容
数据预处理 清洗 去除噪声、重复和错误数据,提高数据质量,如医疗数据清洗
标注 为数据添加语义标签,图像分类需人工标注类别
特征工程 提取和选择有意义特征,文本分类用TF - IDF提取特征
数据存储 数据库 结构化数据存于关系型数据库,非结构化存于非关系型数据库

算法模型与算法框架

通过算法对处理好的数据进行处理与训练,主要包含:知识理解与学习,知识处理与训练,知识决策与表达

一级概念 二级概念 三级概念 说明 应用
知识理解与学习 机器学习(ML) 监督学习 - 分类算法:依据已标注数据将新数据归入不同类别,决策树、SVM等是常用算法
- 回归算法:预测连续数值,借助线性回归、决策树回归等构建自变量与因变量关系模型
- 分类算法:用于垃圾邮件过滤,精准区分正常与垃圾邮件;助力疾病诊断,依据症状等判断病症
- 回归算法:实现房价预测,综合多种因素预估房价;进行股票价格预测,为投资提供参考。在AIGC方面,可对生成内容如图片、文本质量分类评估,优化生成模型
无监督学习 - 聚类算法:把数据划分成不同簇,使簇内数据相似性高,K - means是经典算法
- 降维算法:在保留关键信息前提下降低数据维度,PCA常用于图像压缩等
- 聚类算法:应用于市场细分,按消费者特征划分群体;用于图像分割,分离不同区域。
- 降维算法:实现数据可视化,以直观形式展示高维数据;用于生物信息学数据处理,简化基因数据等。在AIGC图像生成中,聚类算法助力分析特征生成多样图像,降维算法减少训练数据维度,提升效率
深度学习(DL) 神经网络架构 - 多层感知机(MLP):基础前馈神经网络,通过层间全连接学习复杂非线性关系,用于图像、语音任务
- 卷积神经网络(CNN):针对网格结构数据,利用卷积、池化操作提取特征,应用于计算机视觉领域
- 循环神经网络(RNN)及变体:擅长处理序列数据,LSTM和GRU解决长序列依赖问题,用于语音、翻译等任务
- MLP:实现手写数字识别,精准分类手写数字;用于语音识别特征提取,助力语音内容理解
- CNN:应用于人脸识别,实现身份认证;用于视频监控目标检测,保障公共安全
- RNN及变体:完成机器翻译,实现语言转换;进行股票市场预测,分析价格走势。LLM基于Transformer架构,Transformer与RNN变体相关,在自然语言生成(AIGC文本方向),如智能写作、对话系统等方面广泛应用
深度学习框架 - TensorFlow:灵活性与扩展性强,支持多设备,在工业界广泛应用
- PyTorch:代码简洁,采用动态计算图,受学术界青睐
- TensorFlow:用于工业界图像识别、语音识别项目,如智能安防实时监控、智能语音助手交互。
- PyTorch:常用于学术界自然语言处理、计算机视觉研究,助力新算法开发验证。两者为AIGC和LLM模型开发提供基础框架支持
强化学习(RL) - 智能体与环境交互,依据奖励信号学习最优策略,如AlphaGo通过与环境(棋局)交互提升棋艺 - 用于机器人控制,实现路径规划、物体抓取等复杂任务;应用于游戏领域,如AlphaGo下棋展现高超智能。在AIGC内容生成中,通过强化学习使生成模型与环境(如用户反馈)交互,优化生成策略
新兴学习技术 迁移学习 将在一个任务上学到的知识迁移到相关任务,减少训练数据与时间 - 用于医疗影像分析,借助公开数据集预训练模型,降低特定领域数据需求;应用于自然语言处理跨领域文本分类,提升模型泛化能力
多模态学习 整合图像、文本、音频等多种模态数据进行学习,提升模型理解与处理能力 - 应用于智能客服,结合文本与语音交互,提供更便捷服务;用于智能驾驶,融合视觉与雷达数据,提升驾驶安全性
联邦学习 在数据不共享前提下,各参与方联合训练模型,保护数据隐私 - 用于金融机构联合风控模型训练,在保护数据隐私同时提升风控能力;应用于医疗数据隐私保护下的联合研究,促进医疗领域协作
知识处理与训练 自然语言处理(NLP) 词法分析 - 分词:将文本按单词或词素划分,中文分词需特定方法
- 词性标注:为单词标注词性,辅助理解句子语法结构
- 分词:用于搜索引擎查询语句处理,精准匹配搜索结果;助力文本编辑软件实现自动纠错等功能
- 词性标注:应用于机器翻译,提升翻译准确性;用于文本分类,辅助判断文本类别。在AIGC文本生成中,为生成文本提供基础预处理,提升语法准确性
句法分析 - 分析句子语法结构,构建句法树,如依存句法分析明确词语间依存关系 - 用于智能客服系统,准确理解用户问题意图;应用于信息抽取,提取关键信息。在AIGC生成文本时,辅助生成符合语法规则的连贯句子
语义理解 - 词向量表示:将单词映射到低维向量空间,捕捉语义相似性,如Word2Vec算法
- 语义角色标注:确定句子中谓词的语义角色,理解句子深层语义
- 词向量表示:用于文本推荐系统,依据语义相似性推荐相关文本;进行文本相似度计算,衡量文本间关联程度
- 语义角色标注:应用于信息检索,精准理解用户需求;用于文本摘要,提取关键语义信息。为AIGC文本生成提供语义支持,使内容更具逻辑性和准确性。LLM基于语义理解,实现更深入的文本生成与交互
文本生成 - 机器翻译:将一种语言文本翻译成另一种语言,基于神经网络方法显著提升质量
- 文本摘要:从长篇文本提取关键信息,生成简短摘要,分抽取式和生成式
- 机器翻译:服务跨国交流,打破语言障碍;用于文档翻译,提高翻译效率
- 文本摘要:应用于新闻媒体,快速提炼新闻要点;用于信息检索,帮助用户快速获取关键信息。这是AIGC在自然语言处理领域典型应用,LLM提升机器翻译和文本摘要质量与效果
计算机视觉(CV) 图像分类 - 判断图像所属类别,CNN是常用模型 - 应用于图像搜索引擎,快速分类检索图像;用于农业病虫害图像分类,及时防治病虫害。AIGC图像生成后,通过图像分类评估生成图像类别,判断生成效果
目标检测 - 识别图像中物体类别并确定其位置,Faster R - CNN等算法实现此功能 - 用于智能交通系统,检测车辆、行人等目标;应用于工业检测,识别缺陷产品位置。在AIGC生成的图像或视频内容中,检测特定目标物体
语义分割 - 标注图像每个像素所属类别,实现图像精细化理解 - 用于医学图像分析,分割器官组织;应用于遥感图像分析,识别土地利用类型等。AIGC生成的图像可用于语义分割研究,同时语义分割技术辅助AIGC图像生成精细化
音频处理(AP) 音频分类 - 判断音频所属类别,如语音、音乐、环境声音等分类 - 应用于智能语音助手,识别语音指令类别;用于音频内容审核,过滤不良音频
语音识别 - 将语音信号转换为文本,实现人与机器语音交互 - 用于语音输入设备,如智能音箱、语音输入法;应用于会议记录,自动转录语音内容
音频生成 - 利用人工智能生成语音、音乐等音频内容 - 用于语音合成,实现文本转语音功能;应用于音乐创作,辅助生成旋律、和声等
视频处理(VP) 视频分类 - 判断视频内容所属类别,如电影、新闻、体育等分类 - 用于视频平台内容分类推荐,提升用户体验;应用于视频监控场景分类,提高监控效率
视频目标检测与跟踪 - 识别视频中物体类别并确定位置,跟踪物体运动轨迹 - 用于智能交通监控,跟踪车辆、行人轨迹;应用于视频分析,理解视频中物体行为
视频生成 - 利用人工智能生成视频内容,如动画、虚拟场景视频等 - 用于影视制作,辅助生成特效、虚拟角色视频;应用于虚拟现实内容创作,生成沉浸式视频场景
知识表达与决策 知识表示 逻辑表示 - 用逻辑符号和规则表示知识,如一阶谓词逻辑,实现知识精确表达与推理 - 用于专家系统决策支持,依据逻辑规则提供决策依据;应用于定理证明,严谨推导数学定理。在AIGC知识引导生成中,作为规则约束生成内容
语义网络 - 以节点和边表示概念及关系,直观展示知识结构,便于知识检索与理解 - 用于知识图谱构建,奠定知识关联基础;应用于智能教育系统,帮助学生理解知识结构。为AIGC提供结构化知识基础,辅助生成关联、逻辑性内容
框架表示 - 用框架结构存储知识,包含槽和侧面,描述具有固定结构的知识 - 用于机器人任务规划,明确任务目标与步骤;应用于产品设计知识表示,记录产品结构与功能。在AIGC相关应用开发中,组织利用特定领域知识
知识图谱 - 以结构化形式描述实体及实体间关系,整合多源知识,用于智能问答、知识推理等领域 - 用于智能问答系统,准确回答复杂问题;应用于智能推荐系统,基于知识关联推荐产品或内容。为AIGC提供丰富知识来源,提升生成内容准确性和实用性。LLM与知识图谱结合,增强语言理解与生成能力
知识推理 演绎推理 - 从一般原理推出特殊情况结论,如三段论保证结论必然性 - 用于法律推理,依据法律条文推导案件结论;应用于数学证明,严谨论证数学命题。在AIGC涉及逻辑推理的内容生成中,确保内容逻辑严谨
归纳推理 - 从特殊情况归纳出一般规律,结论具有或然性 - 用于市场调研分析消费者趋势,从个体行为总结普遍规律;应用于科学研究提出假设,基于实验数据归纳理论。为AIGC提供数据驱动的规律总结能力,辅助生成创新性内容
不确定性推理 - 处理具有不确定性的知识,如贝叶斯网络考虑知识概率和不确定性因素 - 用于医疗诊断风险评估,综合症状概率判断病情;应用于金融风险预测,考量多种不确定因素评估风险。在AIGC生成涉及不确定性场景内容时,如生成风险评估报告,发挥重要作用
基于知识图谱的推理 - 利用知识图谱中实体和关系进行推理,如通过人物关系图谱推理亲属关系 - 用于智能问答系统回答复杂关系问题,如“某人和某人的复杂亲属关系”;应用于智能推荐系统基于关系推荐,如推荐相关知识内容。结合LLM,使AIGC在处理复杂知识关系问题上更智能
可解释人工智能(XAI) 使人工智能模型决策过程和结果可解释,增强模型信任度 - 用于医疗诊断解释模型诊断依据,帮助医生理解决策;应用于金融风险评估解释风险评估原因,提升决策透明度

什么是LLM

LLM即大型语言模型(Large Language Model),是一种基于深度学习技术的人工智能模型,在自然语言处理领域具有重要地位

定义与特点
  • 定义:LLM是一种具有大规模参数的语言模型,通常基于Transformer架构,通过在海量文本数据上进行无监督或自监督学习,学习语言的统计规律和语义信息,从而能够生成自然流畅的文本、理解和回答各种自然语言问题等。
  • 特点
    • 规模大:拥有海量的参数,例如GPT-3拥有1750亿个参数,使得模型能够学习到极其复杂的语言模式和知识。
    • 数据驱动:基于大量的文本数据进行训练,数据来源广泛,涵盖了互联网上的各种文本,如新闻、小说、论文、社交媒体等,从而获取丰富的语言知识和世界知识。
    • 通用性强:可以应用于多种自然语言处理任务,如文本生成、机器翻译、问答系统、文本摘要、情感分析等,无需针对每个任务单独设计模型。
核心技术
  • Transformer架构:是LLM的基础架构,它引入了自注意力机制(Self-Attention),能够并行计算并高效处理长序列数据,捕捉文本中的长期依赖关系,相比传统的循环神经网络(RNN)和卷积神经网络(CNN),在语言理解和生成方面具有更大的优势。
  • 预训练-微调范式
    • 预训练:在大规模无监督文本数据上进行预训练,学习语言的通用特征和知识,例如学习单词、短语、句子之间的关系,理解语言的语法、语义和语用规则等。
    • 微调:在预训练的基础上,针对具体的任务和领域,使用少量的有标注数据进行微调,使模型适应特定任务的需求,提高在具体任务上的性能。
主要应用
  • 内容创作:可以生成文章、故事、诗歌、代码等各种文本内容,为创作者提供灵感和辅助。
  • 智能客服:能够理解用户的问题并给出准确、自然的回答,提高客服效率和用户满意度。
  • 机器翻译:将一种语言翻译成另一种语言,凭借其强大的语言理解和生成能力,提升翻译质量和效率。
  • 智能助手:如语音助手等,能够与用户进行自然流畅的对话,帮助用户完成各种任务,如查询信息、设置提醒等。

LLM、AIGC、AI AGENT之间的关系

LLM(Large Language Model,大型语言模型)、AIGC(AI Generated Content,人工智能生成内容)、AI Agent(智能体)之间存在着紧密而又相互区别的关系,具体如下:

LLM与AIGC
  • LLM是AIGC的重要技术支撑:LLM具备强大的语言理解和生成能力,是实现AIGC在文本领域应用的核心技术。通过在海量文本数据上进行训练,LLM能够学习到语言的模式、语义和逻辑关系,从而生成高质量的文本内容,如文章、故事、对话等。例如ChatGPT就是基于LLM的典型AIGC应用,能与用户进行自然流畅的对话,生成各种类型的文本。
  • AIGC拓展了LLM的应用场景:AIGC涵盖了多种内容形式的生成,除了文本,还包括图像、音频、视频等。虽然LLM本身主要处理文本,但在AIGC的整体框架下,LLM可以与其他技术结合,参与到多模态内容生成中。比如通过与图像生成技术结合,根据文本描述生成相应的图像,实现更丰富的AIGC应用。
LLM与AI Agent
  • LLM为AI Agent提供语言交互能力:AI Agent需要与用户或环境进行交互,LLM为其提供了自然语言处理的基础,使AI Agent能够理解用户的自然语言指令,并以自然语言进行回应。AI Agent可以借助LLM的语言理解和生成能力,更好地完成信息查询、任务执行等功能,提升与人类交互的效率和质量。
  • AI Agent是LLM的应用载体之一:AI Agent可以将LLM的能力集成到具体的应用场景和任务中,使其具有特定的目标和行为。例如智能客服、智能助手等AI Agent,利用LLM的强大语言处理能力,为用户提供服务和帮助,将LLM的技术价值转化为实际的应用价值。
AIGC与AI Agent
  • AIGC为AI Agent提供内容生成能力:AI Agent在执行任务过程中,可能需要生成各种类型的内容,AIGC技术能够为其提供相应的支持。例如一个负责营销推广的AI Agent,需要生成广告文案、宣传海报等内容,AIGC中的文本生成和图像生成技术就可以帮助AI Agent完成这些任务。
  • AI Agent推动AIGC的应用落地:AI Agent作为具有自主性和交互性的实体,能够将AIGC生成的内容更好地应用到实际场景中,并根据用户反馈和环境变化,动态调整和优化AIGC的生成结果。比如智能写作助手这类AI Agent,能够根据用户的写作需求,利用AIGC技术生成初稿,并通过与用户的交互不断完善内容。

三者相互关联、相互促进。LLM是基础技术,为AIGC和AI Agent提供了强大的语言处理支持;AIGC基于LLM等技术实现了各种内容的生成,丰富了AI的应用形式;AI Agent则作为应用载体,将LLM和AIGC的能力集成到具体的任务和场景中,使它们的价值得到更充分的体现,共同推动了人工智能技术的发展和应用。

在这里插入图片描述

产品技术架构

对于新的AI只能应用,公司的一些层面会有不同的分层,算力资源分布、调度与模型的编排。最终输出产品能力
在这里插入图片描述

总结一下

总的来说AI主要由算法、算力、数据组成,算法是核心。LLM是基于Transformer架构的算法成果,属于NLP领域关键技术,赋予AI理解和生成语言的能力。如果把AI AGENT看作人工助手,LLM就是其大脑,提供智能核心。AIGC则基于LLM等技术,生成语言、图像、音频等内容,就像人基于大脑的一些语言和视觉的表达。举个例子:云雀模型是LLM,豆包的问答查询基于此,是AIGC在语言领域的应用;图片生成借助专门模型,也是AIGC。豆包APP里的智能体是AI AGENT,集成云雀能力为用户服务。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐