人工智能导论 期末复习知识点总结
人工智能导论期末复习,知识点总结,期末试题。链接:地址
一、人工智能基础概念(必考)
1.1 人工智能的定义与本质
-
定义:研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学,目标是让机器具备人类的智能行为(如推理、学习、决策)。
-
本质:探索智能的工作机制,通过机器模拟人类智能的核心能力(感知、认知、决策、执行)。
-
核心目标:
-
弱人工智能(当前阶段):针对特定任务的智能(如语音识别、图像分类)。
-
强人工智能:具备与人类同等或超越人类的通用智能,能自主解决各类问题。
-
超人工智能:在所有领域远超人类智能水平。
-
1.2 人工智能的发展历程
| 阶段 | 时间范围 | 核心事件与技术 | 特点 |
|---|---|---|---|
| 孕育期 | 1940s-1955 | 图灵测试、冯・诺依曼计算机、神经生理学基础 | 奠定理论与技术基础 |
| 诞生期 | 1956 年 | 达特茅斯会议(首次提出 “人工智能” 术语) | 正式确立学科地位 |
| 早期发展期 | 1956-1974 年 | 逻辑推理、通用问题求解器(GPS)、感知机 | 聚焦符号主义,初期成果显著 |
| 第一次低谷 | 1974-1980 年 | 计算资源有限、推理能力薄弱、缺乏数据支持 | funding 削减,研究陷入停滞 |
| 复苏期 | 1980-1987 年 | 专家系统、机器学习算法(决策树、贝叶斯) | 实用化突破,产业应用起步 |
| 第二次低谷 | 1987-1993 年 | 专家系统维护成本高、缺乏泛化能力 | 技术瓶颈,市场泡沫破裂 |
| 稳步发展期 | 1993-2010 年 | 统计学习、SVM、神经网络初步复苏、大数据萌芽 | 理论完善,数据驱动思想兴起 |
| 爆发期 | 2010 年至今 | 深度学习(CNN/RNN/Transformer)、大模型 | 算力 + 数据 + 算法协同,应用爆发 |
1.3 人工智能的研究范式与学派
(1)三大经典学派
| 学派 | 核心思想 | 代表技术 | 优势与局限 |
|---|---|---|---|
| 符号主义(逻辑主义) | 智能的本质是符号的逻辑运算(如人类思维的形式化) | 逻辑推理、专家系统、谓词逻辑 | 优势:可解释性强;局限:难以处理不确定性、学习能力弱 |
| 连接主义(仿生学派) | 智能的本质是大脑神经元的连接与激活(模拟人脑结构) | 神经网络、深度学习、感知机 | 优势:擅长学习、处理海量数据;局限:可解释性差、依赖数据 |
| 行为主义(进化学派) | 智能的本质是环境交互与行为强化(试错学习) | 强化学习、遗传算法、Agent 技术 | 优势:自主适应环境;局限:复杂任务中收敛慢 |
(2)现代研究范式
-
数据驱动范式:以深度学习为核心,依赖海量标注数据和强大算力,通过模型自动学习特征(如 ImageNet 数据集推动 CNN 发展)。
-
混合范式:融合符号主义与连接主义(如神经符号 AI),兼顾学习能力与可解释性。
-
小样本 / 零样本学习范式:解决数据稀缺问题,通过迁移学习、提示工程等技术提升模型泛化能力。
1.4 人工智能的应用领域
-
计算机视觉(CV):图像分类、目标检测、人脸识别、自动驾驶。
-
自然语言处理(NLP):机器翻译、文本生成、情感分析、智能问答。
-
语音技术:语音识别、语音合成、语音唤醒。
-
强化学习应用:游戏 AI、机器人控制、资源调度。
-
其他领域:医疗诊断、金融风控、智能推荐、智能制造。
二、知识表示与推理(核心考点)
2.1 知识表示方法(必考)
(1)逻辑表示法
-
谓词逻辑:最常用的形式化表示方法,通过 “谓词 + 个体” 描述事实和关系。
-
基本形式:
P(x1, x2, ..., xn)(P 为谓词,xi 为个体)。 -
示例:
Student(张三)(张三是学生)、Teach(李四, 计算机)(李四教计算机)。 -
逻辑运算符:∧(与)、∨(或)、¬(非)、→(蕴含)、∀(全称量词)、∃(存在量词)。
-
优势:精确性高、可推理;局限:灵活性差、难以处理模糊知识。
-
(2)产生式表示法
-
定义:由 “条件→动作”(或 “前提→结论”)组成的规则表示知识,形式为
IF P THEN Q(P 为前提,Q 为结论)。 -
示例:
IF 动物有羽毛 ∧ 会飞 THEN 动物是鸟。 -
优势:模块化强、易于维护;局限:规则冲突、推理效率低。
-
应用:专家系统(如医学诊断系统 MYCIN)。
(3)框架表示法
-
定义:以 “框架” 为单位组织知识,框架包含 “槽”(描述属性)和 “槽值”(属性取值),适合表示结构化知识。
-
示例:
框架名:
姓名:\[字符串]
性别:\[男/女]
年龄:\[整数]
院系:\[字符串]
选课:>(子框架)
- 优势:结构化、层次清晰;局限:适应性差、构建成本高。
(4)语义网络表示法
-
定义:用 “节点(实体 / 概念)+ 边(关系)” 的有向图表示知识,直观易懂。
-
示例:节点 “张三” 通过 “是” 边连接 “学生”,通过 “选修” 边连接 “数据库”。
-
优势:直观、易于理解;局限:缺乏严格的形式化定义、推理规则不明确。
2.2 经典推理方法
(1)演绎推理(从一般到特殊)
-
定义:基于公理、定理或规则,从已知前提推出必然结论的推理方式。
-
核心形式:三段论(大前提→小前提→结论)。
- 示例:大前提(所有学生都要考试)→ 小前提(张三是学生)→ 结论(张三要考试)。
-
常用方法:自然演绎推理、归结演绎推理(基于谓词逻辑的反证法)。
(2)归纳推理(从特殊到一般)
-
定义:从大量具体实例中总结出一般性规律的推理方式。
-
类型:完全归纳推理(覆盖所有实例)、不完全归纳推理(基于部分实例)。
-
示例:观察到多只乌鸦是黑色→归纳出 “所有乌鸦都是黑色”。
-
优势:能发现新规律;局限:结论不一定可靠(可能存在反例)。
(3)类比推理(从特殊到特殊)
-
定义:根据两个对象的相似性,从一个对象的已知属性推出另一个对象的未知属性。
-
示例:地球(有大气层、液态水→有生命)→ 火星(有大气层、液态水→可能有生命)。
-
优势:创造性强;局限:依赖相似性判断,准确性受影响。
(4)不确定性推理
-
背景:现实世界中知识常存在模糊性、随机性(如 “明天可能下雨”),需通过概率、模糊数学等方法处理。
-
常用方法:
-
贝叶斯推理:基于贝叶斯定理,通过先验概率计算后验概率(如医疗诊断中根据症状概率判断疾病)。
-
模糊推理:基于模糊集合理论,处理模糊概念(如 “高个子”“年轻”)。
-
三、搜索技术(高频考点)
3.1 搜索的基本概念
-
定义:在问题的状态空间中,寻找从初始状态到目标状态的可行路径(或最优路径)的过程。
-
核心要素:
-
状态空间:所有可能状态的集合(如迷宫的每个位置)。
-
初始状态:问题的起始点。
-
目标状态:问题的求解目标。
-
操作符:从一个状态到另一个状态的转换规则(如迷宫中的 “上下左右移动”)。
-
3.2 无信息搜索(盲目搜索)
- 特点:不依赖问题的先验知识,仅根据状态空间的结构进行搜索。
(1)广度优先搜索(BFS)
-
策略:按层次遍历状态空间,先搜索初始状态的所有直接后继状态,再搜索后继状态的后继,依次类推。
-
数据结构:队列(先进先出,FIFO)。
-
优势:保证找到最短路径(如果存在)。
-
局限:空间复杂度高(需存储所有已访问状态),适合状态空间较小的问题。
-
示例:迷宫最短路径、社交网络好友推荐(最短连接路径)。
(2)深度优先搜索(DFS)
-
策略:优先深入搜索状态空间的某一分支,直到无法继续再回溯到上一节点,选择其他分支。
-
数据结构:栈(先进后出,LIFO)。
-
优势:空间复杂度低(只需存储当前路径上的状态)。
-
局限:可能陷入深度无限的分支(死循环),不保证找到最短路径。
-
示例:拓扑排序、迷宫探索(无需最短路径)。
(3)迭代加深深度优先搜索(IDS)
-
策略:结合 BFS 和 DFS 的优势,逐步增加搜索深度限制(从 1 开始,未找到则增加深度),直到找到目标状态。
-
优势:空间复杂度低,且保证找到最短路径。
-
应用:状态空间较大且深度未知的问题。
3.3 有信息搜索(启发式搜索)
- 特点:利用问题的启发信息(如距离目标状态的估计值)引导搜索,提高效率。
(1)A * 算法(必考)
-
核心思想:通过评估函数
f(n) = g(n) + h(n)选择下一个待搜索的节点,其中:-
g(n):从初始状态到节点 n 的实际代价(已知)。 -
h(n):从节点 n 到目标状态的估计代价(启发函数,关键)。
-
-
最优性条件:启发函数
h(n)必须是可采纳的(即h(n) ≤ 实际代价h*(n)),此时 A * 算法能找到最优路径。 -
常用启发函数:
-
曼哈顿距离(适用于网格问题):
h(n) = |x - x_goal| + |y - y_goal|。 -
欧氏距离(适用于连续空间):
h(n) = √[(x - x_goal)² + (y - y_goal)²]。
-
-
优势:高效、最优;局限:启发函数设计难度大。
-
示例:路径规划(如自动驾驶中的路线选择)、八数码问题。
(2)贪婪最佳优先搜索
-
策略:仅以启发函数
h(n)为评估标准,选择h(n)最小的节点优先搜索(即 “最接近目标的节点先搜”)。 -
优势:搜索速度快;局限:不保证找到最优路径(
h(n)可能高估)。
3.4 对抗性搜索(博弈搜索)
- 背景:用于多智能体对抗场景(如棋类游戏),每个智能体的决策会影响其他智能体的目标。
(1)极小极大算法(Min-Max)
-
核心思想:
-
假设双方都理性决策(Max 方最大化自身收益,Min 方最小化 Max 方收益)。
-
递归遍历博弈树的所有节点,计算每个节点的 “极小极大值”,Max 方选择极大值节点,Min 方选择极小值节点。
-
-
局限:博弈树规模过大时,计算复杂度爆炸(如国际象棋的博弈树节点数远超宇宙原子数)。
(2)α-β 剪枝算法
-
核心思想:在 Min-Max 算法的基础上,通过剪枝(忽略无意义的分支)减少计算量,不影响最终结果。
-
α:Max 方当前能保证的最大收益。
-
β:Min 方当前能保证的最小收益。
-
剪枝条件:当某节点的收益≤α(Min 方节点)或≥β(Max 方节点)时,该节点的后续分支无需搜索。
-
-
优势:大幅降低计算复杂度,是棋类 AI 的核心算法(如早期的国际象棋 AI)。
四、机器学习基础(重中之重)
4.1 机器学习的定义与分类
(1)定义
-
机器学习是人工智能的核心分支,研究如何让机器通过经验(数据)自动学习和改进,而无需显式编程。
-
核心目标:从数据中学习规律(模型),并利用模型对未知数据进行预测或决策。
(2)按学习方式分类(必考)
| 学习类型 | 核心特点 | 数据要求 | 典型算法 | 应用场景 |
|---|---|---|---|---|
| 监督学习 | 数据含标签(输入→输出的映射已知) | 标注数据(如 “图片→猫 / 狗”) | 线性回归、逻辑回归、决策树、SVM、随机森林 | 图像分类、房价预测、垃圾邮件识别 |
| 无监督学习 | 数据无标签(仅学习数据分布) | 未标注数据 | 聚类(K-Means)、降维(PCA)、异常检测 | 用户分群、特征提取、欺诈检测 |
| 强化学习 | 智能体通过环境交互获得奖励信号 | 无直接标签,依赖奖励函数 | Q-Learning、DQN、PPO | 游戏 AI、机器人控制、资源调度 |
| 半监督学习 | 少量标注数据 + 大量未标注数据 | 混合数据 | 自训练、协同训练 | 医疗影像诊断(标注成本高) |
| 弱监督学习 | 标签不精确(如噪声标签、部分标签) | 弱标注数据 | 多实例学习、标签传播 | 文本分类(模糊标签) |
(3)按模型类型分类
-
线性模型:线性回归、逻辑回归(假设输入与输出呈线性关系)。
-
非线性模型:决策树、神经网络、SVM(核函数)(处理复杂非线性关系)。
-
生成模型:从数据中学习联合概率分布
P(X,Y)(如贝叶斯分类器),可生成新数据。 -
判别模型:直接学习条件概率分布
P(Y|X)(如逻辑回归),专注于预测。
4.2 监督学习核心算法
(1)线性回归(回归任务)
-
目标:学习一个线性函数
y = w₁x₁ + w₂x₂ + ... + wₙxₙ + b(w为权重,b为偏置),最小化预测值与真实值的误差。 -
损失函数:均方误差(MSE):
L = (1/n)Σ(y_i - ŷ_i)²(y_i为真实值,ŷ_i为预测值)。 -
优化方法:梯度下降(GD)、随机梯度下降(SGD)(最小化损失函数,更新
w和b)。 -
应用:房价预测、销售额预测、温度预测。
(2)逻辑回归(分类任务)
-
目标:解决二分类问题(输出为 0 或 1),通过 Sigmoid 函数将线性输出映射到 [0,1] 区间(表示概率)。
-
Sigmoid 函数:
σ(z) = 1/(1 + e^(-z))(z = w·x + b),当σ(z) ≥ 0.5时预测为 1,否则为 0。 -
损失函数:交叉熵损失:
L = -Σ(y_i logŷ_i + (1-y_i)log(1-ŷ_i))。 -
优势:简单高效、可解释性强;局限:只能处理线性可分数据。
-
应用:垃圾邮件识别、疾病诊断(是否患病)、用户流失预测。
(3)决策树(分类 / 回归任务)
-
定义:以树状结构表示决策规则,每个内部节点表示一个特征判断,每个叶节点表示一个类别或回归值。
-
核心过程:
-
特征选择:通过信息增益(ID3 算法)、信息增益比(C4.5 算法)、基尼系数(CART 算法)选择最优特征。
-
树的构建:递归分割数据,直到节点纯度达到阈值(或树深度限制)。
-
剪枝:避免过拟合(预剪枝:限制树深度;后剪枝:删除冗余分支)。
-
-
优势:可解释性强、无需特征归一化、能处理非线性数据;局限:易过拟合、对噪声敏感。
-
应用:信用风险评估、客户分层、医疗诊断辅助。
(4)支持向量机(SVM)
-
核心思想:找到一个最优超平面,将不同类别的数据分割开,且使超平面到两类数据的 “间隔” 最大。
-
关键概念:
-
支持向量:距离超平面最近的样本点(决定超平面的位置)。
-
核函数:解决非线性可分问题(将低维数据映射到高维特征空间),常用核函数:线性核、多项式核、高斯核(RBF)。
-
-
优势:泛化能力强、适合高维数据;局限:计算复杂度高、对参数敏感。
-
应用:文本分类(如情感分析)、图像识别、生物信息学(基因分类)。
(5)集成学习(随机森林、梯度提升树)
-
核心思想:组合多个弱学习器(性能略优于随机猜测的模型),形成强学习器,提升预测精度和稳定性。
-
随机森林(RF):
-
基于决策树的集成算法,通过 “Bootstrap 采样”(自助采样)和 “特征随机选择” 构建多个决策树,最终结果通过投票(分类)或平均(回归)得到。
-
优势:抗过拟合、鲁棒性强、处理高维数据;应用:数据挖掘竞赛、工业预测。
-
-
梯度提升树(GBT/XGBoost/LightGBM):
-
串行集成算法,每次训练一个弱学习器(决策树),拟合上一轮模型的残差(误差),逐步减小损失。
-
优势:预测精度高、处理非线性数据;应用: Kaggle 竞赛冠军常用算法、金融风控、推荐系统。
-
4.3 无监督学习核心算法
(1)K-Means 聚类(必考)
-
目标:将无标签数据划分为 K 个簇,使簇内样本相似度高、簇间样本相似度低。
-
核心步骤:
-
随机选择 K 个样本作为初始聚类中心。
-
计算每个样本到 K 个中心的距离(如欧氏距离),将样本分配到距离最近的簇。
-
重新计算每个簇的中心(簇内样本的均值)。
-
重复步骤 2-3,直到聚类中心不再变化(或达到迭代次数)。
-
关键问题:
-
K 值选择:通过肘部法则(Elbow Method)(损失函数随 K 增大的拐点)或轮廓系数(Silhouette Coefficient)确定。
-
初始中心敏感:可能陷入局部最优,需多次运行或选择合适初始中心。
-
-
优势:简单高效、适合大规模数据;局限:对异常值敏感、需预先指定 K。
-
应用:用户分群、客户画像、图像分割。
(2)主成分分析(PCA)(降维)
-
目标:在保留数据主要信息的前提下,将高维数据映射到低维空间(减少特征维度),解决 “维度灾难”。
-
核心原理:
-
对数据进行标准化(均值为 0,方差为 1)。
-
计算数据的协方差矩阵(描述特征间的相关性)。
-
对协方差矩阵进行特征值分解,得到特征值和特征向量。
-
选择特征值最大的前 d 个特征向量,将数据投影到这些向量构成的低维空间。
-
优势:降低计算复杂度、去除噪声;局限:可解释性差、对非线性数据效果不佳。
-
应用:图像压缩、特征预处理、数据可视化(如高维数据映射到 2D/3D)。
4.4 模型评估与选择(必考)
(1)数据集划分
-
训练集(Training Set):用于训练模型(占比 60%-80%)。
-
验证集(Validation Set):用于调整模型参数(如正则化系数)、选择模型(占比 10%-20%)。
-
测试集(Test Set):用于评估模型的泛化能力(占比 10%-20%),不可用于模型调整。
-
交叉验证(K-Fold CV):将数据划分为 K 份,轮流用 K-1 份训练、1 份验证,最终取平均性能(避免数据划分的偶然性)。
(2)分类任务评估指标
-
混淆矩阵(Confusion Matrix):
-
真阳性(TP):正例预测为正例。
-
假阳性(FP):负例预测为正例(误判)。
-
真阴性(TN):负例预测为负例。
-
假阴性(FN):正例预测为负例(漏判)。
-
-
核心指标:
-
准确率(Accuracy):
(TP+TN)/(TP+FP+TN+FN)(总体预测正确的比例)。 -
精确率(Precision):
TP/(TP+FP)(预测为正例的样本中,实际为正例的比例)→ 关注 “不误判”。 -
召回率(Recall/Sensitivity):
TP/(TP+FN)(实际为正例的样本中,被正确预测的比例)→ 关注 “不漏判”。 -
F1 分数:
2*(Precision*Recall)/(Precision+Recall)(精确率和召回率的调和平均,平衡两者)。 -
ROC 曲线与 AUC:ROC 曲线以假阳性率(FPR)为横轴、真阳性率(TPR)为纵轴,AUC 为曲线下面积(AUC 越大,模型性能越好)。
-
(3)回归任务评估指标
-
均方误差(MSE):
(1/n)Σ(y_i - ŷ_i)²(反映预测值与真实值的平均平方误差)。 -
均方根误差(RMSE):
√MSE(与原数据同量级,更易解释)。 -
平均绝对误差(MAE):
(1/n)Σ|y_i - ŷ_i|(对异常值不敏感)。 -
决定系数(R²):
1 - Σ(y_i - ŷ_i)²/Σ(y_i - ȳ)²(ȳ为真实值均值,R² 越接近 1,模型拟合效果越好)。
(4)过拟合与欠拟合(必考)
| 问题类型 | 表现 | 原因 | 解决方法 |
|---|---|---|---|
| 过拟合(Overfitting) | 训练集性能好,测试集性能差(模型 “死记硬背” 训练数据) | 模型复杂度过高、数据量不足、噪声过多 | 正则化(L1/L2)、剪枝、增加数据、Dropout |
| 欠拟合(Underfitting) | 训练集和测试集性能都差(模型未学到数据规律) | 模型复杂度过低、特征工程不足 | 增加模型复杂度、添加特征、调整算法 |
五、深度学习基础(高分点)
5.1 深度学习的定义与特点
-
定义:机器学习的一个分支,基于深度神经网络(多层神经网络),通过多层非线性变换自动学习数据的高层特征(从原始数据到抽象特征)。
-
核心特点:
-
深度:网络层数多(通常≥3 层,包括输入层、隐藏层、输出层)。
-
端到端学习:无需人工设计特征,模型自动从原始数据中提取特征。
-
依赖算力和数据:需要大量标注数据和 GPU 算力支持。
-
5.2 神经网络基础
(1)神经元模型(感知机)
-
定义:模拟人脑神经元的结构,是神经网络的基本单元。
-
输入:多个特征
x₁, x₂, ..., xₙ(如图片的像素值)。 -
计算过程:
-
加权求和:
z = w₁x₁ + w₂x₂ + ... + wₙxₙ + b(w为权重,b为偏置)。 -
激活函数:
a = f(z)(引入非线性,使模型能处理复杂关系)。
-
常用激活函数:
-
Sigmoid:输出 [0,1],适用于二分类输出层;缺点:梯度消失(深层网络中)。
-
Tanh:输出 [-1,1],中心对称;缺点:梯度消失。
-
ReLU:
f(z) = max(0, z),解决梯度消失,计算高效;缺点:死亡 ReLU(部分神经元永久不激活)。 -
Leaky ReLU:
f(z) = max(αz, z)(α 为小正数),改进 ReLU 的死亡问题。
-
(2)神经网络结构
-
输入层:接收原始数据(如图片的像素矩阵、文本的词向量)。
-
隐藏层:提取特征(层数越多,特征越抽象)。
-
输出层:输出预测结果(分类任务用 Softmax 激活,回归任务用线性激活)。
-
示例:
-
单隐藏层网络(浅层神经网络):输入层→隐藏层→输出层(解决简单非线性问题)。
-
深度神经网络(DNN):多层隐藏层(≥2 层)(解决复杂问题,如图像识别)。
-
5.3 经典深度学习模型(必考)
(1)卷积神经网络(CNN)(计算机视觉核心)
-
核心思想:利用图像的局部相关性(如相邻像素关系密切),通过卷积操作提取局部特征,减少参数数量。
-
关键层:
-
卷积层(Conv Layer):用卷积核(滤波器)滑动提取局部特征(如边缘、纹理),输出特征图。
-
池化层(Pooling Layer):对特征图下采样(如最大池化、平均池化),保留关键特征,减少计算量。
-
全连接层(FC Layer):将池化层输出的特征映射为一维向量,进行分类或回归。
-
Softmax 层:输出各类别的概率(分类任务)。
-
-
经典模型:
-
LeNet-5(早期):手写数字识别。
-
AlexNet(2012 年):ImageNet 图像分类竞赛冠军,推动深度学习爆发。
-
VGG、ResNet、Inception:后续改进模型,提升精度和效率。
-
-
应用:图像分类、目标检测、人脸识别、自动驾驶视觉感知。
(2)循环神经网络(RNN)(序列数据核心)
-
核心思想:处理序列数据(如文本、语音、时间序列),通过隐藏层的 “记忆单元” 保存历史信息,适用于前后依赖关系的任务。
-
结构特点:隐藏层的输出不仅依赖当前输入,还依赖上一时刻的隐藏状态(
h_t = f(w·x_t + u·h_{t-1} + b))。 -
局限性:梯度消失或梯度爆炸(处理长序列时,历史信息难以传递)。
-
改进模型:
-
LSTM(长短期记忆网络):通过遗忘门、输入门、输出门解决梯度消失,能捕捉长序列依赖。
-
GRU(门控循环单元):简化 LSTM 结构,计算效率更高。
-
-
应用:机器翻译、文本生成、语音识别、时间序列预测。
(3)Transformer 模型(NLP 革命)
-
核心思想:基于 “自注意力机制”(Self-Attention),能同时捕捉序列中所有位置的依赖关系(并行计算,效率远超 RNN)。
-
关键创新:
-
自注意力机制:计算每个位置与序列中所有位置的相关性,加权求和得到该位置的特征。
-
多头注意力(Multi-Head Attention):多个自注意力头并行计算,捕捉不同类型的依赖。
-
位置编码(Positional Encoding):为序列添加位置信息(Transformer 本身无顺序感知)。
-
-
应用:BERT(预训练语言模型)、GPT(生成式语言模型)、ChatGPT(大语言模型)、机器翻译。
5.4 深度学习训练方法
(1)反向传播算法(BP 算法)(必考)
-
核心思想:用于训练神经网络,通过梯度下降最小化损失函数,从输出层反向计算各层权重的梯度,更新权重。
-
步骤:
-
前向传播:计算各层的输出和损失函数。
-
反向传播:从输出层开始,计算损失函数对各层权重和偏置的梯度(链式法则)。
-
权重更新:
w = w - η·∇L(w)(η 为学习率,∇L (w) 为梯度)。
- 关键:激活函数必须可导(否则无法计算梯度)。
(2)优化器
-
梯度下降(GD):批量计算所有样本的梯度,稳定但速度慢。
-
随机梯度下降(SGD):单个样本计算梯度,速度快但波动大。
-
小批量梯度下降(Mini-Batch SGD):批量计算小部分样本的梯度(如 32/64 个),平衡速度和稳定性。
-
自适应优化器:
-
Adam:结合动量(Momentum)和自适应学习率(RMSProp),收敛快、效果好,应用最广泛。
-
RMSProp、Adagrad:自适应调整学习率,适合稀疏数据。
-
(3)正则化方法
-
L1 正则化:损失函数中添加
λ·Σ|w|,使部分权重为 0,实现特征选择。 -
L2 正则化(权重衰减):损失函数中添加
λ·Σw²,使权重值减小,避免过拟合。 -
Dropout:训练时随机丢弃部分神经元(设置概率 p),测试时恢复所有神经元并调整权重,减少神经元间的依赖。
-
Batch Normalization(BN):对每层输入进行标准化(均值为 0,方差为 1),加速训练收敛,提高泛化能力。
六、自然语言处理(NLP)基础
6.1 NLP 的定义与任务
-
定义:研究计算机与人类语言的交互,让计算机理解、生成、处理人类语言的技术。
-
核心任务:
-
基础任务:分词、词性标注、命名实体识别(NER)、句法分析。
-
高层任务:机器翻译、文本分类、情感分析、智能问答、文本生成。
-
6.2 文本表示方法(必考)
(1)传统表示方法
-
词袋模型(Bag of Words,BoW):将文本视为单词的集合,忽略顺序,用向量表示(如 “我喜欢 AI”→[1,1,1,0,…])。
-
TF-IDF:衡量单词在文本中的重要性,
TF-IDF = TF(词频)× IDF(逆文档频率),解决词袋模型中高频无意义词(如 “的”)的问题。 -
局限:无法捕捉单词的语义和顺序信息。
(2)现代表示方法(词向量)
-
词嵌入(Word Embedding):将单词映射到低维稠密向量(如 100 维 / 200 维),向量的距离反映语义相似度(如 “国王”-“男人”+“女人”≈“女王”)。
-
经典模型:
-
Word2Vec:通过 Skip-Gram(预测上下文)或 CBOW(根据上下文预测目标词)训练词向量。
-
GloVe:结合全局词频统计和局部上下文信息,效果优于 Word2Vec。
-
-
上下文相关词向量:
- BERT、GPT 等预训练模型,生成的词向量依赖上下文(如 “苹果” 在 “吃苹果” 和 “苹果手机” 中语义不同)。
6.3 预训练语言模型(PLM)
-
核心思想:在大规模无标注文本上预训练模型,学习通用语言知识,再在下游任务(如分类、问答)上微调,大幅提升任务性能。
-
代表模型:
-
BERT(双向 Transformer):基于双向自注意力,适合理解类任务(如情感分析、问答)。
-
GPT(生成式 Pre-trained Transformer):基于单向自注意力,适合生成类任务(如文本生成、聊天机器人)。
-
T5、BART:统一理解与生成任务的预训练模型。
-
-
应用:ChatGPT、智能客服、机器翻译、文本摘要。
七、考试高频真题与解析
7.1 概念简答题
题目 1:简述人工智能的三大经典学派及其核心思想。
答案:
-
符号主义(逻辑主义):核心思想是智能的本质是符号的逻辑运算,通过谓词逻辑、产生式规则等形式化方法表示知识,依赖显式推理。
-
连接主义(仿生学派):核心思想是智能的本质是大脑神经元的连接与激活,通过神经网络模拟人脑结构,依赖数据驱动的学习。
-
行为主义(进化学派):核心思想是智能的本质是环境交互与行为强化,通过试错学习和进化算法,让智能体在环境中自主适应。
题目 2:简述监督学习、无监督学习、强化学习的区别与应用场景。
答案:
-
监督学习:数据含标签,学习输入到输出的映射;应用场景:房价预测、图像分类、垃圾邮件识别。
-
无监督学习:数据无标签,学习数据的分布或聚类结构;应用场景:用户分群、特征降维、异常检测。
-
强化学习:智能体通过环境交互获得奖励信号,学习最优行为策略;应用场景:游戏 AI、机器人控制、资源调度。
7.2 算法应用题
题目 1:用 K-Means 算法对以下用户消费数据(金额:[100, 200, 300, 1000, 1200, 1300])进行聚类,K=2,写出聚类过程和结果。
答案:
- 初始聚类中心选择(假设随机选 100 和 1000):
- 簇 1 中心 c1=100,簇 2 中心 c2=1000。
- 第一次分配样本:
-
计算每个样本到 c1 和 c2 的距离(欧氏距离):
-
100:d (c1)=0,d (c2)=900→簇 1;
-
200:d (c1)=100,d (c2)=800→簇 1;
-
300:d (c1)=200,d (c2)=700→簇 1;
-
1000:d (c1)=900,d (c2)=0→簇 2;
-
1200:d (c1)=1100,d (c2)=200→簇 2;
-
1300:d (c1)=1200,d (c2)=300→簇 2。
-
- 重新计算聚类中心:
-
簇 1 中心 c1=(100+200+300)/3=200;
-
簇 2 中心 c2=(1000+1200+1300)/3=1166.67。
- 第二次分配样本(距离 c1 和 c2):
- 100、200、300 仍属于簇 1,1000、1200、1300 仍属于簇 2,中心不再变化。
- 最终结果:簇 1=[100,200,300](低消费用户),簇 2=[1000,1200,1300](高消费用户)。
题目 2:简述 A * 算法的评估函数和最优性条件,并说明其在路径规划中的应用。
答案:
-
评估函数:
f(n) = g(n) + h(n),其中g(n)是初始状态到节点 n 的实际代价,h(n)是节点 n 到目标状态的估计代价(启发函数)。 -
最优性条件:启发函数
h(n)必须是可采纳的,即h(n) ≤ 实际代价h*(n),此时 A * 算法能找到从初始状态到目标状态的最短路径。 -
路径规划应用:以自动驾驶为例,初始状态是当前位置,目标状态是目的地,状态空间是道路网络,操作符是道路移动,启发函数采用曼哈顿距离或欧氏距离,A * 算法能高效找到最短行驶路线。
7.3 综合分析题
题目:某公司想要开发一个智能客服系统,用于自动回复用户的咨询(如产品咨询、售后问题)。请从技术选型、模型设计、评估指标三个方面给出方案。
答案:
- 技术选型:
-
核心任务:意图识别(识别用户咨询类型)+ 问答匹配(根据意图返回答案)。
-
文本表示:采用 BERT 预训练模型生成上下文相关词向量,捕捉语义信息。
-
模型选择:意图识别用微调后的 BERT 分类器,问答匹配用检索式模型(如 TF-IDF + 余弦相似度)或生成式模型(如 GPT)。
- 模型设计:
-
数据预处理:用户咨询文本分词、去停用词、标注意图标签(如 “产品价格”“售后退款”)。
-
训练过程:用标注数据微调 BERT 模型,优化器用 Adam,损失函数用交叉熵损失。
-
推理过程:用户输入→文本预处理→BERT 模型识别意图→检索对应答案(或生成答案)→返回给用户。
- 评估指标:
-
意图识别准确率:正确识别意图的样本占比。
-
问答准确率:返回答案与用户需求匹配的比例。
-
响应时间:系统回复用户的延迟(需控制在 1 秒内)。
-
用户满意度:通过问卷调查收集用户对回复的满意度评分。
八、期末考试易错点终极总结(避坑指南)
8.1 概念类易错点
-
人工智能与机器学习的关系:机器学习是人工智能的核心分支,但人工智能≠机器学习(还包括知识表示、推理、搜索等)。
-
监督学习与强化学习的区别:监督学习有显式标签,强化学习无标签,依赖环境奖励。
-
过拟合与欠拟合的判断:过拟合是训练集性能远优于测试集,欠拟合是两者性能都差(而非测试集性能优于训练集)。
-
CNN 与 RNN 的适用场景:CNN 适合空间数据(图像),RNN 适合序列数据(文本、语音),Transformer 两者都适用且效率更高。
-
启发函数的可采纳性:A * 算法的最优性依赖
h(n) ≤ h*(n),若h(n)高估则不保证最优。
8.2 算法类易错点
-
BFS 与 DFS 的区别:BFS 用队列,保证最短路径;DFS 用栈,不保证最短路径,可能陷入死循环。
-
K-Means 的 K 值选择:K 值不是越大越好,需通过肘部法则或轮廓系数确定,而非主观指定。
-
逻辑回归的任务类型:逻辑回归是分类算法(输出概率),而非回归算法(名称易混淆)。
-
反向传播的梯度计算:梯度是从输出层反向传播到输入层,而非正向;激活函数不可导会导致梯度无法计算。
-
卷积层的参数计算:卷积核的参数数量与输入特征图的大小无关,仅与卷积核的尺寸、输入通道数、输出通道数有关(如 3×3×3×64 的卷积核,参数数 = 3×3×3×64=1728)。
8.3 应用类易错点
-
文本表示方法的优缺点:词袋模型忽略语义和顺序,词向量能捕捉语义,但上下文无关词向量无法处理一词多义。
-
预训练模型的应用:BERT 适合理解类任务(如情感分析),GPT 适合生成类任务(如文本生成),不可混用。
-
评估指标的选择:分类任务中,不平衡数据(如正例占 1%)不能用准确率(易误导),应使用精确率、召回率或 F1 分数。
-
优化器的选择:Adam 在大多数场景下效果优于 SGD,但 SGD 在数据量大、噪声小时更稳定。
九、考前复习建议
-
核心模块优先级:机器学习基础(监督 / 无监督学习、模型评估)> 深度学习核心(CNN/RNN/Transformer)> 知识表示与推理 > 搜索技术 > NLP 基础。
-
概念记忆:重点背诵三大学派、机器学习分类、模型评估指标、过拟合 / 欠拟合解决方法、A * 算法、BP 算法等核心概念。
-
算法理解:无需死记代码,重点理解算法的核心思想、步骤和适用场景(如 K-Means 的聚类过程、A * 的启发函数)。
-
应用分析:结合实际场景(如智能客服、自动驾驶)理解技术选型,培养 “问题→算法→评估” 的思维逻辑。
-
避坑技巧:整理易混淆概念(如监督 / 强化学习、CNN/RNN),通过对比记忆加深理解;关注真题中的综合分析题,练习逻辑表达。
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐

所有评论(0)