人工智能导论期末复习,知识点总结,期末试题。链接:地址
在这里插入图片描述

一、人工智能基础概念(必考)

1.1 人工智能的定义与本质

  • 定义:研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学,目标是让机器具备人类的智能行为(如推理、学习、决策)。

  • 本质:探索智能的工作机制,通过机器模拟人类智能的核心能力(感知、认知、决策、执行)。

  • 核心目标

    • 弱人工智能(当前阶段):针对特定任务的智能(如语音识别、图像分类)。

    • 强人工智能:具备与人类同等或超越人类的通用智能,能自主解决各类问题。

    • 超人工智能:在所有领域远超人类智能水平。

1.2 人工智能的发展历程

阶段 时间范围 核心事件与技术 特点
孕育期 1940s-1955 图灵测试、冯・诺依曼计算机、神经生理学基础 奠定理论与技术基础
诞生期 1956 年 达特茅斯会议(首次提出 “人工智能” 术语) 正式确立学科地位
早期发展期 1956-1974 年 逻辑推理、通用问题求解器(GPS)、感知机 聚焦符号主义,初期成果显著
第一次低谷 1974-1980 年 计算资源有限、推理能力薄弱、缺乏数据支持 funding 削减,研究陷入停滞
复苏期 1980-1987 年 专家系统、机器学习算法(决策树、贝叶斯) 实用化突破,产业应用起步
第二次低谷 1987-1993 年 专家系统维护成本高、缺乏泛化能力 技术瓶颈,市场泡沫破裂
稳步发展期 1993-2010 年 统计学习、SVM、神经网络初步复苏、大数据萌芽 理论完善,数据驱动思想兴起
爆发期 2010 年至今 深度学习(CNN/RNN/Transformer)、大模型 算力 + 数据 + 算法协同,应用爆发

1.3 人工智能的研究范式与学派

(1)三大经典学派
学派 核心思想 代表技术 优势与局限
符号主义(逻辑主义) 智能的本质是符号的逻辑运算(如人类思维的形式化) 逻辑推理、专家系统、谓词逻辑 优势:可解释性强;局限:难以处理不确定性、学习能力弱
连接主义(仿生学派) 智能的本质是大脑神经元的连接与激活(模拟人脑结构) 神经网络、深度学习、感知机 优势:擅长学习、处理海量数据;局限:可解释性差、依赖数据
行为主义(进化学派) 智能的本质是环境交互与行为强化(试错学习) 强化学习、遗传算法、Agent 技术 优势:自主适应环境;局限:复杂任务中收敛慢
(2)现代研究范式
  • 数据驱动范式:以深度学习为核心,依赖海量标注数据和强大算力,通过模型自动学习特征(如 ImageNet 数据集推动 CNN 发展)。

  • 混合范式:融合符号主义与连接主义(如神经符号 AI),兼顾学习能力与可解释性。

  • 小样本 / 零样本学习范式:解决数据稀缺问题,通过迁移学习、提示工程等技术提升模型泛化能力。

1.4 人工智能的应用领域

  • 计算机视觉(CV):图像分类、目标检测、人脸识别、自动驾驶。

  • 自然语言处理(NLP):机器翻译、文本生成、情感分析、智能问答。

  • 语音技术:语音识别、语音合成、语音唤醒。

  • 强化学习应用:游戏 AI、机器人控制、资源调度。

  • 其他领域:医疗诊断、金融风控、智能推荐、智能制造。

二、知识表示与推理(核心考点)

2.1 知识表示方法(必考)

(1)逻辑表示法
  • 谓词逻辑:最常用的形式化表示方法,通过 “谓词 + 个体” 描述事实和关系。

    • 基本形式:P(x1, x2, ..., xn)(P 为谓词,xi 为个体)。

    • 示例:Student(张三)(张三是学生)、Teach(李四, 计算机)(李四教计算机)。

    • 逻辑运算符:∧(与)、∨(或)、¬(非)、→(蕴含)、∀(全称量词)、∃(存在量词)。

    • 优势:精确性高、可推理;局限:灵活性差、难以处理模糊知识。

(2)产生式表示法
  • 定义:由 “条件→动作”(或 “前提→结论”)组成的规则表示知识,形式为IF P THEN Q(P 为前提,Q 为结论)。

  • 示例:IF 动物有羽毛 ∧ 会飞 THEN 动物是鸟

  • 优势:模块化强、易于维护;局限:规则冲突、推理效率低。

  • 应用:专家系统(如医学诊断系统 MYCIN)。

(3)框架表示法
  • 定义:以 “框架” 为单位组织知识,框架包含 “槽”(描述属性)和 “槽值”(属性取值),适合表示结构化知识。

  • 示例:

框架名:

姓名:\[字符串]

性别:\[男/女]

年龄:\[整数]

院系:\[字符串]

选课:>(子框架)
  • 优势:结构化、层次清晰;局限:适应性差、构建成本高。
(4)语义网络表示法
  • 定义:用 “节点(实体 / 概念)+ 边(关系)” 的有向图表示知识,直观易懂。

  • 示例:节点 “张三” 通过 “是” 边连接 “学生”,通过 “选修” 边连接 “数据库”。

  • 优势:直观、易于理解;局限:缺乏严格的形式化定义、推理规则不明确。

2.2 经典推理方法

(1)演绎推理(从一般到特殊)
  • 定义:基于公理、定理或规则,从已知前提推出必然结论的推理方式。

  • 核心形式:三段论(大前提→小前提→结论)。

    • 示例:大前提(所有学生都要考试)→ 小前提(张三是学生)→ 结论(张三要考试)。
  • 常用方法:自然演绎推理、归结演绎推理(基于谓词逻辑的反证法)。

(2)归纳推理(从特殊到一般)
  • 定义:从大量具体实例中总结出一般性规律的推理方式。

  • 类型:完全归纳推理(覆盖所有实例)、不完全归纳推理(基于部分实例)。

  • 示例:观察到多只乌鸦是黑色→归纳出 “所有乌鸦都是黑色”。

  • 优势:能发现新规律;局限:结论不一定可靠(可能存在反例)。

(3)类比推理(从特殊到特殊)
  • 定义:根据两个对象的相似性,从一个对象的已知属性推出另一个对象的未知属性。

  • 示例:地球(有大气层、液态水→有生命)→ 火星(有大气层、液态水→可能有生命)。

  • 优势:创造性强;局限:依赖相似性判断,准确性受影响。

(4)不确定性推理
  • 背景:现实世界中知识常存在模糊性、随机性(如 “明天可能下雨”),需通过概率、模糊数学等方法处理。

  • 常用方法:

    • 贝叶斯推理:基于贝叶斯定理,通过先验概率计算后验概率(如医疗诊断中根据症状概率判断疾病)。

    • 模糊推理:基于模糊集合理论,处理模糊概念(如 “高个子”“年轻”)。

三、搜索技术(高频考点)

3.1 搜索的基本概念

  • 定义:在问题的状态空间中,寻找从初始状态到目标状态的可行路径(或最优路径)的过程。

  • 核心要素

    • 状态空间:所有可能状态的集合(如迷宫的每个位置)。

    • 初始状态:问题的起始点。

    • 目标状态:问题的求解目标。

    • 操作符:从一个状态到另一个状态的转换规则(如迷宫中的 “上下左右移动”)。

3.2 无信息搜索(盲目搜索)

  • 特点:不依赖问题的先验知识,仅根据状态空间的结构进行搜索。
(1)广度优先搜索(BFS)
  • 策略:按层次遍历状态空间,先搜索初始状态的所有直接后继状态,再搜索后继状态的后继,依次类推。

  • 数据结构:队列(先进先出,FIFO)。

  • 优势:保证找到最短路径(如果存在)。

  • 局限:空间复杂度高(需存储所有已访问状态),适合状态空间较小的问题。

  • 示例:迷宫最短路径、社交网络好友推荐(最短连接路径)。

(2)深度优先搜索(DFS)
  • 策略:优先深入搜索状态空间的某一分支,直到无法继续再回溯到上一节点,选择其他分支。

  • 数据结构:栈(先进后出,LIFO)。

  • 优势:空间复杂度低(只需存储当前路径上的状态)。

  • 局限:可能陷入深度无限的分支(死循环),不保证找到最短路径。

  • 示例:拓扑排序、迷宫探索(无需最短路径)。

(3)迭代加深深度优先搜索(IDS)
  • 策略:结合 BFS 和 DFS 的优势,逐步增加搜索深度限制(从 1 开始,未找到则增加深度),直到找到目标状态。

  • 优势:空间复杂度低,且保证找到最短路径。

  • 应用:状态空间较大且深度未知的问题。

3.3 有信息搜索(启发式搜索)

  • 特点:利用问题的启发信息(如距离目标状态的估计值)引导搜索,提高效率。
(1)A * 算法(必考)
  • 核心思想:通过评估函数f(n) = g(n) + h(n)选择下一个待搜索的节点,其中:

    • g(n):从初始状态到节点 n 的实际代价(已知)。

    • h(n):从节点 n 到目标状态的估计代价(启发函数,关键)。

  • 最优性条件:启发函数h(n)必须是可采纳的(即h(n) ≤ 实际代价h*(n)),此时 A * 算法能找到最优路径。

  • 常用启发函数

    • 曼哈顿距离(适用于网格问题):h(n) = |x - x_goal| + |y - y_goal|

    • 欧氏距离(适用于连续空间):h(n) = √[(x - x_goal)² + (y - y_goal)²]

  • 优势:高效、最优;局限:启发函数设计难度大。

  • 示例:路径规划(如自动驾驶中的路线选择)、八数码问题。

(2)贪婪最佳优先搜索
  • 策略:仅以启发函数h(n)为评估标准,选择h(n)最小的节点优先搜索(即 “最接近目标的节点先搜”)。

  • 优势:搜索速度快;局限:不保证找到最优路径(h(n)可能高估)。

3.4 对抗性搜索(博弈搜索)

  • 背景:用于多智能体对抗场景(如棋类游戏),每个智能体的决策会影响其他智能体的目标。
(1)极小极大算法(Min-Max)
  • 核心思想

    • 假设双方都理性决策(Max 方最大化自身收益,Min 方最小化 Max 方收益)。

    • 递归遍历博弈树的所有节点,计算每个节点的 “极小极大值”,Max 方选择极大值节点,Min 方选择极小值节点。

  • 局限:博弈树规模过大时,计算复杂度爆炸(如国际象棋的博弈树节点数远超宇宙原子数)。

(2)α-β 剪枝算法
  • 核心思想:在 Min-Max 算法的基础上,通过剪枝(忽略无意义的分支)减少计算量,不影响最终结果。

    • α:Max 方当前能保证的最大收益。

    • β:Min 方当前能保证的最小收益。

    • 剪枝条件:当某节点的收益≤α(Min 方节点)或≥β(Max 方节点)时,该节点的后续分支无需搜索。

  • 优势:大幅降低计算复杂度,是棋类 AI 的核心算法(如早期的国际象棋 AI)。

四、机器学习基础(重中之重)

4.1 机器学习的定义与分类

(1)定义
  • 机器学习是人工智能的核心分支,研究如何让机器通过经验(数据)自动学习和改进,而无需显式编程。

  • 核心目标:从数据中学习规律(模型),并利用模型对未知数据进行预测或决策。

(2)按学习方式分类(必考)
学习类型 核心特点 数据要求 典型算法 应用场景
监督学习 数据含标签(输入→输出的映射已知) 标注数据(如 “图片→猫 / 狗”) 线性回归、逻辑回归、决策树、SVM、随机森林 图像分类、房价预测、垃圾邮件识别
无监督学习 数据无标签(仅学习数据分布) 未标注数据 聚类(K-Means)、降维(PCA)、异常检测 用户分群、特征提取、欺诈检测
强化学习 智能体通过环境交互获得奖励信号 无直接标签,依赖奖励函数 Q-Learning、DQN、PPO 游戏 AI、机器人控制、资源调度
半监督学习 少量标注数据 + 大量未标注数据 混合数据 自训练、协同训练 医疗影像诊断(标注成本高)
弱监督学习 标签不精确(如噪声标签、部分标签) 弱标注数据 多实例学习、标签传播 文本分类(模糊标签)
(3)按模型类型分类
  • 线性模型:线性回归、逻辑回归(假设输入与输出呈线性关系)。

  • 非线性模型:决策树、神经网络、SVM(核函数)(处理复杂非线性关系)。

  • 生成模型:从数据中学习联合概率分布P(X,Y)(如贝叶斯分类器),可生成新数据。

  • 判别模型:直接学习条件概率分布P(Y|X)(如逻辑回归),专注于预测。

4.2 监督学习核心算法

(1)线性回归(回归任务)
  • 目标:学习一个线性函数y = w₁x₁ + w₂x₂ + ... + wₙxₙ + bw为权重,b为偏置),最小化预测值与真实值的误差。

  • 损失函数:均方误差(MSE):L = (1/n)Σ(y_i - ŷ_i)²y_i为真实值,ŷ_i为预测值)。

  • 优化方法:梯度下降(GD)、随机梯度下降(SGD)(最小化损失函数,更新wb)。

  • 应用:房价预测、销售额预测、温度预测。

(2)逻辑回归(分类任务)
  • 目标:解决二分类问题(输出为 0 或 1),通过 Sigmoid 函数将线性输出映射到 [0,1] 区间(表示概率)。

  • Sigmoid 函数σ(z) = 1/(1 + e^(-z))z = w·x + b),当σ(z) ≥ 0.5时预测为 1,否则为 0。

  • 损失函数:交叉熵损失:L = -Σ(y_i logŷ_i + (1-y_i)log(1-ŷ_i))

  • 优势:简单高效、可解释性强;局限:只能处理线性可分数据。

  • 应用:垃圾邮件识别、疾病诊断(是否患病)、用户流失预测。

(3)决策树(分类 / 回归任务)
  • 定义:以树状结构表示决策规则,每个内部节点表示一个特征判断,每个叶节点表示一个类别或回归值。

  • 核心过程

    • 特征选择:通过信息增益(ID3 算法)、信息增益比(C4.5 算法)、基尼系数(CART 算法)选择最优特征。

    • 树的构建:递归分割数据,直到节点纯度达到阈值(或树深度限制)。

    • 剪枝:避免过拟合(预剪枝:限制树深度;后剪枝:删除冗余分支)。

  • 优势:可解释性强、无需特征归一化、能处理非线性数据;局限:易过拟合、对噪声敏感。

  • 应用:信用风险评估、客户分层、医疗诊断辅助。

(4)支持向量机(SVM)
  • 核心思想:找到一个最优超平面,将不同类别的数据分割开,且使超平面到两类数据的 “间隔” 最大。

  • 关键概念

    • 支持向量:距离超平面最近的样本点(决定超平面的位置)。

    • 核函数:解决非线性可分问题(将低维数据映射到高维特征空间),常用核函数:线性核、多项式核、高斯核(RBF)。

  • 优势:泛化能力强、适合高维数据;局限:计算复杂度高、对参数敏感。

  • 应用:文本分类(如情感分析)、图像识别、生物信息学(基因分类)。

(5)集成学习(随机森林、梯度提升树)
  • 核心思想:组合多个弱学习器(性能略优于随机猜测的模型),形成强学习器,提升预测精度和稳定性。

  • 随机森林(RF)

    • 基于决策树的集成算法,通过 “Bootstrap 采样”(自助采样)和 “特征随机选择” 构建多个决策树,最终结果通过投票(分类)或平均(回归)得到。

    • 优势:抗过拟合、鲁棒性强、处理高维数据;应用:数据挖掘竞赛、工业预测。

  • 梯度提升树(GBT/XGBoost/LightGBM)

    • 串行集成算法,每次训练一个弱学习器(决策树),拟合上一轮模型的残差(误差),逐步减小损失。

    • 优势:预测精度高、处理非线性数据;应用: Kaggle 竞赛冠军常用算法、金融风控、推荐系统。

4.3 无监督学习核心算法

(1)K-Means 聚类(必考)
  • 目标:将无标签数据划分为 K 个簇,使簇内样本相似度高、簇间样本相似度低。

  • 核心步骤

  1. 随机选择 K 个样本作为初始聚类中心。

  2. 计算每个样本到 K 个中心的距离(如欧氏距离),将样本分配到距离最近的簇。

  3. 重新计算每个簇的中心(簇内样本的均值)。

  4. 重复步骤 2-3,直到聚类中心不再变化(或达到迭代次数)。

  • 关键问题

    • K 值选择:通过肘部法则(Elbow Method)(损失函数随 K 增大的拐点)或轮廓系数(Silhouette Coefficient)确定。

    • 初始中心敏感:可能陷入局部最优,需多次运行或选择合适初始中心。

  • 优势:简单高效、适合大规模数据;局限:对异常值敏感、需预先指定 K。

  • 应用:用户分群、客户画像、图像分割。

(2)主成分分析(PCA)(降维)
  • 目标:在保留数据主要信息的前提下,将高维数据映射到低维空间(减少特征维度),解决 “维度灾难”。

  • 核心原理

  1. 对数据进行标准化(均值为 0,方差为 1)。

  2. 计算数据的协方差矩阵(描述特征间的相关性)。

  3. 对协方差矩阵进行特征值分解,得到特征值和特征向量。

  4. 选择特征值最大的前 d 个特征向量,将数据投影到这些向量构成的低维空间。

  • 优势:降低计算复杂度、去除噪声;局限:可解释性差、对非线性数据效果不佳。

  • 应用:图像压缩、特征预处理、数据可视化(如高维数据映射到 2D/3D)。

4.4 模型评估与选择(必考)

(1)数据集划分
  • 训练集(Training Set):用于训练模型(占比 60%-80%)。

  • 验证集(Validation Set):用于调整模型参数(如正则化系数)、选择模型(占比 10%-20%)。

  • 测试集(Test Set):用于评估模型的泛化能力(占比 10%-20%),不可用于模型调整。

  • 交叉验证(K-Fold CV):将数据划分为 K 份,轮流用 K-1 份训练、1 份验证,最终取平均性能(避免数据划分的偶然性)。

(2)分类任务评估指标
  • 混淆矩阵(Confusion Matrix):

    • 真阳性(TP):正例预测为正例。

    • 假阳性(FP):负例预测为正例(误判)。

    • 真阴性(TN):负例预测为负例。

    • 假阴性(FN):正例预测为负例(漏判)。

  • 核心指标:

    • 准确率(Accuracy):(TP+TN)/(TP+FP+TN+FN)(总体预测正确的比例)。

    • 精确率(Precision):TP/(TP+FP)(预测为正例的样本中,实际为正例的比例)→ 关注 “不误判”。

    • 召回率(Recall/Sensitivity):TP/(TP+FN)(实际为正例的样本中,被正确预测的比例)→ 关注 “不漏判”。

    • F1 分数:2*(Precision*Recall)/(Precision+Recall)(精确率和召回率的调和平均,平衡两者)。

    • ROC 曲线与 AUC:ROC 曲线以假阳性率(FPR)为横轴、真阳性率(TPR)为纵轴,AUC 为曲线下面积(AUC 越大,模型性能越好)。

(3)回归任务评估指标
  • 均方误差(MSE):(1/n)Σ(y_i - ŷ_i)²(反映预测值与真实值的平均平方误差)。

  • 均方根误差(RMSE):√MSE(与原数据同量级,更易解释)。

  • 平均绝对误差(MAE):(1/n)Σ|y_i - ŷ_i|(对异常值不敏感)。

  • 决定系数(R²):1 - Σ(y_i - ŷ_i)²/Σ(y_i - ȳ)²(ȳ为真实值均值,R² 越接近 1,模型拟合效果越好)。

(4)过拟合与欠拟合(必考)
问题类型 表现 原因 解决方法
过拟合(Overfitting) 训练集性能好,测试集性能差(模型 “死记硬背” 训练数据) 模型复杂度过高、数据量不足、噪声过多 正则化(L1/L2)、剪枝、增加数据、Dropout
欠拟合(Underfitting) 训练集和测试集性能都差(模型未学到数据规律) 模型复杂度过低、特征工程不足 增加模型复杂度、添加特征、调整算法

五、深度学习基础(高分点)

5.1 深度学习的定义与特点

  • 定义:机器学习的一个分支,基于深度神经网络(多层神经网络),通过多层非线性变换自动学习数据的高层特征(从原始数据到抽象特征)。

  • 核心特点

    • 深度:网络层数多(通常≥3 层,包括输入层、隐藏层、输出层)。

    • 端到端学习:无需人工设计特征,模型自动从原始数据中提取特征。

    • 依赖算力和数据:需要大量标注数据和 GPU 算力支持。

5.2 神经网络基础

(1)神经元模型(感知机)
  • 定义:模拟人脑神经元的结构,是神经网络的基本单元。

  • 输入:多个特征x₁, x₂, ..., xₙ(如图片的像素值)。

  • 计算过程

  1. 加权求和:z = w₁x₁ + w₂x₂ + ... + wₙxₙ + bw为权重,b为偏置)。

  2. 激活函数:a = f(z)(引入非线性,使模型能处理复杂关系)。

  • 常用激活函数

    • Sigmoid:输出 [0,1],适用于二分类输出层;缺点:梯度消失(深层网络中)。

    • Tanh:输出 [-1,1],中心对称;缺点:梯度消失。

    • ReLU:f(z) = max(0, z),解决梯度消失,计算高效;缺点:死亡 ReLU(部分神经元永久不激活)。

    • Leaky ReLU:f(z) = max(αz, z)(α 为小正数),改进 ReLU 的死亡问题。

(2)神经网络结构
  • 输入层:接收原始数据(如图片的像素矩阵、文本的词向量)。

  • 隐藏层:提取特征(层数越多,特征越抽象)。

  • 输出层:输出预测结果(分类任务用 Softmax 激活,回归任务用线性激活)。

  • 示例

    • 单隐藏层网络(浅层神经网络):输入层→隐藏层→输出层(解决简单非线性问题)。

    • 深度神经网络(DNN):多层隐藏层(≥2 层)(解决复杂问题,如图像识别)。

5.3 经典深度学习模型(必考)

(1)卷积神经网络(CNN)(计算机视觉核心)
  • 核心思想:利用图像的局部相关性(如相邻像素关系密切),通过卷积操作提取局部特征,减少参数数量。

  • 关键层

    • 卷积层(Conv Layer):用卷积核(滤波器)滑动提取局部特征(如边缘、纹理),输出特征图。

    • 池化层(Pooling Layer):对特征图下采样(如最大池化、平均池化),保留关键特征,减少计算量。

    • 全连接层(FC Layer):将池化层输出的特征映射为一维向量,进行分类或回归。

    • Softmax 层:输出各类别的概率(分类任务)。

  • 经典模型

    • LeNet-5(早期):手写数字识别。

    • AlexNet(2012 年):ImageNet 图像分类竞赛冠军,推动深度学习爆发。

    • VGG、ResNet、Inception:后续改进模型,提升精度和效率。

  • 应用:图像分类、目标检测、人脸识别、自动驾驶视觉感知。

(2)循环神经网络(RNN)(序列数据核心)
  • 核心思想:处理序列数据(如文本、语音、时间序列),通过隐藏层的 “记忆单元” 保存历史信息,适用于前后依赖关系的任务。

  • 结构特点:隐藏层的输出不仅依赖当前输入,还依赖上一时刻的隐藏状态(h_t = f(w·x_t + u·h_{t-1} + b))。

  • 局限性:梯度消失或梯度爆炸(处理长序列时,历史信息难以传递)。

  • 改进模型

    • LSTM(长短期记忆网络):通过遗忘门、输入门、输出门解决梯度消失,能捕捉长序列依赖。

    • GRU(门控循环单元):简化 LSTM 结构,计算效率更高。

  • 应用:机器翻译、文本生成、语音识别、时间序列预测。

(3)Transformer 模型(NLP 革命)
  • 核心思想:基于 “自注意力机制”(Self-Attention),能同时捕捉序列中所有位置的依赖关系(并行计算,效率远超 RNN)。

  • 关键创新

    • 自注意力机制:计算每个位置与序列中所有位置的相关性,加权求和得到该位置的特征。

    • 多头注意力(Multi-Head Attention):多个自注意力头并行计算,捕捉不同类型的依赖。

    • 位置编码(Positional Encoding):为序列添加位置信息(Transformer 本身无顺序感知)。

  • 应用:BERT(预训练语言模型)、GPT(生成式语言模型)、ChatGPT(大语言模型)、机器翻译。

5.4 深度学习训练方法

(1)反向传播算法(BP 算法)(必考)
  • 核心思想:用于训练神经网络,通过梯度下降最小化损失函数,从输出层反向计算各层权重的梯度,更新权重。

  • 步骤

  1. 前向传播:计算各层的输出和损失函数。

  2. 反向传播:从输出层开始,计算损失函数对各层权重和偏置的梯度(链式法则)。

  3. 权重更新:w = w - η·∇L(w)(η 为学习率,∇L (w) 为梯度)。

  • 关键:激活函数必须可导(否则无法计算梯度)。
(2)优化器
  • 梯度下降(GD):批量计算所有样本的梯度,稳定但速度慢。

  • 随机梯度下降(SGD):单个样本计算梯度,速度快但波动大。

  • 小批量梯度下降(Mini-Batch SGD):批量计算小部分样本的梯度(如 32/64 个),平衡速度和稳定性。

  • 自适应优化器:

    • Adam:结合动量(Momentum)和自适应学习率(RMSProp),收敛快、效果好,应用最广泛。

    • RMSProp、Adagrad:自适应调整学习率,适合稀疏数据。

(3)正则化方法
  • L1 正则化:损失函数中添加λ·Σ|w|,使部分权重为 0,实现特征选择。

  • L2 正则化(权重衰减):损失函数中添加λ·Σw²,使权重值减小,避免过拟合。

  • Dropout:训练时随机丢弃部分神经元(设置概率 p),测试时恢复所有神经元并调整权重,减少神经元间的依赖。

  • Batch Normalization(BN):对每层输入进行标准化(均值为 0,方差为 1),加速训练收敛,提高泛化能力。

六、自然语言处理(NLP)基础

6.1 NLP 的定义与任务

  • 定义:研究计算机与人类语言的交互,让计算机理解、生成、处理人类语言的技术。

  • 核心任务

    • 基础任务:分词、词性标注、命名实体识别(NER)、句法分析。

    • 高层任务:机器翻译、文本分类、情感分析、智能问答、文本生成。

6.2 文本表示方法(必考)

(1)传统表示方法
  • 词袋模型(Bag of Words,BoW):将文本视为单词的集合,忽略顺序,用向量表示(如 “我喜欢 AI”→[1,1,1,0,…])。

  • TF-IDF:衡量单词在文本中的重要性,TF-IDF = TF(词频)× IDF(逆文档频率),解决词袋模型中高频无意义词(如 “的”)的问题。

  • 局限:无法捕捉单词的语义和顺序信息。

(2)现代表示方法(词向量)
  • 词嵌入(Word Embedding):将单词映射到低维稠密向量(如 100 维 / 200 维),向量的距离反映语义相似度(如 “国王”-“男人”+“女人”≈“女王”)。

  • 经典模型:

    • Word2Vec:通过 Skip-Gram(预测上下文)或 CBOW(根据上下文预测目标词)训练词向量。

    • GloVe:结合全局词频统计和局部上下文信息,效果优于 Word2Vec。

  • 上下文相关词向量:

    • BERT、GPT 等预训练模型,生成的词向量依赖上下文(如 “苹果” 在 “吃苹果” 和 “苹果手机” 中语义不同)。

6.3 预训练语言模型(PLM)

  • 核心思想:在大规模无标注文本上预训练模型,学习通用语言知识,再在下游任务(如分类、问答)上微调,大幅提升任务性能。

  • 代表模型

    • BERT(双向 Transformer):基于双向自注意力,适合理解类任务(如情感分析、问答)。

    • GPT(生成式 Pre-trained Transformer):基于单向自注意力,适合生成类任务(如文本生成、聊天机器人)。

    • T5、BART:统一理解与生成任务的预训练模型。

  • 应用:ChatGPT、智能客服、机器翻译、文本摘要。

七、考试高频真题与解析

7.1 概念简答题

题目 1:简述人工智能的三大经典学派及其核心思想。

答案

  • 符号主义(逻辑主义):核心思想是智能的本质是符号的逻辑运算,通过谓词逻辑、产生式规则等形式化方法表示知识,依赖显式推理。

  • 连接主义(仿生学派):核心思想是智能的本质是大脑神经元的连接与激活,通过神经网络模拟人脑结构,依赖数据驱动的学习。

  • 行为主义(进化学派):核心思想是智能的本质是环境交互与行为强化,通过试错学习和进化算法,让智能体在环境中自主适应。

题目 2:简述监督学习、无监督学习、强化学习的区别与应用场景。

答案

  • 监督学习:数据含标签,学习输入到输出的映射;应用场景:房价预测、图像分类、垃圾邮件识别。

  • 无监督学习:数据无标签,学习数据的分布或聚类结构;应用场景:用户分群、特征降维、异常检测。

  • 强化学习:智能体通过环境交互获得奖励信号,学习最优行为策略;应用场景:游戏 AI、机器人控制、资源调度。

7.2 算法应用题

题目 1:用 K-Means 算法对以下用户消费数据(金额:[100, 200, 300, 1000, 1200, 1300])进行聚类,K=2,写出聚类过程和结果。

答案

  1. 初始聚类中心选择(假设随机选 100 和 1000):
  • 簇 1 中心 c1=100,簇 2 中心 c2=1000。
  1. 第一次分配样本:
  • 计算每个样本到 c1 和 c2 的距离(欧氏距离):

    • 100:d (c1)=0,d (c2)=900→簇 1;

    • 200:d (c1)=100,d (c2)=800→簇 1;

    • 300:d (c1)=200,d (c2)=700→簇 1;

    • 1000:d (c1)=900,d (c2)=0→簇 2;

    • 1200:d (c1)=1100,d (c2)=200→簇 2;

    • 1300:d (c1)=1200,d (c2)=300→簇 2。

  1. 重新计算聚类中心:
  • 簇 1 中心 c1=(100+200+300)/3=200;

  • 簇 2 中心 c2=(1000+1200+1300)/3=1166.67。

  1. 第二次分配样本(距离 c1 和 c2):
  • 100、200、300 仍属于簇 1,1000、1200、1300 仍属于簇 2,中心不再变化。
  1. 最终结果:簇 1=[100,200,300](低消费用户),簇 2=[1000,1200,1300](高消费用户)。
题目 2:简述 A * 算法的评估函数和最优性条件,并说明其在路径规划中的应用。

答案

  • 评估函数:f(n) = g(n) + h(n),其中g(n)是初始状态到节点 n 的实际代价,h(n)是节点 n 到目标状态的估计代价(启发函数)。

  • 最优性条件:启发函数h(n)必须是可采纳的,即h(n) ≤ 实际代价h*(n),此时 A * 算法能找到从初始状态到目标状态的最短路径。

  • 路径规划应用:以自动驾驶为例,初始状态是当前位置,目标状态是目的地,状态空间是道路网络,操作符是道路移动,启发函数采用曼哈顿距离或欧氏距离,A * 算法能高效找到最短行驶路线。

7.3 综合分析题

题目:某公司想要开发一个智能客服系统,用于自动回复用户的咨询(如产品咨询、售后问题)。请从技术选型、模型设计、评估指标三个方面给出方案。

答案

  1. 技术选型:
  • 核心任务:意图识别(识别用户咨询类型)+ 问答匹配(根据意图返回答案)。

  • 文本表示:采用 BERT 预训练模型生成上下文相关词向量,捕捉语义信息。

  • 模型选择:意图识别用微调后的 BERT 分类器,问答匹配用检索式模型(如 TF-IDF + 余弦相似度)或生成式模型(如 GPT)。

  1. 模型设计:
  • 数据预处理:用户咨询文本分词、去停用词、标注意图标签(如 “产品价格”“售后退款”)。

  • 训练过程:用标注数据微调 BERT 模型,优化器用 Adam,损失函数用交叉熵损失。

  • 推理过程:用户输入→文本预处理→BERT 模型识别意图→检索对应答案(或生成答案)→返回给用户。

  1. 评估指标:
  • 意图识别准确率:正确识别意图的样本占比。

  • 问答准确率:返回答案与用户需求匹配的比例。

  • 响应时间:系统回复用户的延迟(需控制在 1 秒内)。

  • 用户满意度:通过问卷调查收集用户对回复的满意度评分。

八、期末考试易错点终极总结(避坑指南)

8.1 概念类易错点

  1. 人工智能与机器学习的关系:机器学习是人工智能的核心分支,但人工智能≠机器学习(还包括知识表示、推理、搜索等)。

  2. 监督学习与强化学习的区别:监督学习有显式标签,强化学习无标签,依赖环境奖励。

  3. 过拟合与欠拟合的判断:过拟合是训练集性能远优于测试集,欠拟合是两者性能都差(而非测试集性能优于训练集)。

  4. CNN 与 RNN 的适用场景:CNN 适合空间数据(图像),RNN 适合序列数据(文本、语音),Transformer 两者都适用且效率更高。

  5. 启发函数的可采纳性:A * 算法的最优性依赖h(n) ≤ h*(n),若h(n)高估则不保证最优。

8.2 算法类易错点

  1. BFS 与 DFS 的区别:BFS 用队列,保证最短路径;DFS 用栈,不保证最短路径,可能陷入死循环。

  2. K-Means 的 K 值选择:K 值不是越大越好,需通过肘部法则或轮廓系数确定,而非主观指定。

  3. 逻辑回归的任务类型:逻辑回归是分类算法(输出概率),而非回归算法(名称易混淆)。

  4. 反向传播的梯度计算:梯度是从输出层反向传播到输入层,而非正向;激活函数不可导会导致梯度无法计算。

  5. 卷积层的参数计算:卷积核的参数数量与输入特征图的大小无关,仅与卷积核的尺寸、输入通道数、输出通道数有关(如 3×3×3×64 的卷积核,参数数 = 3×3×3×64=1728)。

8.3 应用类易错点

  1. 文本表示方法的优缺点:词袋模型忽略语义和顺序,词向量能捕捉语义,但上下文无关词向量无法处理一词多义。

  2. 预训练模型的应用:BERT 适合理解类任务(如情感分析),GPT 适合生成类任务(如文本生成),不可混用。

  3. 评估指标的选择:分类任务中,不平衡数据(如正例占 1%)不能用准确率(易误导),应使用精确率、召回率或 F1 分数。

  4. 优化器的选择:Adam 在大多数场景下效果优于 SGD,但 SGD 在数据量大、噪声小时更稳定。

九、考前复习建议

  1. 核心模块优先级:机器学习基础(监督 / 无监督学习、模型评估)> 深度学习核心(CNN/RNN/Transformer)> 知识表示与推理 > 搜索技术 > NLP 基础。

  2. 概念记忆:重点背诵三大学派、机器学习分类、模型评估指标、过拟合 / 欠拟合解决方法、A * 算法、BP 算法等核心概念。

  3. 算法理解:无需死记代码,重点理解算法的核心思想、步骤和适用场景(如 K-Means 的聚类过程、A * 的启发函数)。

  4. 应用分析:结合实际场景(如智能客服、自动驾驶)理解技术选型,培养 “问题→算法→评估” 的思维逻辑。

  5. 避坑技巧:整理易混淆概念(如监督 / 强化学习、CNN/RNN),通过对比记忆加深理解;关注真题中的综合分析题,练习逻辑表达。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐