【综述】机器学习概述(Machine Learning)
文章目录
前言
AI 技术日新月异,大模型你追我赶。算法在进化,算力在跃迁,应用在爆发。我们或许已经悄然置身于“技术奇点”的边缘——
智能体触手可及,模型能力不断突破,人机协作正在重塑生产与思考方式。
然而,工具的门槛在降低,思考的门槛却在升高。当智能系统可以替我们完成写作、编程、分析与决策时,若缺乏对其原理与边界的理解,我们便可能在便利之中,逐渐丧失独立思考的能力。
在时代的洪流中,真正值得守住的,并非某一个具体工具,而是持续学习的能力、抽象思考的能力,以及理解底层逻辑的能力。因此,我写下这篇《机器学习概述》,并开设机器学习专栏。在学习过程中梳理逻辑、构建体系,并将其整理分享。未来将持续更新与完善内容,结合技术发展不断补充新的方法与思考。
个人觉得在这个时代,真正需要不断升级的,不是模型,而是我们自身的认知结构。
一、机器学习核心思想
1.1 什么是机器学习?
机器学习的本质是通过数据自动学习输入与输出之间的映射关系,并构建能够对未知数据进行预测或决策的模型。
1.2 机器学习 vs 传统编程
✅1️⃣传统编程时人先写好规则(算法逻辑),计算机按照规则处理数据,然后输出结果。
传统编程范式:规则+数据=结果;
✅2️⃣ 机器学习是机器通过大量数据,自己找规律。
机器学习范式:数据+结果 = 规则(模型),新数据+规则(模型)= 预测结果;
工业技术的进步推动了传感器技术的发展和存储能力的提升,数据规模呈现爆炸式增长,为机器学习的发展提供了重要基础。
1.3 机器学习的本质:函数拟合
从数学角度来看,大多数机器学习问题的本质,是寻找一个函数,使输入变量能够映射到对应的输出结果: y = f ( x ) y= f(x) y=f(x)。
其中: x x x 表示输入特征; y y y表示目标输出; f f f是我们希望通过数据学习得到的映射关系。
机器学习的核心任务,就是通过已有数据样本,估计这个未知函数,使其在未见过的新数据上仍然具有良好的预测能力(即具备泛化能力)。
从建模角度分类,模型通常可以分为:白箱模型、灰箱模型、黑箱模型。
✅1️⃣ 白箱模型(White-box Model)
白箱模型是基于明确的物理、化学或数学机理建立的模型。模型结构清晰,变量关系可解释。例如:牛顿运动定律、热力学方程等。
特点:可解释性强、结构清晰、依赖领域知识、通常适用于机理明确的系统。
✅2️⃣ 灰箱模型(Grey-box Model)
灰箱模型结合机理模型与数据驱动。其部分结构来自物理规律,部分参数或关系通过数据学习得到。例如:电池寿命预测:机理模型 + 数据修正。
特点:兼顾可解释性与灵活性、适用于机理不完全明确的系统、常用于工业建模与工程优化。
✅3️⃣ 黑箱模型(Black-box Model)
黑箱模型不依赖明确的物理机理,仅通过数据学习输入与输出之间的映射关系。机器学习模型大多属于黑箱模型,例如:神经网络、支持向量机、随机森林、深度学习模型。
特点:不需要明确写出物理公式、只需大量数据、可建模高度复杂的非线性关系、可解释性相对较弱。例如:我们无法写出一个明确公式来描述:“图片像素 → 是否为猫”。但可以通过神经网络从大量数据中学习这个映射关系。
因此,机器学习的核心不是编写规则,而是通过数据逼近未知函数;它本质上是一种基于数据的函数估计方法。
二、机器学习类型
根据学习方式和数据形式的不同,机器学习通常可以分为以下几类:监督学习、无监督学习、半监督学习和强化学习。
2.1 有监督学习
监督学习是指在带有标签的数据上进行训练的学习方式。数据形式为: ( x , y ) (x,y) (x,y)。
其训练数据通常表示为: ( x ( i ) , y ( i ) ) , i = 1 , 2 , … , n (x^{(i)},\, y^{(i)}),\ i=1,2,\dots,n (x(i),y(i)), i=1,2,…,n 其中:
x ( i ) x^{(i)} x(i)为第 i i i 个样本的输入特征;
y ( i ) y^{(i)} y(i)是对应的标签或目标值;
n n n是样本数量;
模型通过已知的输入—输出样本对,学习二者之间的映射关系: y = f ( x ) y\!=\!f(x) y=f(x),从而在训练完成后,对新的未知输入进行预测。
常见任务:
输出为连续值的天气预测(回归问题),
输出为离散值的图像分类(分类问题)。
有监督学习的核心在于利用已知标签最小化预测误差,从而学习输入与输出之间的函数映射关系。
2.2 无监督学习
无监督学习(Unsupervised Learning)是指在没有标签的数据上进行训练的学习方式。
其训练数据通常表示为: { x ( i ) } i = 1 n \{ x^{(i)} \}_{i=1}^{n} {x(i)}i=1n 其中:
x ( i ) x^{(i)} x(i)是第 i 个样本的输入特征;
n n n:样本数量;
与监督学习不同,无监督学习的数据中没有对应的目标值 y y y。模型需要从数据本身出发,自动发现数据的内在结构或分布规律。
无监督学习的核心目标通常包括:发现数据中的潜在结构、挖掘数据的内在分布规律、对数据进行压缩或表示学习。
常见任务:
✅1️⃣ 聚类(Clustering)
将相似的样本自动划分为若干类别。例如:用户分群;常见算法:K-Means。
✅2️⃣ 降维(Dimensionality Reduction)
将高维数据映射到低维空间,同时尽量保留原始信息。例如:主成分分析(PCA),自编码器(Auto_encoder)。
应用场景:数据可视化,特征压缩;
无监督学习是在没有标签的情况下,通过分析数据本身的结构和分布,挖掘隐藏规律的一类学习方法。无监督学习往往用于数据探索和预处理。
2.3 半监督学习
半监督学习(Semi-supervised Learning)是指在同时包含少量带标签数据和大量无标签数据的情况下进行训练的学习方式。
其训练数据通常表示为:
{ ( x ( i ) , y ( i ) ) } i = 1 l ∪ { x ( j ) } j = l + 1 n \{(x^{(i)},y^{(i)})\}_{i=1}^{l}\cup\{x^{(j)}\}_{j=l+1}^{n} {(x(i),y(i))}i=1l∪{x(j)}j=l+1n 其中:
l l l:带标签样本数量;
n − l n-l n−l:无标签样本数量
通常满足 l ≪ n l\ll n l≪n,即标注数据较少,无标注数据较多。
半监督学习的核心思想是利用无标签数据中蕴含的结构信息,辅助提升模型在有标签数据上的学习效果。广泛应用于医学影像识别(标注成本高)、语音识别等领域。在实际问题中,数据标注往往成本昂贵,因此半监督学习具有重要现实意义。
半监督学习通过结合少量标注数据与大量未标注数据,在降低标注成本的同时提升模型的泛化能力。
2.4 强化学习
强化学习(Reinforcement Learning, RL)是一种通过与环境交互来学习决策策略的学习方式。其目标是通过不断试错,使智能体(Agent)获得最大化的长期累计回报。
强化学习的核心要素包括:
• 智能体(Agent):做出决策的主体
• 环境(Environment):智能体交互的外部系统
• 状态(State):环境在某一时刻的描述,记为 s s s
• 动作(Action):智能体在状态下采取的行为,记为 a a a
• 奖励(Reward):环境对动作的反馈,记为 r r r
强化学习问题通常建模为马尔可夫决策过程(Markov Decision Process, MDP),表示为:
( S , A , P , R , γ ) (S,A,P,R,\gamma) (S,A,P,R,γ)
其中:
S S S:状态空间
A A A:动作空间
P ( s ′ ∣ s , a ) P(s'\mid s,a) P(s′∣s,a):状态转移概率
R ( s , a ) R(s,a) R(s,a):奖励函数
γ ∈ [ 0 , 1 ] \gamma\in[0,1] γ∈[0,1]:折扣因子
强化学习的目标是找到一个策略: π ( a ∣ s ) \pi(a\mid s) π(a∣s),使累计期望回报最大化。累计回报定义为:
G t = ∑ k = 0 ∞ γ k r t + k G_t=\sum_{k=0}^{\infty}\gamma^k r_{t+k} Gt=k=0∑∞γkrt+k 目标函数为:
max π E π [ G t ] \max_{\pi}\mathbb{E}_{\pi}[G_t] πmaxEπ[Gt] 强化学习方法通常分为三类:
• 基于价值的方法(Value-based)
• 基于策略的方法(Policy-based)
• Actor–Critic 方法
强化学习广泛应用于游戏对弈(AlphaGo)、自动驾驶、机器人控制等领域。
2.5 小结
不同机器学习方法对比:
| 类型 | 是否有标签 | 是否与环境交互 | 优化目标 |
|---|---|---|---|
| 监督学习 | 有 | 否 | 最小化预测误差 |
| 无监督学习 | 无 | 否 | 发现数据结构 |
| 半监督学习 | 少量 | 否 | 提升泛化能力 |
| 强化学习 | 无显式标签 | 是 | 最大化长期回报 |
三、机器学习基本流程
机器学习并非从算法开始,而是从问题开始。一个完整的机器学习流程通常包括问题定义、数据准备、模型训练与评估优化等阶段。
3.1 问题定义
当使用机器学习方法来解决一个实际问题时,首先要明确问题。明确任务类型、模型的输入与输出、评价指标。如果问题定义出现偏差,即使模型再复杂,也难以产生真正有价值的结果。
3.2 数据收集
数据收集是机器学习流程中的基础环节。高质量、具有代表性的数据,是构建高性能模型的前提条件。数据质量直接决定模型上限。
数据收集需注意以下几个方面:
(1)数据来源
数据可以来自传感器或日志数据、公开数据集等多种渠道,不同来源的数据在结构、质量和可靠性上可能存在差异。
(2)数据规模
一般而言,数据规模越大,模型越容易学习到稳定的规律。但数据数量并非唯一因素,数据的代表性与多样性同样重要。
(3)数据质量
数据质量问题包括:缺失值、异常值、噪声数据、标签错误,如果数据质量较低,即使使用先进模型,也难以取得良好效果。
3.3 数据清洗与处理
现实世界中的数据往往存在缺失、噪声和格式不统一等问题,如果不进行处理,可能会严重影响模型的训练效果。
(1)缺失值处理
常见方法包括:删除含有缺失值的样本或特征,使用均值、中位数或众数填充,使用模型预测缺失值。不同方法适用于不同的数据场景。
(2)异常值处理
异常值可能来源于数据录入错误或特殊事件。常见处理方式包括:
• 通过统计方法识别并删除异常值
• 使用分位数或标准差进行截断
• 对异常值进行单独分析
(3)数据格式转换
主要包括:
• 类别变量编码(如独热编码)
• 时间数据格式转换
• 文本数据分词与向量化
• 统一的数据格式有助于模型正确读取与计算。
(4)特征缩放
不同特征的取值范围可能差异较大,需要进行标准化或归一化处理,以避免某些特征对模型产生过度影响。
常见方法包括:最小-最大归一化(min_max),均值方差Z-score 标准化。
3.4 特征工程
特征工程是将原始数据转换为模型可理解的输入形式。良好的特征工程能够显著提升模型效果,而不合理的特征设计则可能限制模型的表现。在传统机器学习中,特征工程往往比模型选择更重要。
(1)特征提取
特征提取是指从原始数据中提取有意义的信息。例如:
从时间数据中提取“星期几”“月份”“是否节假日”等特征
从文本中提取词频或向量表示
从图像中提取边缘、纹理等信息
特征提取的目标是将原始数据转化为模型可以有效处理的数值形式。
(2)特征构造
特征构造是基于已有特征生成新的特征,例如:
两个变量的比值或乘积
分组统计特征(如平均值、最大值)
时间窗口统计特征
合理的特征构造可以帮助模型更好地捕捉潜在规律。
(3)特征选择
并非所有特征都会对模型产生正向作用。冗余或无关特征可能导致模型复杂度增加,甚至引发过拟合。
常见的特征选择方法包括:
• 基于统计检验的方法
• 基于模型的重要性评估
• 正则化方法(如 L1 正则化)
特征选择有助于降低维度,提高模型训练效率和泛化能力。
3.5 选择模型
(1)根据任务类型选择
首先要明确任务属于哪一类:
• 分类问题 → 如逻辑回归、决策树
• 回归问题 → 如线性回归
• 聚类问题 → 如 K-Means
不同任务对应不同模型。
(2)根据数据情况选择
• 数据量小 → 可以选择结构简单的模型
• 数据量大 → 可以选择表达能力更强的模型
• 特征较多 → 可考虑带正则化的模型
模型选择应结合数据特点。
(3)从简单模型开始
在实际应用中,通常先建立一个简单模型作为基准,再逐步尝试更复杂的模型。这样可以更清楚地比较模型效果。
3.6 训练模型
在选择好模型之后,需要使用训练数据对模型进行训练。模型训练的过程,就是让模型从数据中学习规律,并确定模型参数的过程。
(1)划分数据集
在训练模型之前,通常需要将数据划分为:
• 训练集:用于训练模型
• 测试集:用于评估模型效果
这样可以检验模型在新数据上的表现。
(2)优化目标与损失函数
机器学习模型的训练,本质上是一个优化问题。我们需要定义一个优化目标(Objective Function),用来衡量模型预测结果与真实结果之间的差距。
通常通过损失函数(Loss Function)来刻画误差。
例如:回归问题常用均方误差(MSE): L = 1 n ∑ i = 1 n ( y ( i ) − y ^ ( i ) ) 2 L = \frac{1}{n} \sum_{i=1}^{n} \left(y^{(i)} - \hat{y}^{(i)}\right)^2 L=n1i=1∑n(y(i)−y^(i))2 分类问题常用交叉熵损失(Cross-Entropy Loss)。
模型训练的目标,就是找到一组参数 θ \theta θ,使损失函数最小化:
min θ L ( θ ) \min_{\theta} L(\theta) θminL(θ)
在某些情况下,还会在损失函数中加入正则化项,用于限制模型复杂度:
min θ [ L ( θ ) + λ R ( θ ) ] \min_{\theta} \left[ L(\theta) + \lambda R(\theta) \right] θmin[L(θ)+λR(θ)] 其中: R ( θ ) R(\theta) R(θ) 表示正则化项, λ \lambda λ 控制正则化强度。
(2)模型学习过程
训练过程中,模型会根据输入数据不断调整参数,使预测结果与真实结果之间的误差尽可能小。这一过程通常通过优化算法完成,例如梯度下降法。
(3)防止过拟合
如果模型在训练集上表现很好,但在测试集上效果较差,说明可能出现了过拟合现象。
常见的解决方法包括:
• 增加数据量
• 使用正则化
• 简化模型结构
小结
模型训练的目标是让模型从数据中学习有效规律,同时保持良好的泛化能力。训练本质是不断调整参数,使损失函数最小化。
3.7 评估模型
模型评估的目的是检验模型在新数据上的表现。
(1)使用测试集进行评估
通常使用之前划分好的测试集,对模型进行预测,并将预测结果与真实结果进行比较。
如果模型在测试集上表现良好,说明模型具有较好的泛化能力。
(2)常用评价指标
不同任务类型,对应不同评价指标。
分类问题:
• 准确率(Accuracy)
• 精确率(Precision)
• 召回率(Recall)
回归问题:
• 均方误差(MSE)
• 平均绝对误差(MAE)
选择合适的评价指标,有助于更准确地衡量模型性能。
(3)分析模型结果
如果模型效果不理想,可以:
• 调整模型参数
• 更换模型
• 改进特征工程
模型优化通常是一个反复迭代的过程。
3.8 部署应用
当模型通过评估并达到预期效果后,就可以将模型应用到实际场景中,这个过程称为模型部署。模型部署的目的是让模型在真实环境中发挥作用。
(1)模型保存
在部署之前,需要将训练好的模型保存下来。
这样可以在实际应用中直接加载模型进行预测,而不需要重新训练。
(2)模型上线
部署方式通常包括:
• 集成到网站或应用程序中
• 提供接口(API)供系统调用
• 嵌入到业务系统中进行自动预测
模型上线后,可以对新的数据进行实时或批量预测。
(3)模型监控与维护
模型上线后,还需要持续监控其效果。
如果发现预测效果下降,可能需要:
• 更新数据
• 重新训练模型
• 优化模型结构
模型部署不是结束,模型需要持续监控和迭代。
四、机器学习与深度学习关系
机器学习和深度学习是人工智能领域中的两个重要概念。
层级关系:人工智能 > 机器学习 > 深度学习。
区别如下:
| 对比方面 | 机器学习 | 深度学习 |
|---|---|---|
| 特征提取 | 通常人工设计 | 自动提取 |
| 数据需求 | 较低 | 通常较高 |
| 计算资源 | 较低 | 较高 |
| 适用场景 | 结构化数据 | 图像、语音、文本 |
深度学习是机器学习的一种方法。二者的核心目标都是让计算机从数据中学习规律,但实现方式和应用场景有所不同。深度学习通过多层非线性变换,能够自动学习分层表示(Hierarchical Representation),底层提取基础特征,高层组合为抽象语义。深度学习的核心优势在于表示学习能力,而不仅仅是模型复杂度。
五、应用领域
按能力可分为:
• 预测类(金融、销量)
• 识别类(图像、语音)
• 推荐类(电商、内容平台)
• 决策类(自动驾驶、机器人)
机器学习已成为现代软件系统的重要组成部分。
思维导图

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐


所有评论(0)