机器学习周报六

本周学习的是集成学习部分的内容，关于bagging和boosting有了认识，对梯度、方向导数进行学习，解开了理解不充分的地方。本周对集成学习的概念和AdaBoost、GBDT算法和空间代数进行了学习，由于时间问题，还没有通过梯度去解释GBDT算法，下周将会解开GBDT的疑惑。

讋113

1130人浏览 · 2025-07-27 19:35:04

讋113 · 2025-07-27 19:35:04 发布

文章目录

摘要

本周学习的是集成学习部分的内容，关于bagging和boosting有了认识，对梯度、方向导数进行学习，解开了理解不充分的地方。

Abstract

This week I learned the content of the integrated learning part, about bagging and boosting, learned gradients and direction derivatives, and solved the insufficient understanding.

1 集成学习

1.1 基本概念

构建并组合多个学习器来完成学习任务。先产生一组“个体学习器”，再用某种策略将它们结合起来。个体学习器一般就是我们常见的机器学习算法，比如：决策树，神经网络等。

图1.1 集成学习

有两种集成：同质和异质

同质是指个体学习器都是同一种类型，同质集成中的个体学习器又称基学习器。
异质是指个体学习器包含不同类型的学习算法，比如包含决策树和神经网络。

一般使用的都是同质的

按照个体学习器之间是否存在依赖关系可以分为两类：

个体学习器之间存在强依赖关系，一系列个体学习器基本必须串行生成，代表是boosting系列算法。
个体学习器之间不存在强依赖关系，一系列个体学习器可以并行生成，代表是bagging系列算法。

1.2 Boosting

图1.2 Boosting

上图看出，Boosting的流程是从初始训练集先训练一个基学习器；根据基学习器的预测结果对样本权重进行调整，增加基学习器分类错误的样本的权重（重采样）；基于调整后的样本分布重新训练下一个学习器。如此重复进行到T个学习器的训练，将这T个学习器进行整合，得到最后的强学习器。

Boosting算法的典型有：

AdaBoost（Adaptive Boosting）：AdaBoost 通过改变样本的权重，使得每个后续分类器更加关注前一轮错误分类的样本。
梯度提升树（Gradient Boosting Decision Trees, GBDT）：GBTD 通过迭代优化目标函数，逐步减少偏差。
XGBoost（Extreme Gradient Boosting）：XGBoost 是一种高效的梯度提升算法，广泛应用于数据科学竞赛中，具有较强的性能和优化。
LightGBM（Light Gradient Boosting Machine）：LightGBM 是一种基于梯度提升树的框架，相较于 XGBoost，具有更快的训练速度和更低的内存使用。

优势：

适用于偏差较大的模型，能有效提高预测准确性。
强大的性能，在许多实际应用中表现优异。

缺点：

对噪声数据比较敏感，容易导致过拟合。
训练过程较慢，特别是在数据量较大的情况下。

1.3 Bagging

图 1.3 Bagging

Bagging 的目标是通过减少模型的方差来提高性能，适用于高方差、易过拟合的模型。它通过以下步骤实现：

数据集重采样：对训练数据集进行多次有放回的随机采样（bootstrap），每次采样得到一个子数据集。
训练多个模型：在每个子数据集上训练一个基学习器（通常是相同类型的模型）。
结果合并：将多个基学习器的结果进行合并，通常是通过投票（分类问题）或平均（回归问题）。

值得注意的是这里的随机采样采用的是自助采样法（Bootstrap sampling），自助采样法是一种有放回的采样。即对于 $m$ 个样本的原始训练集，每次先随机采集一个样本放入采样集，接着把该样本放回，这样采集 $m$ 次，最终可以得到 $m$ 个样本的采样集，由于是随机采样，这样每次的采样集是和原始训练集不同的，和其他采样集也是不同的。

对于一个样本，它每次被采集到的概率是 $\frac{1}{m}$ 。不被采集到的概率为 $1-\frac{1}{m}$ 。如果 $m$ 次采样都没有被采集中的概率是 $(1-\frac{1}{m})^m$ 。则 $\lim_{m\rightarrow \infty}(1-\frac{1}{m})^m\rightarrow \frac{1}{e}\approx0.368$ ，即当抽样的样本量足够大时，在bagging的每轮随机采样中，训练集中大约有36.8%的数据没有被采集中。对于这部分大约36.8%的没有被采样到的数据，常常称之为袋外数据（Out Of Bag, 简称OOB）。这些数据未参与训练集模型的拟合，可以用来检测模型的泛化能力。

bagging对于弱学习器最常用的一般也是决策树和神经网络。bagging的集合策略也比较简单，对于分类问题，通常使用相对多数投票法。对于回归问题，通常使用算术平均法。

典型算法：

随机森林（Random Forest）：随机森林是 Bagging 的经典实现，它通过构建多个决策树，每棵树在训练时随机选择特征，从而减少过拟合的风险。

优势：

可以有效减少方差，提高模型稳定性。
适用于高方差的模型，如决策树。

缺点：

训练过程时间较长，因为需要训练多个模型。
结果难以解释，因为没有单一的模型。

1.4 合成策略

假定得到的 $T$ 个弱学习器 $h_1,h_2,...,h_T$

平均法

对于回归问题通常使用平均法

最简单的平均法是算术平均，即：

$H(x)=\frac{1}{T}\Sigma_{i=1}^{T}h_i(x)$

也可以是每个学习器的加权平均，即：

$H(x)=\Sigma_{i=1}^T w_i h_i(x)$

其中 $w_i$ 是个体学习器 $h_i$ 的权重

投票法

对于分类问题通常使用投票法。

假设预测类别是 $c_1,c_2,...,c_K$ ，对于任意一个预测样本 $x$ ， $T$ 个弱学习器的预测结果分别是 $h_1(x),h_2(x),...,h_T(x))$ 。主要有以下三种：

相对多数投票法：也就是少数服从多数，即预测结果中票数最高的分类类别。如果不止一个类别获得最高票，则随机选择一个作为最终类别。
绝对多数投票法：即不光要求获得最高票，还要求票过半数。
加权投票法：每个弱学习器的分类票数要乘以一个权重，最终将各个类别的加权票数求和，最大的值对应的类别为最终类别。

1.5 Stacking

图1.4 Stacking

Stacking 是一种通过训练不同种类的模型并组合它们的预测来提高整体预测准确度的方法。其核心思想是：

第一层（基学习器）：训练多个不同类型的基学习器（例如，决策树、SVM、KNN 等）来对数据进行预测。
第二层（元学习器）：将第一层学习器的预测结果作为输入，训练一个元学习器（通常是逻辑回归、线性回归等），来做最终的预测。

优势：

可以使用不同类型的基学习器，捕捉数据中不同的模式。
理论上可以结合多种模型的优势，达到更强的预测能力。

缺点：

训练过程复杂，需要对多个模型进行训练，且模型之间的结合方式也需要精心设计。
比其他集成方法如 Bagging 和 Boosting 更复杂，且容易过拟合。

2 AdaBoost算法

（1）设置初始样本权重

在算法开始时，为训练集样本设置一个相同的权重，例如样本 $D={(x_1,y_1),(x_2,y_2),...,(x_n,y_n)}$ ，初始权重为 $w^{(1)}=(w_1^{(1)},w_2^{(1)},...,w_n^{(1)})$ ，其中 $w_i^{(1)}=\frac{1}{n}$ ，即在第一轮训练时，每个样本在训练中的重要度相同。

（2）训练弱学习器

基于当前的权重分布，训练一个弱学习器。弱学习器是指一个性能仅略优于随机猜测的学习算法，例如决策树桩（一种简单的决策树，通常只有一层）。在训练过程中，弱学习器会根据样本的权重来调整学习的重点，更关注那些权重较高的样本。

（3）计算弱学习器的权重

根据弱学习器在训练集上的分类错误率，计算该弱学习器的权重。错误率越低，说明该弱学习器的性能越好，其权重也就越大；反之，错误率越高的弱学习器权重越小。通常使用的计算公式为 $\alpha=\frac{1}{2}\ln(\frac{1-\varepsilon}{\varepsilon})$ ，其中 $\varepsilon$ 为弱学习器的错误率。

（4）更新训练数据的权重分布

根据当前数据的权重和弱学习器的权重，更新训练集的权重分布。具体的规则是对于被正确分类的样本，降低其权重；对于被错误分类的样本，提高其权重。这样，在下一轮训练中，弱学习器会更加关注那些之前被错误分类的样本，从而有针对性地进行学习。公式为

$KaTeX parse error: {equation} can be used only in display mode.$

其中， $w_i^{(t)}$ 是第 $t$ 轮中第 $i$ 个样本的权重， $Z_t$ 是归一化因子，确保更新后的样本权重之和为 1， $h_t(xi)$ 是第 $t$ 个弱学习器对第 $i$ 个样本的预测结果。

（5）重复以上步骤

不断重复训练弱学习器、计算弱学习器权重、更新数据权重分布的过程，直到达到预设的停止条件，如训练的弱学习器数量达到指定的上限，或者集成模型在验证集上的性能不再提升等。

（6）构建集成模型

将训练好的所有弱学习器按照其权重进行组合，得到最终的集成模型。如训练得到一系列弱学习器 $h_1,h_2,...,h_T$ 及对应的权重 $\alpha_1,\alpha_2,...,\alpha_n$ ，最终的强学习器 $H (X)$ 通过这些弱学习器进行加权组合得到。对于分类问题，通常采用符号函数 $H\left( X \right)=sign\left( \sum_{t=1}^{T}{\alpha_th_t(X)} \right)$ 输出；对于回归问题，则可以采用加权平均的方式输出。

图 2.1 AdaBoost

3 GBDT算法

所有弱分类器的结果相加等于预测值。每次都以当前预测为基准，下一个弱分类器去拟合残差（预测值与真实值之间的误差）。GBDT的弱分类器使用的是决策树。实际上每个决策树拟合的都是负梯度，只是当损失函数是均方损失时，负梯度刚好是残差，所以其实残差只是负梯度的一种特例而已。

图3.1 GBDT算法

上图是GBDT算法的例子

第一个弱分类器（第一棵树）预测一个年龄（如20岁），计算发现误差有10岁；

第二棵树预测拟合残差，预测值6，计算发现差距还有4岁；

第三棵树继续预测拟合残差，预测值3，发现差距只有1岁了；

第四课树用1岁拟合剩下的残差，完成。

最终，四棵树的结论加起来，得到30岁这个标注答案。

4 向量代数与空间几何

4.1 基础公式

数量积： $a\cdot b=|a||b|\cos \theta$

性质： $a\cdot a=|a|^2;a \cdot b=0,a \perp b$

交换律： $\cdot b= b \cdot a$

分配律： $(a+b)\cdot c=a\cdot c+ b\cdot c$

结合律： $(\lambda a)\cdot b=\lambda(a \cdot b)$

坐标表示： $a=a_x i+a_y j+a_z k \space ;b=b_x i+b_y j+b_z k$ ，则 $\cdot b=a_xb_x+a_yb_y+a_zb_z,\cos \theta=\frac{a_xb_x+a_yb_y+a_zb_z}{\sqrt{a_x^2+a_y^2+a_z^2}\sqrt{b_x^2+b_y^2+b_z^2}}$

向量积： $c=a\times b$ ，其中 $|c|=|a||b|\sin \theta$

方向确定：右手规则

图4.1 向量积

四指握拳，大拇指竖直，类似点赞的手势；掌心朝外的方向是b的方向，手指相反的指向是a的方向，大拇指的方向为c的方向。

性质： $a\times a =0;a \times b=0,a//b;$

基本运算规律： $\times b=-b \times a$

分配律： $(a+b)\times c=a\times c+b \times c$

结合律： $(\lambda a)\times b=a\times (\lambda b)=\lambda(a\times b)$

坐标表示

$a=a_x i+a_y j+a_z k \space;b=b_x i+b_y j +b_z k$

$a\times b=(a_yb_z-b_za_y)i+(a_zb_x-a_xb_z)j+(a_xb_y-a_yb_x)k$

$a\times b=\begin{vmatrix}i && j && k \\ a_x && a_y && a_z \\ b_x && b_y && b_z\end{vmatrix}$

混合积

$[abc]=(a\times b)\cdot c$

坐标表示

$a=a_x i+a_y j+a_z k \space;b=b_x i+b_y j +b_z k;c=c_x i+c_y j+c_z k$

$[abc]=\begin{vmatrix}a_x && a_y && a_z \\ b_x && b_y && b_z\\ c_x && c_y && c_z\end{vmatrix}$

性质 $(a\times b)\cdot c=a \cdot (b\times c)=b\cdot (c\times a)$

$(a\times b)\cdot c=-(b\times a)\cdot c$

$(a\times b)\cdot c=-(c\times b)\cdot a$

$(a\times b)\cdot c=-(a\times c)\cdot b$

$a、b、c\text{共面}\Leftrightarrow [abc]=0$

几何意义

向量的混合积 $[abc]=(a\times b)\cdot c$ 的绝对值在数值上等于向量a、b、c为棱的平行六面体的体积。

4.2 平面、曲面

曲面S方程： $F (x, y, z) = 0$ 满足下列条件：

1.曲线S上的任一点坐标都满足方程

2.不在曲面S上的点的坐标都不满足方程

平面

法线向量：垂直于给定平面的非零向量

平面方程

点法式方程：

$A(x-x_0)+B(y-y_0)+C(z-z_0)=0$

说明：已知平面上一点 $M(x_0,y_0,z_0)$ 和法线向量 $n = (A, B, C)$ ，设 $M (x, y, z)$ 为平面上任意一点，由 $n\cdot \vec{M_0M}=0$ 可得

一般方程：

$A x + B y + C z + D = 0$ 其中 $\vec{n}=(A,B,C)$ 为法线向量

截距式方程：

$\frac{x}{a}+\frac{y}{b}+\frac{z}{c}=1$ ，其中a,b,c为平面在三个坐标轴上的截距。

平面夹角

定义：两平面的法线向量夹角称为两平面的夹角

计算： $\cos \theta=\frac{A_1A_2+B_1B_2+C_1C_2}{\sqrt{A_1^2+B_1^2+C_1^2}\sqrt{A_2^2+B_2^2+C_2^2}}$

空间直线

直线的方向向量：平行于已知直线的向量

直线方程：

一般方程：空间直线可以看作两平面的交线，所以 $\begin{cases}A_1x+B_1y+C_1z+D_1=0 \\ A_2x+B_2y+C_2z+D_2=0\end{cases}$

对称式方程： $\frac{x-x_0}{m}=\frac{y-y_0}{n}=\frac{z-z_0}{p}$ 其中 $x_0,y_0,z_0)$ 为直线上任意点， $s = (m, n, p)$ 为直线方向向量

参数方程： $\begin{cases}x=x_0+mt \\ y=y_0+nt \\ z=z_0+pt\end{cases}$

夹角

线线夹角：两直线的方向向量夹角

设 $s_1=(m_1,n_1,p_1);s_2=(m_2,n_2,p_2)$

则 $\varphi =\frac{m_1m_2+n_1n_2+p_1p_2}{\sqrt{m_1^2+n_1^2+p_1^2}\sqrt{m_2^2+n_2^2+p_2^2}}$

线面夹角：直线和它在平面上的投影的夹角

设直线向量 $s = (m, n, p)$ ，平面法向量 $n = (A, B, C)$

则 $\sin \varphi =\frac{|Am+Bn+Cp|}{\sqrt{A^2+B^2+C^2}\sqrt{m^2+n^2+p^2}}$

曲面

旋转曲面

一条平面曲线绕其平面上的一条直线旋转一周所成的曲线

母线：旋转曲线

轴：定直线

常见曲面

圆锥面

直线L绕另一条与L相交的直线旋转一周所得的旋转曲面

顶点：两直线交点

半顶角：两直线的夹角 $\alpha(0<\alpha<\frac{\pi}{2})$

方程： $z^2=a^2(x^2+y^2)$ 其中 $\alpha$

4.3 曲线

曲线方程：看作两个曲面的交线

所有在曲线上的点都满足方程 $\begin{cases} F(x,y,z)=0 \\ G(x,y,z)=0\end{cases}$

参数方程，只要将曲线C上的动点坐标x,y,z用带有参数t的函数表示即可，即方程组 $\begin{cases}x=x(t) \\ y=y(t) \\ z=z(t)\end{cases}$

5 梯度

第四节的内容是因为看到了梯度提升树，梯度提升在对曲线上的点求偏导，所以学习了空间几何的部分，对梯度的理解也不到位，于是对这两个方向进行学习。

5.1 导数

在一元函数情况下，梯度就是斜率。

图 5.1 一元函数

梯度的方向

变化率：函数上处发生一个增量 $\Delta x$ ，则 $y$ 也将发生一个增量 $\Delta y$ ，记 $\lim_{\Delta x \rightarrow 0}\frac{\Delta y}{\Delta x}$ 为该点的瞬时变化率（导数）。

是直线的时候，由于各点的导数相同，因此导数的含义很好理解，设 $k=\frac{\Delta y}{\Delta x}$ ，则表示在该点处x增加1时，y将增加k。

曲线时，将某点很小的范围内的线段视为直线，则变化率 $\frac{dy}{dx}=\lim_{\Delta x \rightarrow 0}\frac{f(x+\Delta x)-f(x)}{\Delta x}$

5.2 方向导数

函数定义域内的某点对某一方向求导得到的导数。

方向就是 $x$ 点处发生一个增量 $\Delta x$ ，显然这个增量可正可负，向左移动( $\Delta x<0$ )或者向右移动( $\Delta x>0$ )

方向导数就是，给定方向的变化率，若曲线在该点可导，那么左右方向的变化率相等。

图5.2 $z = f (x, y)$

在曲面上的一个点向另一个点移动，方向导数表示一个方向下的变化率。对于某一个方向的变化率，设方向为 $\vec{l}=(cos \alpha,cos \beta)$ , $f^{'}_{(\cos \alpha,\cos \beta)}(x,y)=\lim_{t\rightarrow 0}\frac{f(x_0+tcos \alpha,y_0+tcos\beta)-f(x_0,y_0)}{t}=f^{'}(x,y)\cos \alpha+f^{'}(x,y)\cos \beta,t=\sqrt{(\Delta x)^2+(\Delta y)^2}$ 是 $f (x, y)$ 在 $x_0,y_0)$ 的方向导数，记作 $\frac{\delta f}{\delta \vec{l}}|_{(x_0,y_0)}$

函数在该点有定义，极限值存在。

对于坐标轴x轴或y轴方向的变化率，为对应的偏导数 $\frac{\delta z}{\delta x}、\frac{\delta z}{\delta y}$

5.3 梯度

$f^{'}_{(\cos \alpha,\cos \beta)}(x,y)=(\frac{\delta f}{\delta x},\frac{\delta f}{\delta y})(\cos \alpha,\cos \beta)=|\frac{\delta f}{\delta x},\frac{\delta f}{\delta y}|\cdot |e|\cdot \cos<(\frac{\delta f}{\delta x},\frac{\delta f}{\delta y}),e>$

当 $e$ 和 $(\frac{\delta f}{\delta x},\frac{\delta f}{\delta y})$ 方向相同时， $f^{'}_{(\cos \alpha,\cos \beta)}(x,y)$ 取得最大值，也就是该方向的变化率达到最大值。

对于某一点而言，其各个方向的导数（变化率）可能是不同的，而对于变化率最大方向，在同等增量的情况下（同等付出），能使得函数值增长达到最大化（收益最大）。

因此，变化率最大的方向对我们是有意义的，向量 $(\frac{\delta f}{\delta x},\frac{\delta f}{\delta y})$ 的方变化率最大的方向是同向的，所以将 $(\frac{\delta f}{\delta x},\frac{\delta f}{\delta y})$ 称为梯度，用来记录变化率最大的方向。