周志华《机器学习导论》第 4 章决策树分类

nju_spy · 2025-07-13 20:51:31 发布

树形分类结构

如何选择划分位置（特征选择）；划分次数（决策树深度）

baseline 递归划分步骤：

当前子块如果（都同一类 or 属性都一样 or 集合不包含样本）return 停止划分。

需要划分则 选择特征后，信息增益如果不超过阈值，说明没必要划分，return 停止划分。

按特征划分为不同类，继续递归划分。

1. 特征选择

如何选择特征，使得分支后节点中的样本尽可能属于同一类别，即结点的“纯度”(purity)越来越高。

1. 包括分裂策略：

使用什么损失 criterion{“gini”, “entropy”, “log_loss”}, default=”gini”

考虑部分特征 or 随机特征 or 全部特征；

2. 停止条件：

树的最大深度；分裂需要的最小不纯度下降值；

一个叶节点 / 分裂一个内部节点必须拥有的最小样本数；

3. 后剪枝 ccp_alpha

上面划分的问题：加入我把标号看做一个特征，按标号划分就把每个样本都分开了。

那上方的信息增益很大，但对我们实际问题的解决没有帮助。

信息增益准则对可取值数目较多的属性有所偏好，

为减少这种偏好可能带来的不利影响，我们引入了“增益率”。

其中分母是特征 a 无关样本类别，对特征 a 的取值数目进行惩罚。

如同类别“纯度”一样，可看做是特征 a 的纯度。

直观来说，Gini(D) 反映了从数据集 D 中随机抽取两个样本，其类别标记不一致的概率。

因此Gini(D)越小，则数据集 D 的纯度越高.

替换信息熵。

对应 CART 分类与回归树：用基尼指数不断二分类，形成二叉树。

（做回归任务的话把基尼指数换成方差 or 均方误差等指标）

在分类树中，叶节点输出的是多数类；在回归树中，叶节点输出所有样本目标值的平均值。

看到最后一列，会写代码与适合都对应，即 gini = 0。所以现在该按代码能力划分。

目的：降低模型的过拟合（Overfitting） 风险，提高泛化能力。
方法：通过主动移除决策树中的某些分支或子树，简化模型结构。