机器学习算法——分类问题1（类别不平衡问题--欠采样方法）

EasyEnsemble和BalanceCascade讲解。

Vicky_xiduoduo

2934人浏览 · 2022-08-23 16:12:30

Vicky_xiduoduo · 2022-08-23 16:12:30 发布

类别不平衡（class-imbalance）就是指分类任务中不同类别的训练样例数目差别很大的情况。

欠采样法是解决类别不平衡问题之一。

欠采样法是直接对训练集中多数样本进行“欠采样”，即去除一些多数类中的样本使得正例、反例数目接近，然后再进行学习。

随机欠采样顾名思义即从多数类 $S$ 中随机选择一些样本组成样本集 $E$ ，然后将样本集E从S中移除。新的数据集 $S_{new}=S-E$ 。

缺点：

随机欠采样方法通过改变多数类样本比例以达到修改样本分布的目的，从而使样本分布较为均匀，但也存在一些问题，对于随机采样，由于采样的样本集合少于原来的样本集合，会造成数据缺失。

目前代表性的算法是EasyEnsemble和BalanceCascade。

一、EasyEnsemble算法

EasyEnsemeble的原理是通过重复组合正样本与随机抽样的同样数量的负样本，训练若干数量分类器进行集成学习。

这个算法的流程如下：

解释一下，数据中，少数类别为P；多数类别为N；从N中分出多个子集，数量为T； $s_i$ 代表基分类器， $H_i$ 为训练基分类器 $s_i$ 的训练迭代次数。然后根据少数类别P的数量对多数类别N进行随机采样产生 $N_i$ ，使得 $|N_i|=|P|$ 。然后把 $N_i$ 和P结合起来，给基分类器进行学习。这里引入了下标j，是由于默认的基分类器是AdaBoost，而AdaBoost是由N个弱基分类器组成的，j表示AdaBoost基分类器里的第j个弱分类器。

二、BalanceCascade算法

基本架构与EasyEnsemble相同，不同的地方在于每训练一个（AdaBoost）分类器后就将正确分类的样本去掉，错误分类的样本放回到原样本空间中，通过调整阈值来筛选出分类错误的样本将其保留，阈值调整为：

$\sqrt[T-1]{|P|/|N|}$

这个算法的流程如下：

这两种算法实现在imblearn包中，具体调用如下：

from imblearn.ensemble import EasyEnsembleClassifier

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

提示工程性能测试框架对比：主流工具的性能、易用性、扩展性全测评

提示工程（Prompt Engineering）是大模型应用的“灵魂”——通过设计高质量的提示，让模型输出符合预期的结果。对C端产品（比如AI客服），响应时间超过3秒会导致用户流失；对B端产品（比如AI文档助手），吞吐量不足会导致企业客户的服务中断；对多轮场景（比如AI对话机器人），上下文累积的性能损耗会让体验急剧下降。不理解大模型的“token逻辑”：无法统计输入/输出的token数量，更无法分