机器学习:Rademacher复杂度
在机器学习中,模型的泛化能力是一个核心问题,而Rademacher复杂度是一种强大的工具,用于衡量学习算法对随机噪声的拟合能力,从而评估其泛化误差。本博客将深入探讨Rademacher复杂度的概念、数学定义,并结合实际案例分析其在学习理论中的重要作用。
1,记号
样例集:独立同分布样本, 仅考虑二分类问题。
泛化误差和经验误差:设
为从
到
的一个映射。
- 泛化误差:模型在新样本集(测试集)上的误差。
含义:在测试集(可以是整个集合)
中任取一个
则
的概率或期望(因为当值取1或0时,期望=概率)。
- 经验误差(经验误差期望):模型在训练集上的误差。
其中
表示满足
则输出1,否则输出0。
含义:训练集
上所有
的数据数/训练集样本数,不能写为概率的原因是,给定
则有确定的
与之对应。
PS:由于
是
的独立同分布采样,因此
的经验误差的期望等于其泛化误差。在上下文明确时,将
和
分别简记为
和
。
误差参数
:
为
的上限,即
。
- 表示预先设定的学得模型所应满足的误差要求。
一致性:若
在数据集
上的经验误差为0,则称
与
一致,否则不一致。
不合:对于任意两个映射
,通过“不合”度量它们的差别:
2,学习
概念:概念是从样本空间
到标记空间
的映射,它决定示例
的真实标记
。
- 目标概念:如果对任何样例
均有
成立,则称
为目标概念。
- 概念类:所有我们希望学得的目标概念所构成的集合称为”概念类”, 用符号
表示。
假设空间:给定学习算法
,它所考虑的所有可能概念的集合, 用符号
表示。
- 由于学习算法事先并不知道概念类的真实存在, 因此
和
通常是不同的, 学习算法会把自认为可能的目标概念集中起来构成
。
- 对于
,由于并不能确定它是否真的是目标概念,因此称为“假设”。 显然,
也是从样本空间
到标记空间
的映射。
- 学习过程可以视为
在
中进行的搜索过程。
可分的与不可分的:
- 可分的:若目标概念
,即
中存在假设能将所有的示例完全正确分开(按照与真实标记一致的方式),则称该问题对学习算法
是“可分的”,也称“一致的”。
- 不可分的:若目标概念
,则
中不存在任何假设能将所有的示例完全正确分开,则称该问题对学习算法
是“不可分的”,也称“不一致的”。
对于给定训练集
,我们希望基于学习算法
学得的模型所对应的假设
尽可能接近目标概念
。
为什么不是希望精确地学到目标概念c呢?因为机器学习过程受到很多因素的制约:
- 获得训练结果集
往往仅包含有限数量的样例,因此通常会存在一些在
上“等效”的假设,学习算法无法区别这些假设。
- 从分布
采样得到的
的过程有一定偶然性,即便对同样大小的不同训练集,学得结果也可能有所不同。
3,可学习的
概率近似正确(PAC)
我们希望以比较大的把握学得比较好的模型, 即以较大概率学得,且误差满足预设上限的模型。
令
表示置信度,则上述要求可以表示为:
PAC辨识:对
,所有
和分布
,若存在学习算法
,其输出假设
满足:
则称学习算法
能从假设空间
中PAC辨识概念类
。
换句话说:这样的学习算法
能以较大概率(至少
)学得目标概念
的近似(误差最多为
)。
PAC可学习:令
表示从分布
中独立同分布采样得到的样例数目,
,对所有分布
,若存在学习算法
和多项式函数
,使得对于任何
,
能从假设空间
中PAC辨识概念类
,则称概念类
对假设空间
而言是PAC可学习的,有时也简称概念类
是PAC可学习的。
PAC可学习性描述的是概念类
的性质,若考虑到对应学习算法
的时间复杂度,则有:
PAC学习算法:若学习算法
使概念类
为PAC可学习模型,且
的运行时间也是多项式函数
,则称概念类
是高效PAC学习的,称
为概念类
的PAC学习算法。
假定学习算法
处理每个样本的时间为常数,则
的时间复杂度等价于其样本复杂度。于是,我们对算法时间复杂度的分析可变为对样本复杂度的分析。
样本复杂度:满足PAC学习算法
所需的
中最小的
,称为学习算法的样本复杂度。
PAC学习的意义:
(1)给出了一个抽象地刻画机器学习能力的框架, 基于这个框架可以对很多重要问题进行理论探讨。
- 研究某任务在什么样的条件下可学得较好的模型?
- 某算法在什么样的条件下可进行有效的学习?
- 需要多少训练样例才能获得较好的模型?
(2)把复杂算法的时间复杂度的分析转变为对样本复杂度的分析。
假设空间
的复杂度是影响可学习性的重要因素:
- 一般而言,
越大,其包含任意目标概念的可能性越大,但从中找到某个具体概念的难度也越大。
有限时,我们称
为“有限假设空间”,否则称为“无限假设空间”。
假设空间
复杂度是影响学习任务难度的重要因素之一:
- 恰PAC可学习:假设空间
包含了学习算法
所有可能输出的假设,在PAC学习中假设空间与概念类完全相同,即
。
- 直观的看,这意味着学习算法的能力与学习任务“恰好匹配”,即所有候选假设都来自概念类。
- 然而在现实应用中我们对概念类
通常一无所知,设计一个假设空间与概念类恰好相同的学习算法通常是不切实际的。
研究的重点:当假设空间与概念类不同的情形,即
。
4,Rademacher复杂度
给定训练集:
则假设
的经验误差为(预测错误):
其中
体现了预测值
与样例真实标记
之间的一致性。
若对所有的
,都有
,则
。
经验误差最小假设函数为:
表示:当函数值取最大值时,
的取值。
而我们更关注模型的泛化能力:假设标签
受到随机因素的影响,不再是
的真实标记,则应该选择
中事先已经考虑了随机噪声影响的假设函数。
为Rademacher随机变量:以0.5的概率取值-1,0.5的概率取值+1。
考虑
中所有的假设,取期望可得:
其中
的取值范围是
,体现了假设空间
的表达能力:
- 当
时,
中仅有一个假设,则期望值为0,因为
取值特殊。
- 当
(因为
有m个)且
能打散
时,对任意的
总有一个假设使得:
,此时
,可计算出期望值为1。
Rademacher复杂度:
函数空间
关于
的经验Rademacher复杂度:
其中
为实值函数空间,
,其中
。
经验Rademacher复杂度衡量了函数空间
与随机噪声在集合
中的相关性。
函数空间
关于
上分布
的经验Rademacher复杂度:
基于Rademacher复杂度可得关于函数空间
的泛化误差界。
回归问题:对实值函数空间
,根据分布
从
中独立同分布采样得到示例
,
,
,对任意
,以至少
的概率有:
二分类问题:对假设空间
,根据分布
从
中独立同分布采样得到实例集
,对任意的
, 以至少
的概率有:
McDiarmid不等式
存在:
若
满足:
则下面不等式成立:
![]()
5,证明:公式一
证明:
令
(不等式1)
求
,因为
满足:
(不等式2)
将
做同样变换,故:
因为
和
均表示整个样本集的期望,于是
由于
结合(不等式2)此时,
,带入(不等式1)得
进而:
(1)
令
将
反带入(1)得:
该概率类似正态分布,可推出:
(2)
因为:
因为:
由(2)可推出:
,概率至少为
现在唯一需要确定的是
因为
和
均表示整个测试集的期望,有:
由于
中的点是独立同分布的,所有的
成立,故:
其中
与
期望无关,故:
由Jensen不等式和上确界函数的凸性,故:
引入Rademacher变量
,不影响结果。
故:
,概率至少为
![]()
,概率至少为
6,证明:公式二
同理,令
,对于任意的
,下面不等式至少
的概率成立。
再次使用 McDiarmid 不等式,下式至少有
的概率成立:
,概率至少为
,概率至少为
7,证明:公式四
由于
部分数学期望为0
下不影响正负
8,证明:公式三
根据公式四和
与
之间关系,可得:

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐
所有评论(0)