统计学习概论

监督学习:

无监督学习:强化学习:

统计学习三要素

模型+策略+方法

模型

策略

经验风险最小化

结构风险最小化

正则化与交叉验证

正则化

交叉验证

简单交叉验证

S折交叉验证

泛化能力

泛化误差

泛化误差上界

生成模型和判别模型

生成模型

判别模型

感知机

感知机模型

学习策略

损失函数

算法

算法的收敛性

朴素贝叶斯法

学习与分类

参数估计

生活里很好理解:就是统计h所有样本里Y各个类别的比例来估计概率,再统计各个类别里的输入的比例来估计不同类别的输入对应的概率。

决策树

决策树模型与学习

决策树与 if-then 规则

特征选择

信息增益

决策树的生成

ID3算法

决策树的剪枝

通过极小化决策树的损失函数来实现。

CART算法

基尼指数

CART剪枝

逻辑斯蒂回归与最大熵

逻辑斯蒂回归模型

逻辑斯蒂分布

二项逻辑斯蒂分布

模型参数估计

极大似然估计

最大熵模型

最大熵模型认为,应该在满足条件的模型中选取熵最大的模型。

提升方法

Boosting算法的工作机制是首先从训练集用初始权重训练出一个弱学习器1,根据弱学习的学习误差率表现来更新训练样本的权重,使得之前弱学习器1学习误差率高的训练样本点的权重变高,使得这些误差率高的点在后面的弱学习器2中得到更多的重视。然后基于调整权重后的训练集来训练弱学习器2.,如此重复进行,直到弱学习器数达到事先指定的数目T,最终将这T个弱学习器通过集合策略进行整合,得到最终的强学习器。

AdaBoost算法

sign(x)是符号函数

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐