【机器学习】基本概念
1. 基本术语
机器学习:是基于数据建立模型并运用模型对数据进行预测和分析的一门学科。它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析和预测中。
特征/属性:反映事件或对象在某方面的表现或性质的事项。
样本:关于一个事件或对象的描述。
数据集:多条样本记录的集合。
输入空间/输出空间:输入和输出所有可能取值的集合。
学习/训练:从数据中学得模型的过程。
训练集/测试集:训练样本/测试样本组成的集合。
分类问题:输出变量为有限个离散变量的预测问题。
回归问题:输入变量和输出变量均为连续变量的预测问题。
标注问题:输入变量与输出变量均为变量序列的预测问题(常用在自然语言处理中)。
预测任务希望通过对训练集进行学习,建立一个从输入空间
到输出空间
的映射
.
假设:学得模型对应了关于数据的某种潜在规律,也称为“假设”。
版本空间:可能有多个假设与训练集一致,即存在着一个与训练集一致的“假设集合”,称为“版本空间”。
2. 归纳偏好
机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”,或简称为“偏好”。“奥卡姆剃刀”(Occam's razor)是一种常用的、自然科学研究中最基本的原则来引导算法建立正确的偏好。即“若有多个假设与观察一致,则选最简单的那个”。然而奥卡姆剃刀并非唯一可行的原则,有些问题还是要借助其他机制才能解决。算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。
3. 生成模型与判别模型
监督学习的任务就是学习一个模型,这个模型的一般形式为决策函数:
(1)
或者条件概率分布:
(2)
监督学习方法又可以分为生成方法(generative approach)和判别方法(discriminative approach)。所学到的模型分别为生成模型(generative model)和判别模型(discriminative model)。
(1)生成方法
由数据学习得到联合概率分布
,然后再求出条件概率分布
作为预测模型,即生成模型:
(3)
生成模型表示了给定输入
产生输出
的生成关系,因此这样的方法称为生成方法。典型的生成模型有朴素贝叶斯法和隐马尔可夫模型。
(2)判别方法
由数据直接学习决策函数
或者条件概率分布
作为预测模型,即判别模型。典型的判别模型包括:k近邻法、感知机、决策树、逻辑斯蒂回归模型、最大熵模型、支持向量机等。
参考文献:
1. 《机器学习》第一章绪论——周志华
2. 《统计学习方法》第一章统计学习方法概论——李航
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐


所有评论(0)