通俗地讲机器学习Machine LearningML就是让计算机从数据中进行自动学习得到某种知识或规律作为一门学科机器学习通常指一类问题 以及解决这类问题的方法即如何从观测数据样本中寻找规律并利用学习 到的规律模型对未知或无法观测的数据进行预测。

机器学习 ≈ 构建一个映射函数

机器学习即如何从观测数据(样本)中寻找规律,并利用学习到的规律(模型)对未知或无法观测的数据进行预测。

我们可以将一个标记好特征以及标签的芒果看作一个样本Sample),也经常称为示例Instance). 一组样本构成的集合称为数据集Data Set)。( 在很多领域数据集也
经常称为语料库Corpus))。
一般将数据集分为两部分
训练集和测试集训练集Training Set中的样本是用来训练模型的也叫训练样本Training Sample),测试集Test Set中的样本是用来检验模型好坏 也叫测试样本Test Sample).
我们通常用一个𝐷 维向量𝒙 = [𝑥1 , 𝑥2 , ⋯ , 𝑥𝐷] T 表示一个芒果的所有特征构成的向量称为特征向量Feature Vector),其中每一维表示一个特征并不是所有的样本特 征都是数值型需要通 过转换表示为特征向

而芒果 的标签通常用标量𝑦来表示.

假设训练集 𝒟 𝑁 个样本组成其中每个样本都是独立同分布的Identically and Independently DistributedIID),即独立地从相同的数据分布中抽取 记为

𝒟 = {(𝒙(1), 𝑦(1)), (𝒙(2), 𝑦(2)), ⋯ , (𝒙(𝑁), 𝑦(𝑁))}.
给定训练集𝒟我们希望让计算机从一个函数集合ℱ = {𝑓1 (𝒙), 𝑓2 (𝒙), ⋯}中自动寻找一个最优函数𝑓 (𝒙) 来近似每个样本的特征向量 𝒙 和标签 𝑦 之间 的真实映射关系对于一个样本𝒙我们可以通过函数𝑓 (𝒙)来预测其标签的值
     𝑦 = 𝑓∗ (𝒙),
     或标签的条件概率
      𝑝(𝑦|𝒙) = 𝑓𝑦 ∗ (𝒙)
如何寻找这个最优的函数 𝑓 (𝒙) 是机器学习的关键一般需要通过学习算法Learning Algorithm𝒜 来完成在 有 些 文 献 中习算法也叫作学习器 Learner). 这个寻找过程通常称为学习Learning训练Training过程这样下次从市场上买芒果测试样本可以根据芒果的特征使用学习 到的函数 𝑓 (𝒙) 来预测芒果的好坏为了评价的公正性我们还是独立同分布地 抽取一组芒果作为测试集 𝒟并在测试集中所有芒果上进行测试计算预测结 果的准确率
 
其中𝐼(⋅)为指示函数|𝒟|为测试集大小
给出了机器学习的基本流程对一个预测任务输入特征向量为 𝒙出标签为𝑦我们选择一个函数集合通过学习算法𝒜和一组训练样本𝒟中学习到函数𝑓 (𝒙)这样对新的输入𝒙就可以用函数𝑓 (𝒙)进行预测

常见的学习类型

机器学习方法可以粗略地分为三个基本要素:模型、学习准则、优化算法.

 模型:

  • 输入空间 𝒳 和输出空间 𝒴 构成了一个样本空间.对于样本空间中的样本 样本的特征空间(𝒙, 𝑦) ∈ 𝒳 × 𝒴,假定 𝒙 和 𝑦 之间的关系可以通过一个未知的真实映射函数𝑦 =

    𝑔(𝒙) 或真实条件概率分布𝑝𝑟 (𝑦|𝒙) 来描述.机器学习的目标是找到一个模型来近 映射函数𝑔 ∶ 𝒳 → 𝒴.似真实映射函数𝑔(𝒙)或真实条件概率分布𝑝𝑟 (𝑦|𝒙). 由于我们不知道真实的映射函数𝑔(𝒙)或条件概率分布𝑝𝑟 (𝑦|𝒙)的具体形式, 因而只能根据经验来假设一个函数集合ℱ,称为假设空间(Hypothesis Space), 然后通过观测其在训练集 𝒟 上的特性,从中选择一个理想的假设(Hypothesis) 𝑓 ∗ ∈ ℱ. 假设空间ℱ 通常为一个参数化的函数族 ℱ = {𝑓(𝒙; 𝜃)|𝜃 ∈ ℝ𝐷}, 其中𝑓(𝒙; 𝜃)是参数为𝜃 的函数,也称为模型(Model),

    𝐷 为参数的数量.

    常见的假设空间可以分为线性和非线性两种,对应的模型 𝑓 也分别称为线性模型和非线性模型.

  • 线性模型

    线性模型的假设空间为一个参数化的线性函数族,即

    非线性模型

    广义的非线性模型可以写为多个非线性基函数𝜙(𝒙)的线性组合


     

学习准则:

优化算法:

正则化:

模型选择
拟合能力强的模型一般复杂度会比较高,容易过拟合。
如果限制模型复杂度,降低拟合能力,可能会欠拟合。
偏差与方差分解
期望错误可以分解为

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐