例子,给出西瓜数据集,根据某个西瓜三个属性的描述,判断瓜的好坏

编号 色泽 根蒂 敲声 好瓜
1 青绿 蜷缩 浊响
2 乌黑 蜷缩 清脆
3 青绿 硬挺 沉闷
4 乌黑 稍蜷 沉闷

样本空间

以样本的属性为坐标轴张成的多维空间,也叫属性空间、输入空间。

上例中,每行样本包含三个属性:色泽、根蒂、敲声,则可以以这三个属性为坐标轴,生成一个三维空间,每个西瓜(只要用这三种属性描述)都能在该空间中找到其对应的坐标位置。

假设空间

上例中,假设空间由形如 “(色泽=?) ∧ (根蒂=?) ∧ (敲声=?)” 的所有假设组成。

如果属性色泽、根蒂、敲声分别有3 、2 、2种可能取值,还要考虑到一种属性可能无论取什么值都合适(用通配符*表示),另外有一种情况就是好瓜这个概念根本不成立(用∅表示),则假设空间大小为 (3 + 1)×(2 + 1)×(2 + 1)+ 1 = 37 。

假设空间部分如下,
1 色泽=*,根蒂=*,敲声=*
2 色泽=青绿,根蒂=*,敲声=*
3 色泽=乌黑,根蒂=*,敲声=*
4 色泽=*,根蒂=蜷缩,敲声=*
5 色泽=*,根蒂=硬挺,敲声=*

36 色泽=乌黑,根蒂=稍蜷,敲声=*
37 Ø

学习过程就是,从假设空间不断删除与正例不一致或者与反例一致的假设,最终得到对所有训练样本能进行正确判断的假设,这样我们最后就可以得到一组形如 “色泽=? ∧ 根蒂=? ∧ 敲声=? ⇔ 好瓜 ” 的概念作为学习结果。

版本空间

因为训练样本数量有限,假设空间含有很多假设,最终筛选后有可能剩下多个假设是符合训练样本的,这些剩下的假设组成的集合就称为版本空间。
版本空间的例子

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐