基于决策树对玻璃制品的成分分析与分类

摘要

    在埋藏的环境下,古代玻璃易遭受风化作用,其化学成分比例发生改变,从而对鉴别其类型等考古工作造成一定的困难。本文研究文物采样点的理化特征,完成了古代玻璃制品的类型预测,并就其化学成分的关联关系进行了差异性分析。

    对于问题1,我们将字符数据转换为数值型,分析颜色与纹饰、类型、表面风化的关系,通过决策树算法对颜色的缺失值进行预测填充,对于化学成分含量的空值,因其没有检测到,则以0填充。在检测数据有效性时,发现2条采样点数据不在有效范围,故作删除处理。由于缺少时间这一维度的信息,我们假定文物风化之前的化学成分为风化后文物的化学成分加上无风化文物化学成分均值与风化文物化学成分均值的差额,计算后再重新调整每个采样文物各化学成分的百分占比,即为风化前的预测结果。

    对于问题2,我们将文物按类型划分为高钾、铅钡玻璃两大类,分别通过因子分析法将化学成分指标进行降维,以各采样点的综合得分排名划分为若干梯度,继而对不同玻璃类型采样点的亚类划分。在检验因子分析模型的适用性之前,我们通过逐步法筛选出SiO2、CaO、MgO、Al2O3、Fe2O3、CuO、BaO、P2O5和SnO2作为铅钡玻璃的影响因子,筛选出SiO2、K2O和CaO作为高钾玻璃的影响因子,进而完成了Bartlett检验以及KMO检验,其中铅钡玻璃的KMO值为0.6551,高钾玻璃的KMO检验值为0.6874。对于依据各采样点的综合得分排名梯度进行亚类划分的方案,能够较好地将各化学成分指标对玻璃类型的影响综合体现出来,并且对比两大玻璃类型的因子得分,能够具体体现各化学成分指标对采样点的亚类划分的影响权值。

    对于问题3,我们在问题1决策树算法的基础上,继续引入支持向量机、逻辑回归、梯度下降、高斯朴素贝叶斯等算法,以附件表单1和表单2整合版本的采样点信息为训练数据,对附件表单3未知类别玻璃文物的化学成分指标进行预测分类,鉴别其玻璃类型为铅钡玻璃的文物编号是:A2、A3、A4、A5和A8,玻璃类型为高钾玻璃的文物编号是:A1、A6和A7。为检验模型的敏感性,我们分别从纵向随机删除一些化学成分指标、从横向随机删除一些采样点训练数据来继续对文物玻璃类型进行预测,结果依旧和之前一致,说明我们构建的模型具有普遍适用性,通过了敏感性检验。

    对于问题4,我们对文物采样点分别依据类型、表面风化进行分组,计算其化学成分指标之间的皮尔逊相关性矩阵,分析其关联关系,并通过高斯混合模型对各组的化学成分指标进行聚类,我们依次聚为2类、3类、4类,最终发现聚为3类能够较好分析并解释其聚类后各类的现实意义。除个别成分,整体上,玻璃类型的分组和表面风化的分组在化学成分指标聚类后基本一致,SiO2和PbO各为一类,其他化学成分含量指标为第三类,通过观察采样点化学成分数据可以看出,在化学成分占比方面,SiO2和PbO依次是占第一和第二位,其他化学成分则是占比较少,因而,说明模型聚类结果是可行的。在差异性方面,风化与否对化学成分的聚类影响不大,相反地,玻璃类型的不同,对化学成分的聚类影响稍微大一些,如高钾玻璃的聚类结果是:SiO2单独为一类,K2O、CaO和Al2O3为一类,其他化学成分为第三类。可见,鉴别玻璃文物的类型,我们可以从其化学成分的差异入手,能够较好地从理化性质方面分析,进一步提高鉴别的准确率。

关键词:决策树、因子分析、高斯混合模型

一、问题重述

1.1问题背景

玻璃是早期丝绸之路贸易往来的宝贵特征,是生活中不可缺少的重要材料。我国古代玻璃吸收早期西亚和埃及地区传入我国的珠形饰品的技术后,就地取材制作玻璃制品。玻璃的主要材料是石英砂,其主要化学成分是二氧化硅且为了降低融化温度需要加入助溶剂和稳定剂。铅钡玻璃和钾玻璃是常见的两种古代玻璃,但是其极容易受埋藏环境的影响,风化后使得其成分比例发生变化。

现有一批我国古代玻璃制品的相关数据,考古学者已依据文物样品的化学成分和其他的检测手段对其进行了分类。根据这些文物的基本分类信息和已分类玻璃文物的化学成分比例的数据,需要解决以下的问题。

1.2问题重述

问题一:分析文物基本的基本信息的关系,如表面风化与玻璃类型、纹饰和颜色,结合玻璃的类型,分析出有无风化的情况下的玻璃文物的化学成分统计的规律,通过风化点检测的数据附件表单2,预测风化的玻璃文物风化前的化学成分含量;

问题二:根据附件提供的数据,分析高钾玻璃和铅钡玻璃的分类规律,且对其类别选取合适的化学成分,找出亚类划分的具体的划分方法和划分结果,分析分类结果的合理性和敏感性,判断其分类的效果;

问题三:分析附件表单3中未知类型玻璃文物的化学成分,判断其所属类型后并对分类结果的敏感性进行分析;

问题四:分析不同类别的玻璃文物样品的化学成分之间的关联关系,且比较其关联关系的差异性。

二、问题分析

为了对古代玻璃制品的成分分析与鉴别进行研究,我们进行历史资料查询和数据收集,获取一定的古代玻璃制品的有关历史背景和风化作用对文物的影响效果的资料。

考虑到需要提取处理的数据量较多,在符合前提下,首先把附件所给的数据进行预处理,作为一个单独部分;其次在再对逐个问题进行分析,则有以下的模型概述:

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐