第1次实验 Python机器学习软件包Scikit-Learn的学习与运用

zxc9527z

411人浏览 · 2025-03-27 08:24:06

zxc9527z · 2025-03-27 08:24:06 发布

本关必读

scikit-learn包括一些标准数据集，不需要从外部下载，可直接导入使用，比如与分类问题相关的Iris数据集和digits手写图像数据集，与回归问题相关的波士顿房价数据集。
以下列举一些简单的数据集，括号内表示对应的问题是分类还是回归：

     #加载并返回波士顿房价数据集（回归）
    load_boston([return_X_y])
    #加载并返回iris数据集（分类）
    load_iris([return_X_y])
    #加载并返回糖尿病数据集（回归）
    load_diabetes([return_X_y])
    #加载并返回数字数据集（分类）
    load_digits([n_class, return_X_y])
    #加载并返回linnerud数据集（多分类）
    load_linnerud([return_X_y])

这些标准数据集采用类字典的对象格式存储,比如.data表示原始数据，是一个(n_samples,n_features)二维数组，通过.shape可以得到二维数组大小，.target表示存储数据类别即标签。
下面我们将利用datasets加载数据集digits作为示例，如下图所示：

在命令行输入python进入python终端，>>>表示python终端提示符，输入python命令即可执行。y.[:5]表示标签的前5个数据。
本关任务

本关任务是使用scikit-learn的datasets模块导入iris数据集，并打印前5条原数据、前5条数据标签及原数据的数组大小。
即编程实现step1/importData.py 的getIrisData()函数：

    from sklearn import datasets
    def getIrisData():
        '''
        导入Iris数据集
        返回值：
        X - 前5条训练特征数据
        y - 前5条训练数据类别
        X_shape - 训练特征数据的二维数组大小
        '''
        #初始化
        X = []
        y = []
        X_shape = ()
        #   请在此添加实现代码   #
        #********** Begin *********#

        #********** End **********#
        return X,y,X_shape

测试说明

本关的测试文件是step1/testImportData.py该代码负责对你的实现代码进行测试，注意step1/testImportData.py 不能被修改，该测试代码具体如下：

    import importData
    X,y,X_shape = importData.getIrisData()
    print(X)
    print(y)
    print(X_shape)

测试函数将直接调用step1/importData.py 的getIrisData()得到实际输出，平台通过比较预期输出与实际输出来判断createSVMmodel函数是否实现正确。

from sklearn import datasets
def getIrisData():

    '''
    导入Iris数据集

    返回值：
    X - 前5条训练特征数据
    y - 前5条训练数据类别
    X_shape - 训练特征数据的二维数组大小
    '''
    #初始化
    X = [] 
    y = [] 
    X_shape = () 

    #   请在此添加实现代码   #
    #********** Begin *********#
    iris = datasets.load_iris()
    X = iris.data[:5]
    y = iris.target[:5]
    X_shape = iris.data.shape
    #********** End **********#

    return X,y,X_shape