机器学习入门之：用 scikit-learn 的决策树来实现手写数字识别

文章目录展示整体代码1.导入相应模块2. 加载、提取数据集的数据3. 对数据进行维度调整4. 创建决策树5. 投喂数据进行训练6. 评估模型疑问：展示整体代码from sklearn import treeimport numpy as npdataset = np.load('mnist.npz')x_train = dataset['x_train']y_train = dataset['y_

暖仔会飞

3700人浏览 · 2020-09-14 17:00:29

暖仔会飞 · 2020-09-14 17:00:29 发布

文章目录

展示整体代码
1.导入相应模块
2. 加载、提取数据集的数据
3. 对数据进行维度调整
4. 创建决策树
5. 投喂数据进行训练
6. 评估模型
疑问：

展示整体代码

from sklearn import tree
import numpy as np


dataset = np.load('mnist.npz')

x_train = dataset['x_train']
y_train = dataset['y_train']
x_test = dataset['x_test']
y_test = dataset['y_test']

classifier = tree.DecisionTreeClassifier()
x_train = x_train.reshape(60000,784)
x_test = x_test.reshape(10000,784)

classifier.fit(x_train,y_train)
score = classifier.score(x_test,y_test)
print(score)

1.导入相应模块

from sklearn import tree
import numpy as np

使用的是科学计算的库 numpy

做机器学习的库 sklearn 中的 tree

2. 加载、提取数据集的数据

dataset = np.load('mnist.npz')

x_train = dataset['x_train']
y_train = dataset['y_train']
x_test = dataset['x_test']
y_test = dataset['y_test']

3. 对数据进行维度调整

x_train = x_train.reshape(60000,784)
x_test = x_test.reshape(10000,784)

数据的本来维度是：训练集（60000，28，28）测试集（10000，28，28）现在调整为代码中所示

4. 创建决策树

classifier = tree.DecisionTreeClassifier()

在这里插入图片描述

当然你也可以根据自己的想法来决定你的决策树的深度，以及一些剪枝的策略

5. 投喂数据进行训练

classifier.fit(x_train,y_train)

6. 评估模型

score = classifier.score(x_test,y_test)
print(score)

在这里插入图片描述

疑问：

虽然用分类树可以将手写数字识别的精度达到一个比较高的水平，但是如何建立决策树的过程，通过哪些特征建立的决策树，怎么对这些特征进行可视化，我尚且还不知道，希望哪位大神可以帮忙可视化一下手写数字识别的决策树建立过程；感激不尽。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

成本控制十年演进

机器人行业成本控制十年演进（2015-2025）呈现三个阶段：早期（2015-2018）聚焦BOM降本，通过供应链压价和国产替代降低单机成本；中期（2019-2021）转向工程降本，通过标准化和流程优化提升交付效率；当前阶段（2022-2025）则进入TCO降本，重点通过平台化运营降低人工介入率、复发率和运维成本。成本结构从硬件主导转向运营主导，2025年关键降本抓手包括：降低人工介入、控制复发率

DAMO开发者矩阵

机器人成本控制十年演进

摘要：机器人行业成本控制历经三阶段演进（2015-2025）：从早期依赖硬件BOM降本（2015-2018），转向工程平台化降本（2019-2021），最终进入全生命周期TCO降本阶段（2022-2025）。当前竞争核心已从制造成本转向系统稳定性与运维效率，关键指标演变为人工介入率、MTTR、复发率和站点复制周期。六大降本抓手包括：降低人工介入率、控制复发率、缩短故障恢复时间、灰度发布、标准化站点

DAMO开发者矩阵

机器人质量控制十年演进

摘要：机器人质量控制十年演进（2015-2025）从传统QC（出厂检验）转向SRE式运营治理，核心解决系统性退化与长尾场景问题。2015-2018年聚焦硬件缺陷拦截（QC阶段），2019-2021年通过工程化提升交付稳定性（QE阶段），2022年后以SRE模式运营，构建防复发闭环：通过证据链（Metrics/Logs/Traces/Replay）自动复现问题，沉淀场景库并纳入CI门禁，指标从合格