【机器学习】SVM 支持向量机分类实战(附代码 )
·
大家好!今天带大家做一个经典的SVM 支持向量机分类实验,用实际代码 + 可视化展示 SVM 如何完成二分类任务~
一、SVM 原理快速回顾
SVM(支持向量机)是一种经典的分类模型,核心思想是:
- 找到一个决策边界,使得两类样本到边界的 “间隔” 最大;
- 当数据线性不可分时,通过核函数将数据映射到高维空间,实现线性可分;
- 参数
C是 “惩罚系数”:C越大,对分类错误的惩罚越重(容易过拟合);C越小,对错误的容忍度越高(容易欠拟合)。
二、实验目标
用 SVM 对 “正负样本” 数据集做分类,并可视化决策边界,观察 SVM 的分类效果。
三、实验步骤(附 Python 代码)
我们用scikit-learn实现 SVM,用matplotlib做可视化,步骤如下:
步骤 1:导入依赖库
python
运行
import numpy as np
import matplotlib.pyplot as plt
from sklearn.svm import SVC # SVM分类器
from scipy.io import loadmat # 加载.mat数据文件
步骤 2:加载数据集
(如果你的.mat文件打不开,直接用scipy.io.loadmat即可读取,代码如下):
python
运行
# 加载.mat格式的数据集(替换为你的文件路径)
data = loadmat('your_dataset.mat') # 比如示例中的数据集
X = data['X'] # 特征矩阵 (n_samples, 2)
y = data['y'].ravel() # 标签(ravel()转为一维数组)
步骤 3:训练 SVM 模型
我们用线性核函数(数据线性可分的情况),并设置惩罚系数C=100:
python
运行
# 初始化SVM分类器(线性核)
svm_model = SVC(kernel='linear', C=100)
# 训练模型
svm_model.fit(X, y)
步骤 4:可视化决策边界
要画出 SVM 的决策边界,需要生成 “网格点” 并预测每个点的类别,再绘制等高线:
python
运行
def plot_decision_boundary(model, X, y):
# 生成网格点
x_min, x_max = X[:, 0].min() - 0.5, X[:, 0].max() + 0.5
y_min, y_max = X[:, 1].min() - 0.5, X[:, 1].max() + 0.5
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.02),
np.arange(y_min, y_max, 0.02))
# 预测网格点的类别
Z = model.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)
# 绘图
plt.figure(figsize=(8, 6))
# 绘制决策边界
plt.contourf(xx, yy, Z, alpha=0.3, cmap=plt.cm.Paired)
# 绘制样本点
plt.scatter(X[y==1, 0], X[y==1, 1], marker='x', c='k', label='Positive')
plt.scatter(X[y==0, 0], X[y==0, 1], marker='o', c='y', label='Negative')
plt.xlabel('X1')
plt.ylabel('X2')
plt.title('SVM Decision Boundary (C=100)')
plt.legend()
plt.show()
# 调用函数可视化
plot_decision_boundary(svm_model, X, y)
四、结果分析
- SVM 找到了一条倾斜的决策边界,将 “Positive(X 标记)” 和 “Negative(圆点标记)” 样本清晰分开;
- 当
C=100时,模型对分类错误的惩罚较重,因此决策边界尽可能 “贴近” 两类样本的间隔,分类效果较好(无错分样本)。
五、拓展:尝试不同参数
- 改变
C的值(比如C=1),观察决策边界的变化; - 尝试非线性核函数(比如
kernel='rbf',高斯核),看 SVM 如何处理非线性可分数据。
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐
所有评论(0)