Day 85：【99天精通Python】机器学习进阶 - 支持向量机 (SVM) - 寻找最宽的街道

Mark Zero

898人浏览 · 2026-01-19 06:03:13

Mark Zero · 2026-01-19 06:03:13 发布

Day 85：【99天精通Python】机器学习进阶 - 支持向量机 (SVM) - 寻找最宽的街道

前言

欢迎来到第85天！

在前面的课程中，我们学习了逻辑回归（找一条线划分）和决策树（用 if/else 切分）。
今天，我们要学习一个在深度学习流行之前，统治了机器学习领域近 20 年的算法——支持向量机 (Support Vector Machine, SVM)。

SVM 的核心思想是：找到一个能将两类数据分得"最开"的决策边界（超平面）。这个边界就像一条马路，我们希望马路越宽越好，这样容错率更高。

本节内容：

SVM 原理：最大间隔与支持向量
核技巧 (Kernel Trick)：处理非线性数据
Sklearn 中的 SVC 与 SVR
超参数调优 (C, gamma)
实战练习：手写数字识别 (再战 MNIST)

一、SVM 原理

1.1 最大间隔 (Maximal Margin)

想象一下，在两堆点之间画一条线，可以有无数种画法。SVM 认为，最好的那条线，是离两边最近的点最远的那条。
这条"最宽的马路"的宽度，就叫间隔 (Margin)。

1.2 支持向量 (Support Vectors)

决定这条"马路"边界的那些点，就叫支持向量。SVM 只关心这些离边界最近的点，其他点对模型没有影响。

[外链图片转存中…(img-wdUVZQ58-1768773765029)]

1.3 核技巧 (Kernel Trick) - 精髓

如果数据是线性不可分的（比如一个圈套着另一个圈），怎么办？
SVM 的天才之处在于核技巧。它通过一个核函数，将数据从低维空间映射到高维空间，让它们变得线性可分。

线性核 (linear): 不做映射。
多项式核 (poly): 映射到多项式空间。
高斯径向基核 (RBF): 最常用，能处理各种复杂形状。

二、Sklearn 中的 SVM

2.1 分类 (SVC) 与回归 (SVR)

SVC: Support Vector Classifier
SVR: Support Vector Regressor

2.2 超参数

C (惩罚系数)：
- C 越大，越追求"纯洁"（所有点都分对），容错率低，容易过拟合。
- C 越小，允许犯一些错误，容错率高，泛化能力可能更好。
kernel: 'linear', 'poly', 'rbf' (默认)。
gamma (RBF核专用):
- gamma 越大，影响范围越小，边界越弯曲，容易过拟合。
- gamma 越小，影响范围越大，边界越平滑。

三、实战：再战 MNIST 手写数字识别

我们用 SVM 来解决 Day 79 的手写数字识别问题，看看和神经网络比效果如何。

3.1 数据准备

from sklearn.datasets import fetch_openml
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score
import pandas as pd

# 1. 加载数据 (如果慢，可以只取一小部分)
# as_frame=False 返回 NumPy 数组
X, y = fetch_openml('mnist_784', version=1, return_X_y=True, as_frame=False)

# 数据量太大，只取前 10000 个样本用于演示
X = X[:10000]
y = y[:10000]

# 2. 标准化 (SVM对尺度敏感，必须标准化)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 3. 划分数据集
X_train, X_test, y_train, y_test = train_test_split(
    X_scaled, y, test_size=0.3, random_state=42
)

3.2 训练与评估

# 1. 创建模型 (RBF 核是默认的)
# C 和 gamma 是需要调优的超参数
model = SVC(kernel='rbf', C=5, gamma=0.05, random_state=42)

# 2. 训练
print("开始训练 SVM (这可能会很慢)...")
model.fit(X_train, y_train)

# 3. 预测与评估
print("训练完成，开始评估...")
y_pred = model.predict(X_test)
acc = accuracy_score(y_test, y_pred)

print(f"SVM 在 MNIST 上的准确率: {acc:.3f}")
# 结果通常在 0.95 以上，非常强大！

四、非线性分类可视化

让我们看看 SVM 如何处理线性不可分的数据。

from sklearn.datasets import make_circles
import numpy as np
import matplotlib.pyplot as plt

# 1. 创建环形数据
X, y = make_circles(n_samples=100, factor=0.3, noise=0.1)

# 2. 训练 SVM (使用 rbf 核)
svm = SVC(kernel='rbf').fit(X, y)

# 3. 绘制决策边界 (辅助函数)
def plot_decision_boundary(model, X, y):
    h = .02
    x_min, x_max = X[:, 0].min() - .1, X[:, 0].max() + .1
    y_min, y_max = X[:, 1].min() - .1, X[:, 1].max() + .1
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
                         np.arange(y_min, y_max, h))
    Z = model.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)
    plt.contourf(xx, yy, Z, alpha=0.3)
    plt.scatter(X[:, 0], X[:, 1], c=y, edgecolors='k')

# 4. 可视化
plt.figure(figsize=(8, 6))
plot_decision_boundary(svm, X, y)
plt.title("SVM with RBF Kernel")
# plt.show()

五、常见问题

Q1：SVM 训练太慢怎么办？

SVM 的计算复杂度较高，尤其是样本量很大时。

数据降维：使用 PCA 等技术减少特征数量。
使用 LinearSVC：如果你的数据是线性可分的，或者样本量巨大，LinearSVC 专门为大规模线性问题做了优化，比 SVC(kernel='linear') 快得多。
随机抽样：用一部分数据训练。

Q2：`C` 和 `gamma` 怎么选？

这就是所谓的超参数调优 (Hyperparameter Tuning)。
通常使用 GridSearchCV (网格搜索) 来自动寻找最佳组合。

六、小结

关键要点：

SVM 是一个强大的、基于边界的分类器。
RBF 核 让 SVM 能处理复杂的非线性问题。
标准化 和调参对 SVM 的性能至关重要。

七、课后作业

Grid Search：使用 GridSearchCV 在 MNIST 数据上自动搜索最佳的 C 和 gamma 值。
回归问题：使用 SVR 解决 Day 82 的加州房价预测问题，并与线性回归对比效果。
可视化对比：在 make_circles 数据上，分别用 kernel='linear' 和 kernel='rbf' 训练，对比它们的决策边界，直观感受核技巧的威力。

下节预告

Day 86：机器学习进阶 - K-Means 聚类 - 如果数据没有标签怎么办？明天我们学习无监督学习，让机器自己从数据中找出"物以类聚"的规律。

系列导航：

上一篇：Day 84 - 决策树与随机森林
下一篇：Day 86 - K-Means聚类（待更新）

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

14905黄大年茶思屋榜文第149期第5题面向云手机复杂任务的高效可靠 GUI VLA 模型技术

DAMO开发者矩阵

机械臂软件需求规格说明书

术语英文定义正向运动学根据机械臂各关节角度，计算末端执行器在空间中的位置与姿态。逆向运动学根据末端执行器的目标位置和姿态，求解各关节的驱动角度。URDF统一机器人描述格式，用于描述机器人模型的连杆、关节和运动学属性。ROS2第二代机器人操作系统，提供分布式通信、硬件抽象和工具链支持。KDL运动学与动力学库，提供机器人的运动学正反解算法实现。透视变换将图像投影到一个新的视平面，用于将倾斜拍摄的图像校

DAMO开发者矩阵

图像识别化技术目标检测模型训练数据标注策略

图像识别技术中的目标检测模型近年来在自动驾驶、安防监控、医疗影像等领域展现出巨大潜力，而模型的性能高度依赖于训练数据的标注质量。对于遮挡、重叠目标，应采用分层标注策略，明确标注可见部分。标注策略需结合具体需求，灵活调整标注粒度和标准，确保模型在实际场景中发挥最佳效果。通过分析模型在测试集上的表现，发现漏检或误检案例，针对性补充标注数据。未来，随着自动化标注技术和多模态融合的发展，数据标注将迈向更高