【机器学习入门】推导超级详细，一文讲清楚支持向量机(SVM)【从原理到代码】

czc131

1768人浏览 · 2024-04-18 21:00:06

czc131 · 2024-04-18 21:00:06 发布

支持向量机(SVM)是机器学习中非常经典的一个模型，所以我就把这个作为第二个深入学习的机器学习模型，然后发现居然还挺难的（调包侠流下无能泪水）。
参考了很多博客，但是大部分博客都是讲一部分，要么数学部分比较详细，要么后面的推导部分比较详细，本篇汇集了百家之长，其中我也尽量详细通俗给出了我的一些理解，特在此记录一下。
其中可能存在一些错误，或者有些地方我也理解的不到位，在这些地方我都给出了参考博客，可以参考这些博客。

1.原理部分

1.1.SVM

首先直接抛出SVM的核心假设：SVM面向二分类，假设一组点为线性可分，也就是可以一个被超平面分为两部分。SVM要找的就是这样的超平面，这个超平面使得正类和负类相距此平面最近的点和最远，最近的点被称为支持向量，也可以理解找到一个平面，使得两类中在这个平面的垂直方向的最短的距离最大（最小值最大问题），这样来了一个新样本，那么就可以以更大的概率分类正确。
如下图，SVM就是要找到中间那条线（实际是n维的一个超平面），把两部分样本分开。

1.2.优化目标

基于目标，可以写出优化方程： $ma x (2 d)$ ，其中d就是作为支持向量的点到超平面的距离，2d就是最短的支持向量距离（垂直于超平面方向）。
在空间 $R^n$ 中，点到超平面的距离可以表达为：
$\frac{w^Tx+b}{||w||}$ 其中, $w, x$ 都是 $n \times 1$ 向量， $x$ 是移项后表达式的所有参数，在二维中，该式子表示为 $\frac{ax+by+c}{\sqrt{a^2+b^2}}$ ，对应于上面就是 $w^T=(a,b),x^T=(x,y)$ ，本质是一样的。
知道了表达式后，就可以对上面提到的 $d$ 进行转化，假设超平面为 $w^Tx+b=0$ ，如下：
$max(2d)\\=>max(2\frac{|w^Tx+b|}{||w||})$ 因为 $w, b$ 同时放缩不会影响到超平面，也不会影响d的值，所以通过适当的放缩，该式子可表达为 $max(2\frac{1}{||w||})$ ，这有利于后续的优化，进一步转化：
$max(2\frac{1}{||w||})\\=>min(\frac{||w||}{2})\\=>min(\frac{||w||^2}{2})$ 最后一步是为了去掉根号，方便计算，其中 $w||=w^Tw$ 。
任意一点到超平面的距离其实也可以表达为 $\frac{y_i(w^Tx+b)}{||w||}$ ，因为 $y_i(w^Tx+b)$ 的 $y = \pm 1$ ，始终与 $w^Tx+b)$ 同号，因此 $y_i(w^Tx+b)=|(w^Tx+b)|$ ，上面提到了 $w^Tx+b)|=1$ ，那么对于所有的向量，距离超平面的函数距离都要大于等于1（函数距离就是分子|(w^Tx+b)|，除了 $∣∣ w ∣∣$ 之后是几何距离），存在：
$y_i(w^Tx+b)≥1$ 此时可列出目标和约束条件：
$min(\frac{||w||^2}{2})\\ s.t.\;y_i(w^Tx+b)≥1$

1.3.数学知识补充

1.3.1.拉格朗日和kkt

下面介绍拉格朗日乘子和kkt。求解优化目标时，如果约束条件是等式，那么可以使用拉格朗日乘子法转为不带约束条件的优化，形如：
$min(f(x))\\ s.t.\; φ_i(x)=0,i=1,2,...,n$ 上式可化为
$L(x,λ)=f(x)+∑_{i=1}^{n}λ_iφ_i(x)$ 此时令 $L$ 对 $x$ 分别求偏导，解得的结果是极小值的必要条件（也就是可能是，也有可能不是），可以用于验证一个点是否是，如果为极值点那么一定满足上式。

但是如果约束条件条件包含不等式约束，此时可以使用kkt条件，kkt条件使用的情形如下：
$min(f(x))\\ s.t.\;φ_i(x)=0,i=1,2,...,n\\ g_j(x)≤0,j=1,2,...,m$ 此时，再写出拉格朗日函数：
$L(x,λ,β)=f(x)+∑_{i=1}^{n}λ_iφ_i(x)+∑_{i=1}^{m}β_jg_j(x)$
上式称为原始问题，需要进一步转化，下面介绍拉格朗日对偶性，这也是比较难理解的地方。
约束 $\beta≥0$ ，此时因为 $g (x) \leq 0$ ，那么 $_{i=1}^{m}β_jg_j(x)≤0$ ，因此 $L(x,λ,\beta)≤f(x)$ ， $f (x)$ 为求解目标，为了使得 $L (x, λ, β)$ 趋向于 $f (x)$ ，那么要求 $ma x (L (x, λ, β))$ ，即 $\max\limits_{β≥0,λ}(L(x,λ,β))$ 。
该式只是对 $λ, β$ 进行约束，而 $g (x)$ 是要约束 $x$ 才能满足 $g (x) \leq 0$ ，因此 $g (x) > 0$ 可能成立，从而使得：
$\max\limits_{β≥0,λ}(L(x,λ,β))=\left\{ \begin{array}{cc} f(x),{\forall}\;g_j(x)≤0 & \\ [f(x),+∞],{\exists}\;g_j(x)>0 \end{array} \right.$
（这里有一个问题就是：为什么不满足约束的时候不考虑h(x)≠0?这一点我也不是很清楚，参考的几篇博客并没有提到，也有可能是我没理解到位吧！）
也就是无论如何 $\max\limits_{β≥0,λ}(L(x,λ,β))$ 的下限都是 $f (x)$ ，也就是求解目标，那么只要再对其求 $min$ 即 $\min\limits_{x}\max\limits_{β≥0,λ}(L(x,λ,β))$ ，那么原始问题可转化为原始代价函数：
$J_d=min(f(x))=\min\limits_{x}\max\limits_{β≥0,λ}(L(x,λ,β))$ 最后补充一点，**max(.)**为凸函数，**min(.)为凹函数，与括号内的.***形式无关，这和下面进一步转化有关。（证明参见）

1.3.2.对偶方法

对于原函数，构造一个新的函数，也就是将 $L(x,\lambda,\beta)$ 前面的 $min$ 和 $ma x$ 顺序反一反，条件不变，得到一个新函数：
$\min\limits_{x}(L(x,\lambda,\beta))=\min\limits_{x}(f(x)+∑_{i=1}^{n}λ_iφ_i(x)+∑_{i=1}^{m}β_jg_j(x))$ 该函数满足下式：
$\min\limits_{x}(L(x,λ,β))=\left\{ \begin{array}{cc} \min\limits_{x}(f(x)),{\forall}\;g_j(x)≤0 & \\ [-∞,\min\limits_{x}(f(x))],{\exists}\;g_j(x)>0 \end{array} \right.$
(这里有个问题：我感觉满足条件的时候βg(x)s∈[-∞,0],不满足的时候是[-∞,+∞]，所以满足的时候最小值为什么是f(x)最小值？这部分来自博客)。
可见最大值都是 $f (x)$ ，那么类似上面取 $ma x$ 。
$J_p=\max\limits_{β≥0,λ}\min\limits_{x}(L(x,λ,β))$ 假设 $J_d,J_p$ 对应的极值（极小值和极大值）分别是 $d^*和p^*$ ，那么满足：
$d^*≥p^*$ 根据Slater定理，如果问题为凸问题（凹问题可以转为凸问题），那么** $p^*=d^*$ ，此时称为强对偶性**（与之对应的是弱对偶性，满足的是上面的不等式）。

1.4.优化目标转化

下面回到原问题上来，原优化问题如：
$min(\frac{||w||^2}{2})\\ s.t.\;y_i(w^Tx+b)-1≥0$ 上面的不等式约束是≥0，要满足标准kkt，转为下式：
$min(\frac{||w||^2}{2})\\ s.t.\;-(y_i(w^Tx+b)-1)≤0$ 写出拉格朗日函数：
$L(w,b,β)=\frac{||w||^2}{2}-∑_{i=1}^{m}β_i[y_i(w^Tx_i+b)-1]$
该问题为原始问题，满足 $β > 0$ （kkt条件），转为原始代价函数：
$J_d=min(f(w))=\min\limits_{w,b}\max\limits_{β≥0}(L(w,b,β))$ 该函数为凸函数（ $min$ ），转为对偶问题：
$\min\limits_{w,b}\max\limits_{β≥0}(L(w,b,β))=\max\limits_{β≥0}\min\limits_{w,b}(L(w,b,β))$ 写出完整的表达式：
$\max\limits_{β≥0}\min\limits_{w,b}(L(w,b,β))=\max\limits_{β≥0}\min\limits_{w,b}(\frac{||w||^2}{2}-∑_{i=1}^{m}β_i[y_i(w^Tx_i+b)-1])$ 先求里面部分，分别对 $w, b$ 求偏导，得到下式：
$\left\{ \begin{array}{cc} \frac{\partial L}{\partial w}=w-∑_{i=1}^{m}y_ix_iβ_i \\ \frac{\partial L}{\partial b}=-∑_{i=1}^{m}y_iβ_i \end{array} \right.$
分别令其为0，得到:
$w=∑_{i=1}^{m}y_ix_iβ_i\\ ∑_{i=1}^{m}y_iβ_i=0$ 注意：这里的 $x_i,w$ 都是一个向量。
带入原式，变为：
$\max\limits_{β≥0}(\frac{1}{2}w^Tw-∑_{i=1}^{m}β_i[y_i(w^Tx_i+b)-1])\\ =\max\limits_{β≥0}(\frac{1}{2}w^Tw-∑_{i=1}^{m}β_iy_iw^Tw-b∑_{i=1}^{m}β_iy_i+∑_{i=1}^{m}β_i)\\ =\max\limits_{β≥0}(\frac{1}{2}w^T∑_{i=1}^{m}y_ix_iβ_i-w^T∑_{i=1}^{m}y_ix_iβ_i+∑_{i=1}^{m}β_i)\\ =\max\limits_{β≥0}(∑_{i=1}^{m}β_i-\frac{1}{2}w^T∑_{i=1}^{m}y_ix_iβ_i)$ 上面是带入了 $w$ ，然后进行化简得到。下面要进一步带入 $w^T$ ,这个就是 $w$ 的转置，注意维度的变化：
$\max\limits_{β≥0}(∑_{i=1}^{m}β_i-\frac{1}{2}w^T∑_{i=1}^{m}y_ix_iβ_i)\\ =\max\limits_{β≥0}(∑_{i=1}^{m}β_i-\frac{1}{2}∑_{j=1}^{m}β_j^Tx_j^Ty_j^T∑_{i=1}^{m}y_ix_iβ_i)\\ =\max\limits_{β≥0}(∑_{i=1}^{m}β_i-\frac{1}{2}∑_{i,j=1}^{m}β_jβ_iy_jy_ix_j^Tx_i)$ 此时问题被转化为了
$\max\limits_{β≥0}(∑_{i=1}^{m}β_i-\frac{1}{2}∑_{i,j=1}^{m}β_jβ_iy_jy_ix_j^Tx_i)\\ s.t. \;∑_{i=1}^{m}y_iβ_i=0$

1.5.SMO求解β

【推荐】知乎，主要是介绍SMO，在α的介绍部分比较容易理解
上面的转化得到了一个关于 $β$ 的优化函数，下面介绍利用SMO算法求解 $β$ 。
SMO算法类似于坐标上升算法，假设存在要求 $min(f(x_1,x_2))$ ，首先固定 $x_1$ （将其看做一个常数），然后计算关于 $x_2$ 的偏导，然后可以得到此时对应的最优 $x_2$ ，然后固定 $x_2$ ，求解 $x_1$ ，不断迭代直到收敛。
SMO的思路大致类似，每次选取尽量少的变量来优化。回到SVM问题中，在上面得到了需要求解的函数：
$\max\limits_{β≥0}(∑_{i=1}^{m}β_i-\frac{1}{2}∑_{i,j=1}^{m}β_jβ_iy_jy_ix_j^Tx_i)\\ s.t. \;∑_{i=1}^{m}y_iβ_i=0$ 这是一个关于 $β$ 的函数， $β$ 是一个 $n\times 1$ 的向量，并且存在约束条件，直接求解复杂度很高，SMO将其分解为多个二次规划问题求解，每次针对其中两个 $β=<β_i,β_j>$ 进行优化，大大减少了运算量。

1.5.1.不限制β

首先抛开对于β的限制，选取需要优化的两个参数记为 $β_1,β_2$ ,剩下的若干 $β$ 固定，作为常数处理。
为了简便表达，这里设 $k_{i,j}$ 上面的 $x_i^Tx_j$ ，容易得到 $k_{i,j}=k_{j,i}$ ，同时设 $h_{i,j}=β_jβ_iy_jy_ix_j^Tx_i=β_jβ_iy_jy_ik_{i,j}$ ，满足 $h_{i,j}=h_{j,i}$ （这是为了方便查看带入的规则）。
记优化目标为 $W (β)$ ，把与 $β_1,β_2$ 有关的提取出来，其他记为 $C$ ，可得：
$W(β_1,β_2)=∑_{i=1}^{m}β_i-\frac{1}{2}∑_{i,j=1}^{m}h_{i,j}\\ =β_1+β_2-\frac{1}{2}h_{1,1}-\frac{1}{2}h_{1,2}-\frac{1}{2}h_{1,1}-\frac{1}{2}h_{2,2}-\\ \frac{1}{2}∑_{i=3}^{m}h_{i,1}-\frac{1}{2}∑_{i=3}^{m}h_{1,i}-\frac{1}{2}∑_{i=3}^{m}h_{i,2}-\frac{1}{2}∑_{i=3}^{m}h_{2,i}+C\\ =β_1+β_2-h_{1,2}-\frac{1}{2}h_{1,1}-\frac{1}{2}h_{2,2}-∑_{i=3}^{m}h_{1,i}-∑_{i=3}^{m}h_{2,i}+C$ 带入 $h_{i,j}$ 得到：
$β_1+β_2-\frac{1}{2}k_{1,1}α_1^2-\frac{1}{2}k_{2,2}α_2^2-\frac{1}{2}k_{1,2}α_1α_2-∑_{i=3}^{m}k_{1,i}β_1β_iy_1y_i-∑_{i=3}^{m}k_{2,i}β_2β_iy_2y_i+C$ 进一步，因为对于每个 $_{i=3}^{m}$ ，其中的 $β_1,β_1,y_1,y_2$ 都是一样的，所以可以提取出来，得到：
$β_1+β_2-\frac{1}{2}k_{1,1}α_1^2-\frac{1}{2}k_{2,2}α_2^2-\frac{1}{2}k_{1,2}α_1α_2-β_1y_1∑_{i=3}^{m}k_{1,i}β_iy_i-β_2y_2∑_{i=3}^{m}k_{2,i}β_iy_i+C$
$β_1,β_2$ 是满足一定约束条件的，即 $_{i=1}^{m}y_iβ_i=0$ ，设 $y_1β_1+y_2β_2=γ$ ，那么存在：
$β_1=y_1(γ-β_2y_2)$ 设：
$v_1=∑_{i=3}^{m}k_{1,i}β_iy_i\\v_2=∑_{i=3}^{m}k_{2,i}β_iy_i$ 带入 $β_1$ 后，那么此时 $W(β_1,β_2)$ 就变为了关于 $β_2$ 的函数，注意 $y_i^2=1$ ，如下：
$W(β_2)=y_1(γ-β_2y_2)+β_2-\frac{1}{2}k_{1,1}(γ-β_2y_2)^2\\ -\frac{1}{2}k_{2,2}β_2^2-k_{1,2}β_2(γ-β_2y_2)y_2-v1(γ-β_2y_2)-v_2y_2β_2+C$ 然后对 $β_2$ 求导：
$\frac{\partial W}{\partial β_2}=-y_1y_2+y_2^2-k_{1,1}y_2(γ-β_2y_2)-k_{2,2}α_2-k_{1,2}γy_2-2k_{1,2}β_2+v_1y_2-v_2y_2\\ =(2k_{1,2}-k_{1,1}-k_{2,2})β_2+(k_{1,1}-k_{1,2})γy_2+y_2(v_1-v_2)-y_2(y_1-y_2)$ 下面的步骤将消除 $γ$ ，计算出更新后的值 $β^{new}$ 和原来的值 $β^{old}$ 的关系，这和更新参数有关。
首先可以知道，对于一个输入样本 $x$ ，其预测值为 $f(x)=w^Tx+b$ ，带入前面计算出的 $w$ （在问题求解部分）可得：
$f(x_j)=∑_{i=1}^{m}y_iβ_ix_i^Tx_j+b\\=∑_{i=1}^{m}y_iβ_ik_{i,j}+b$ 可以发现这个式子和前面的 $v_1,v_2$ 形式类似，带入 $x_1$ ，可得 $f(x_1)=∑_{i=1}^{m}y_iβ_ik_{i,1}+b$ ，用 $f (x)$ 的形式表达出 $v_1,v_2$ ：
$v_1=f(x_1)-y_1β_1^{old}k_{1,1}-y_2β_2^{old}k_{2,1}-b\\ v_2=f(x_2)-y_1β_1^{old}k_{2,1}-y_2β_2^{old}k_{2,2}-b$ 这里是 $β^{old}$ 是因为这是基于已知的预测值的，所以是上一次的参数，也就是旧参数。
替换掉前面求导得到的式子 $v_1-v_2$ ：
$v1-v2=f(x_1)-f(x_2)+(k_{1,1}+k_{2,2}-2k_{1,2})β_2^{old}y_2+γ(k_{1,2}-k_{1,1})$ 带入得：
$\frac{\partial W}{\partial β_2}=(2k_{1,2}-k_{1,1}-k_{2,2})β_2^{new}+(k_{1,1}-k_{1,2})γy_2\\ +y_2(f(x_1)-f(x_2)+(k_{1,1}+k_{2,2}-2k_{1,2})β_2^{old}y_2+γ(k_{1,2}-k_{1,1}))-y_2(y_1-y_2)\\ =(2k_{1,2}-k_{1,1}-k_{2,2})β_2^{new}-(2k_{1,2}-k_{1,1}-k_{2,2})β_2^{old}+y_2((f(x_1)-y_1)-(f(x_2)-y_2))$
设 $e_i=f(x_i)-y_i,K=2k_{1,2}-k_{1,1}-k_{2,2}$ ：
$\frac{\partial W}{\partial β_2}=Kβ_2^{new}-Kβ_2^{old}+y_2(e_1-e_2)$ 要满足极值点，那么 $\frac{\partial W}{\partial β_2}=0$ ，得到：
$β_2^{new}=β_2^{old}-y_2(e_1-e_2)/K$ 因为 $β_1^{new}=y_1(γ-β_2^{new}y_2)$ ，而 $γ=β_2^{old}y_1+β_1^{old}y_2$ ，由此可以解出新的 $β_1^{new}$ 。

1.5.2.β裁剪

下面要对β进行裁剪，也就是考虑限制 $β$ 。
实际的 $β$ 是有范围的，限定为 $0 \leq β \leq C$ ， $C$ 表示软间隔常数。
因为 $β_1y_1+β_2y_2=γ$ ，这个关系始终成立，无论是 $β^{new}$ 还是 $β^{old}$ ，又因为 $y = \pm 1$ ，下面分两种情况讨论 $y_1,y_2$ 的情况并分析 $β_2^{new}$ 约束条件：

$y_1y_2<0$ ：
此时存在 $β_2-β_1$ 为常数，那么 $β_2^{new}-β_1^{new}=β_2^{old}-β_1^{old}$ ，那么存在：
$0≤β_1^{new}=β_2^{new}-(β_2^{old}-β_1^{old})≤C\\ =>max(0,β_2^{old}-β_1^{old})≤β_2^{new}≤min(C,C+(β_2^{old}-β_1^{old}))$
$y_1y_2>0$ ：
此时存在 $β_2+β_1$ 为常数，那么 $β_2^{new}+β_1^{new}=β_2^{old}+β_1^{old}$ ，那么存在：
$0≤β_1^{new}=(β_2^{old}+β_1^{old})-β_2^{new}≤C\\=>max(0,(β_2^{old}+β_1^{old})-C)≤β_2^{new}≤min(C,β_2^{old}+β_1^{old})$
若计算得到的 $β_2^{new}$ 超出了这个范围，那么就置为对应的边界值，记上界为 $H$ ，下界为 $L$ ，那么 $β$ 的更新可以写为：
$β^{new}=\left\{ \begin{array}{cc} H,\;\;\;\;\;\;β^{new}＞H \\ β^{new},\;\;L≤β^{new}≤L\\ L,\;\;\;\;\;\;β^{new}＜L \end{array} \right.$ 到这里，就可以完成对一对参数的更新。

1.5.3.b的更新

$b$ 是超平面的偏置，每次更新参数后，也要改变 $b$ 。
根据一开始的假设，若一个点为支持向量，存在 $y(w^Tx+b)=1$ ，两边同乘以 $y_i$ 并移项，得到 $b=y-w^Tx$ ，进一步带入 $w^T$ ，得到：
$b_j=y_j-∑_{i=1}^{m}y_iβ_ik_{i,j}$ 带入 $j = 1$ 得到：
$b_1^{new}=y_1-∑_{i=1}^{m}y_iβ_ik_{i,1}\\ =y_1-∑_{i=3}^{m}y_iβ_ik_{i,1}-y_1β_1^{new}k_{1,1}-y_2β_2^{new}k_{1,2}\\ =y_1-f(x_1)+y_1β_1^{old}k_{1,1}+y_2β_2^{old}k_{2,1}+b_1^{old}-y_1β_1^{new}k_{1,1}-y_2β_2^{new}k_{1,2}\\ =-e_1+y_1k_{1,1}(β_1^{old}-β_1^{new})+y_2k_{1,2}(β_2^{old}-β_2^{new})+b^{old}$ 同理可得 $b_2$ ：
$b_2^{new}=-e_2+y_1k_{1,2}(β_1^{old}-β_1^{new})+y_2k_{2,2}(β_2^{old}-β_2^{new})+b^{old}$ 由KKT条件可知，当 $β_i$ 满足 $0＜β_i≤C$ 时，此时该点为支持向量，此时可用上式计算，满足 $b^{new}=b_1^{new}=b_2^{new}$ 。否则当 $β_i=0$ ，两个乘子都在边界上，且两者边界大小不一致，此时 $b_1,b_2$ 中间的值就是和KKT条件一致的阈值，SMO选取中间点作为新的阈值，即 $b^{new}=(b_1^{new}+b_2^{new})/2$ ，总之都是两个的均值。（这里不是很理解，感觉大致意思就是如果两个点都满足满足KKT条件，那么距离中间的超平面距离一定是一样的，所以大小一致，否则要更新？）

简单说一下利用松弛变量证明KKT条件（β和点是否为支持向量的关系）的思路（详细可以参考博客），针对不等式约束，通过添加正数因子将其转为等式约束：
$βg(w)≤0=>β(g(w)+a^2)=0\\ \beta≥0\\ g(w)=y_i(w^Tx+b)-1$ 这个式子会出现在拉格朗日乘子中，求导后可以得到两个有关的公式：
$\frac{\partial L}{\partial a}=2βa=0\\ \frac{\partial L}{\partial β}=g(w)+a^2=0$ 要求极值，因此令其为0，可得 $β a = 0$ ，此时有两种情况，分别是 $a = 0$ 或 $β = 0$

$a = 0, β \neq = 0$ ，此时 $g (w) = 0$ ，而 $g (w) = 0$ 就表示该点为支持向量。
$a \neq = 0, β = 0$ ，此时 $g (w) < 0$ ，不是支持向量。

因为 $0 \leq β \leq C$ ，因此就可以看做若 $0 < β \leq C$ ，也就是不等于0，那么点为支持向量，否则不是支持向量，这也是KKT条件之一。

1.6.线性不可分

前面叙述的前提条件都是线性可分，但是实际情况中很多时候不存在线性可分的结果，那么此时就需要改进原函数使其能够适应这种异常情况。
此部分参考，知乎的详细说明
有两种不可分情况：样本线性不可分和问题线性不可分，前者是由于采样导致，后者是问题本身决定，解决方案分别是软间隔支持向量机（惩罚项）和广义线性化（核函数）。

1.6.1软间隔支撑向量机

未解决样本线性不可分的问题，这种向量机允许少数样本点在支持向量之间，通过加入松弛项 $\gamma$ 来优化求解：
$y_i(w^Tx+b)≥1-γ_i$ 当然，这个值一定是越小越好，因此优化目标可写为：
$min(\frac{1}{2}||w||+C∑_{i=1}^{m}γ_i)\\ s.t. \;y_i(w^Tx+b)≥1-γ_i$
这个 $C$ 就是惩罚的系数， $C∑_{i=1}^{m}γ_i$ 为惩罚项，

$C$ 越大，那么松弛变量的影响更加倾向于0，那么最终的结果越接近标准的线性支持向量机
$C$ 越小，松弛变量可以有较大的影响，此时对于不在支持向量间的点有更高的容忍度。

1.6.2.广义线性化

这一篇写的比较好，举了一些例子
广义线性化主要是将特征映射到更高的维度，解决在根本上无法线性可分的问题，解决方法就是核函数。

可以知道， $S V M$ 的求解目标如下：
$\max\limits_{β≥0}(∑_{i=1}^{m}β_i-\frac{1}{2}∑_{i,j=1}^{m}β_jβ_iy_jy_ix_j^Tx_i)\\ s.t. \;∑_{i=1}^{m}y_iβ_i=0$ 核函数主要是对 $x^Tx$ 部分进行替换，核函数需要满足：
$φ(x_i)φ(x_j)=K(x_i,x_j)$ 这个表达式左边的意思就是对两个点分别升维后进行点积操作，而右边的 $K$ 就是核函数，是一个关于 $x_i,x_j$ 的函数。这就相当于可以直接由原来未升维的点 $x_i,x_j$ 得到点积的结果，这样可以大大减少计算量。
常用的核函数有下面几种：

最常用的就是高斯核，这个是一个 $n$ 维的超圆，但是计算量比较大。（详细的介绍）

2.代码

下面是代码实现的部分，我实现了一个比较简单的版本（没考虑更复杂的核函数等），这里我先看了一遍知乎老哥的实现，然后全程自己写了一遍，最后调试通过了，应该没什么大问题。
下面的左边是初始的优化目标，右边是迭代30轮候的，可以看到基本不变化，也就是收敛了。
在这里插入图片描述
下面是对于训练样本的预测，其中加大的双环表示支持向量，绿色的和红色的支持向量应该距离中间的分类超平面有着相同距离。

有个问题是迭代次数设置多了，画出来的超平面有问题，我猜可能是过拟合？不是很清楚，有知道的可以评论区告诉我。
最后给出完整的代码，注释非常详细，大家可以自行体味。

# 尝试复现SVM
import numpy as np
from matplotlib import pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

def load_data():
    np.random.seed(0)
    x1= np.random.uniform(1,6,(50)).reshape(-1,1)
    np.random.seed(100)
    x2= np.random.uniform(8,15,(50)).reshape(-1,1)
    np.random.seed(100)
    y1=1.5*x1+10
    y2=1.9*x2-7
    np.random.seed(200)
    y1 += np.random.uniform(1, 3, (50)).reshape(-1,1)
    np.random.seed(300)
    y2 += np.random.uniform(2, 10, (50)).reshape(-1,1)
    tmp1 = np.hstack((x1,y1,np.ones(50).reshape(-1,1)))
    tmp2 = np.hstack((x2,y2,-np.ones(50).reshape(-1,1)))
    data = np.vstack((tmp1,tmp2))
    idx_list = np.random.choice(100,100,replace=False)
    ans = np.zeros((100,3))
    for i,idx in enumerate(idx_list):
        ans[i]=data[idx]
    return ans[:,:-1],ans[:,-1]

class MySVM():
    def fit(self,x,y,epochs,C): # 训练
        y = y.reshape(-1,1)
        samples = x.shape[0] # 样本数,也就是m
        features = x.shape[1] # 特征数
        print('输入共%d个特征,样本数为%d'%(features,samples))
        beta = np.zeros((samples,1)) # β
        b = 0 # b
        target = np.ones((1, samples)) @ beta
        for i in range(samples):
            for j in range(samples):
                target -= 1 / 2 * beta[i] * beta[j] * y[i] * y[j] + x[i] @ x[j].T
        print('初始优化目标:%.2f' % (target))
        for epoch in range(epochs):
            print('epoch:',epoch+1)
            for i in range(samples): # 每次选取i和另一个数j作为更新数对
                while True:
                    j = np.random.choice(samples,1,replace=False)[0] # 随机选择两个要更新的
                    if j!=i:
                        break
                # print('当前优化,i=%d,j=%d'%(i,j))
                w_T = (beta * y).T @ x  # w^T=∑βyx=(βyx).T,β、y都是列向量,所以转置
                # print(w_T.shape) # (1,2)
                # 下面计算β_j^{new},把公式的2对应j,i对应1
                k_i_i = x[i]@x[i].T
                k_i_j = x[i]@x[j].T
                k_j_j = x[j]@x[j].T
                K = 2*k_i_j-k_i_i-k_j_j # 计算系数k
                fx_i = w_T@x[i].T+b
                fx_j = w_T@x[j].T+b
                e_i = fx_i-y[i]
                e_j = fx_j-y[j]
                beta_old_i = beta[i]
                beta_old_j = beta[j]
                beta_new_j = beta_old_j-y[j]*(e_i-e_j)/K
                # 裁剪beta_new_j
                if y[i]==y[j]: # 同号
                    L = max(0,beta_old_i+beta_old_j-C)
                    H = min(C,beta_old_i+beta_old_j)
                    if beta_new_j<L:
                        beta_new_j=L
                    elif beta_new_j>H:
                        beta_new_j=H
                else:
                    L = max(0, beta_old_j - beta_old_i)
                    H = min(C, C + beta_old_j - beta_old_i)
                    if beta_new_j < L:
                        beta_new_j = L
                    elif beta_new_j > H:
                        beta_new_j = H
                # 因为β_1^{old}y_1+β_2^{old}y_2=β_1^{new}y_1+β_2^{new}y_2=γ => β_1^{new}=y_1(γ-β_2^{new}y_2)
                # 可以基于此解出beta_new_i,因为上面的裁剪,可以保证下面解出来的一定在[0,C]之间
                gamma = (beta_old_i*y[i]+beta_old_j*y[j])
                beta_new_i = y[i]*(gamma-beta_new_j*y[j])
                # 更新参数b
                b_new_i = -e_i+y[i]*k_i_i*(beta_old_i-beta_new_i)+y[j]*k_i_j*(beta_old_j-beta_new_j)+b
                b_new_j = -e_j+y[i]*k_i_j*(beta_old_i-beta_new_i)+y[j]*k_j_j*(beta_old_j-beta_new_j)+b
                # b = (b_new_i+b_new_j)/2 # 一开始写的,发现好像不对,对照了参考博客
                if beta[i] > 0:
                    b = b_new_i
                elif beta[j] > 0:
                    b = b_new_j
                else:
                    b = (b_new_i+b_new_j)/2
                beta[i]=beta_new_i
                beta[j]=beta_new_j
            # 计算优化目标
            target = np.ones((1,samples))@beta
            for i in range(samples):
                for j in range(samples):
                    target-=1/2*beta[i]*beta[j]*y[i]*y[j]+x[i]@x[j].T
            print('优化目标:%.2f'%(target))
        # print(beta)
        self.beta = beta
        self.w_T = w_T
        self.b = b

    def predict(self,x):
        pred = np.sign(self.w_T@x.T+self.b).reshape(-1,1)
        return pred

if __name__ == '__main__':
    X,y = load_data() # 产生数据
    svm = MySVM()
    svm.fit(X,y,epochs=30,C=0.6) # C不知道怎么设置,随便设置一个,参考了博客
    res=svm.predict(X)
    cnt = 0
    for i in range(X.shape[0]):
        if res[i] != y[i]:
            cnt+=1
    print("预测错误%d个"%(cnt))

    # 对每个数据点绘制,标出特殊的
    beta = svm.beta
    for i in range(X.shape[0]):
        if res[i]==-1:
            plt.scatter(X[i,0],X[i,1],marker='^',s=20,color='g',facecolors='none')
            if beta[i]>0.0001: # 支持向量
                plt.scatter(X[i,0],X[i,1],marker='^',s=100,color='g',facecolors='none')
        else:
            plt.scatter(X[i,0],X[i,1],marker='o',s=20,color='r',facecolors='none')
            if beta[i]>0.0001: # 支持向量
                plt.scatter(X[i,0],X[i,1],marker='o',s=100,color='r',facecolors='none')
    # 解出两个在截距,也就是交于x1和x2
    w_T = svm.w_T[0]
    b=svm.b
    b1 = -b/w_T[0] # x1轴
    b2 = -b/w_T[1] # x2轴
    k = -b2/b1 # y=kx+b,b就是b2
    x = np.linspace(min(X[:,0]),max(X[:,0]),1000)
    y = k*x+b2
    plt.plot(x,y,linestyle='--')
    plt.show()