机器学习笔记08：支持向量机（一）(SVM)

imxietx

3613人浏览 · 2016-05-25 19:40:35

imxietx · 2016-05-25 19:40:35 发布

在网上找了很多支持向量机的资料看都是迷迷糊糊没完全搞懂，可能是我理解能力比较差，最后还是 Coursera 上吴大神的 Machine Learning 课程把我一下子讲懂了。

由于支持向量机是由逻辑回归(Logistic Regression)衍生而来的，所以学习 SVM 之前务必完全理解逻辑回归。另外，文章中有些关于逻辑回归的东西（例如符号标记、函数的具体由来及其的一些性质）还请参考之前的两篇文章，这里就不在赘述了：
《机器学习笔记04：逻辑回归(Logistic regression)、分类(Classification)》
《机器学习笔记05：正则化(Regularization)、过拟合(Overfitting)》

支持向量机的应用很广泛，在工业、计算机行业和学术界都有比较多的应用，而且它应该是最常用的分类器。所以喜欢 Machine Learning 的童鞋们应该好好掌握 SVM 这一大杀器。

一、最大间隔分类(Large Margin Classification)

1.优化目标(Optimization Objective)

在了解 SVM 之前，我们先来看看之前的逻辑回归的误差函数(Cost function)：

J (θ) = - 1 m \sum i = 1 m [y (i) l o g (h θ (x (i))) + (1 - y (i)) l o g (1 - h θ (x (i)))] = - 1 m \sum i = 1 m [y (i) l o g (1 1 + e - θ T x ( i )) + (1 - y (i)) l o g (1 - 1 1 + e - θ T x ( i ))]

J (θ) = 1 m \sum i = 1 m [- y (i) l o g (1 1 + e - θ T x ( i )) - (1 - y (i)) l o g (1 - 1 1 + e - θ T x ( i ))] = 1 m \sum i = 1 m [y (i) (- l o g (1 1 + e - θ T x ( i ))) + (1 - y (i)) (- l o g (1 - 1 1 + e θ T x ( i )))] (1 - 1)

hθ(x)=g(z)=11+e−z=11+e−θTX <script type="math/tex" id="MathJax-Element-3">h_\theta(x)=g(z)=\frac{1}{1+e^{-z}}=\frac{1}{1+e^{-\theta^TX}}</script>，其图像如下图所示：

当我们用逻辑回归来进行分类的时候，一般有

y = {10 if h θ (x) \geq 0.5; if h θ (x) < 0.5 .

θTX≥0 <script type="math/tex" id="MathJax-Element-5">\theta^TX \ge 0</script> 时，预测为 1，当

θTX<0 <script type="math/tex" id="MathJax-Element-6">\theta^TX < 0</script> 时，预测为 0。再回到式子 (1-1)，我们可以画出

(−log(11+e−θTx(i))) <script type="math/tex" id="MathJax-Element-7">(-log(\frac{1}{1+e^{-\theta^Tx^{(i)}}}))</script> 和

(−log(1−11+eθTx(i))) <script type="math/tex" id="MathJax-Element-8">(-log(1-\frac{1}{1+e^{\theta^Tx^{(i)}}}))</script> 的图像，分别如下面的左图和右图中的黑色曲线所示（至于图像为什么是这种形状，读者可以不难根据其公式画出）：

而在支持向量机中，我们不仅要求 θTX≥0 <script type="math/tex" id="MathJax-Element-9">\theta^TX \ge 0</script> 或 θTX<0 <script type="math/tex" id="MathJax-Element-10">\theta^TX < 0</script>，还要求 θTX>>0 <script type="math/tex" id="MathJax-Element-11">\theta^TX >> 0</script> 或 θTX<<0 <script type="math/tex" id="MathJax-Element-12">\theta^TX << 0</script> 的时候才分别预测 y=1 <script type="math/tex" id="MathJax-Element-13">y=1</script> 或 y=0 <script type="math/tex" id="MathJax-Element-14">y=0</script>，一般可以取1作为界限。我们令：

C o s t 1 (θ T x (i)) = m a x (0, K (1 - z)) C o s t 0 (θ T x (i)) = m a x (0, K (1 + z))

Cost1(θTx(i)) <script type="math/tex" id="MathJax-Element-16">Cost_1(\theta^Tx^{(i)})</script> 和

Cost0(θTx(i)) <script type="math/tex" id="MathJax-Element-17">Cost_0(\theta^Tx^{(i)})</script> 分别替换

(−log(11+e−θTx(i))) <script type="math/tex" id="MathJax-Element-18">(-log(\frac{1}{1+e^{-\theta^Tx^{(i)}}}))</script> 和

(−log(1−11+eθTx(i))) <script type="math/tex" id="MathJax-Element-19">(-log(1-\frac{1}{1+e^{\theta^Tx^{(i)}}}))</script> 之后得到：

J (θ) = 1 m \sum i = 1 m [y (i) C o s t 1 (θ T x (i)) + (1 - y (i)) C o s t 0 (θ T x (i))]

J (θ) = 1 m \sum i = 1 m [y (i) C o s t 1 (θ T x (i)) + (1 - y (i)) C o s t 0 (θ T x (i))] + λ 2 m \sum j = 1 n θ 2 j

m <script type="math/tex" id="MathJax-Element-22">m</script> ，并且两个求和项都除以

λ<script type="math/tex" id="MathJax-Element-23">\lambda</script>，并记

C=1λ <script type="math/tex" id="MathJax-Element-24">C=\frac{1}{\lambda}</script>。所以支持向量机的误差函数为：

J (θ) = C \sum i = 1 m [y (i) C o s t 1 (θ T x (i)) + (1 - y (i)) C o s t 0 (θ T x (i))] + 1 2 \sum j = 1 n θ 2 j

C <script type="math/tex" id="MathJax-Element-26">C</script> 和逻辑回归中的

λ<script type="math/tex" id="MathJax-Element-27">\lambda</script> 的功能是一样的，同样是为了控制 欠拟合与 过拟合之间的平衡。从 SVM 的误差函数中我们可以看出，如果要最小化误差，即使第一个求和项为0。即最优化支持向量机，就需要使得参数

θ <script type="math/tex" id="MathJax-Element-28">\theta</script> 对于训练集中的每组样本都要达到：当

y=1 <script type="math/tex" id="MathJax-Element-29">y=1</script> 时

θTx(i)≥1 <script type="math/tex" id="MathJax-Element-30">\theta^Tx^{(i)} \ge1</script>；当

y=0 <script type="math/tex" id="MathJax-Element-31">y=0</script> 时

θTx(i)≤−1 <script type="math/tex" id="MathJax-Element-32">\theta^Tx^{(i)} \le -1</script>。另外，后面的求和项，即惩罚项（正则化项），是为了使训练得到的

θ <script type="math/tex" id="MathJax-Element-33">\theta</script> 比较的小，如此一来，我们对

θTx(i) <script type="math/tex" id="MathJax-Element-34">\theta^Tx^{(i)}</script> 的约束条件就造成了最大间隔分类的效果。下面会具体解释最大间隔。

2.什么是大间隔(Large Margin Intuition)

都说 SVM 是一个大间隔分类器，现在就来讲一讲什么是大间隔。

在误差函数 J(θ) <script type="math/tex" id="MathJax-Element-35">J(\theta)</script> 中，如果我们将 C <script type="math/tex" id="MathJax-Element-36">C</script> 的值设置为一个非常大的数，那么误差函数将会给 θ<script type="math/tex" id="MathJax-Element-37">\theta</script> 加以约束使得

A = \sum i = 1 m [y (i) C o s t 1 (θ T x (i)) + (1 - y (i)) C o s t 0 (θ T x (i))] = 0

那么，现在反过来想，既然 C <script type="math/tex" id="MathJax-Element-39">C</script> 非常大，就会使得 A=0<script type="math/tex" id="MathJax-Element-40">A=0</script>，要使得 A=0 <script type="math/tex" id="MathJax-Element-41">A=0</script>，我们就需要在训练过程中对 θ <script type="math/tex" id="MathJax-Element-42">\theta</script> 做如下约束：

1）如果 y=1 <script type="math/tex" id="MathJax-Element-43">y=1</script>，要求 θTX≥1 <script type="math/tex" id="MathJax-Element-44">\theta^TX \ge 1</script>，（不仅是 θTX≥0 <script type="math/tex" id="MathJax-Element-45">\theta^TX \ge 0</script>）；
2）如果 y=0 <script type="math/tex" id="MathJax-Element-46">y=0</script>，要求 θTX≤−1 <script type="math/tex" id="MathJax-Element-47">\theta^TX \le -1</script>，（不仅是 θTX<0 <script type="math/tex" id="MathJax-Element-48">\theta^TX<0</script>）。

（回忆一下前面，上面这个约束以 1 作为阈值是因为 Cost1(θTx(i))=max(0,K(1−z)),Cost0(θTx(i))=max(0,K(1+z)) <script type="math/tex" id="MathJax-Element-49">Cost_1(\theta^Tx^{(i)})=max(0,K(1-z))\,,Cost_0(\theta^Tx^{(i)})=max(0,K(1+z))</script>，所以上面的约束以 1 作为阈值才能使 A=0 <script type="math/tex" id="MathJax-Element-50">A=0</script>）。

好了，通过设置非常大的正则化参数 C <script type="math/tex" id="MathJax-Element-51">C</script>，再加上上面对参数 θ<script type="math/tex" id="MathJax-Element-52">\theta</script> 的约束，我们使得 A=0 <script type="math/tex" id="MathJax-Element-53">A=0</script>，那么，误差函数 J(θ) <script type="math/tex" id="MathJax-Element-54">J(\theta)</script> 可以简化为如下形式：

J (θ) = C \cdot 0 + 1 2 \sum j = 1 n θ 2 j = 1 2 \sum j = 1 n θ 2 j

和逻辑回归不同的是，如下图所示，SVM 的决策边界会最大限度地离正样本和负样本尽可能地远。决策边界和离决策边界最近的那个样本之间的距离就称为 间隔(margin)。这也正是 SVM 被称为大间隔分类器的原因。

需要注意的是，仅当

C <script type="math/tex" id="MathJax-Element-56">C</script> 非常大是，才会有“大间隔分类”的效果。同时，如果有一些样本太偏离大多数样本的总体位置，可以减小

C<script type="math/tex" id="MathJax-Element-57">C</script> 的值来防止过拟合。

可能对于上面这个不太像解释的解释还是感到很疑惑，其实大间隔就如上图中所示的一样，支持向量机的决策边界会在正负样本之间离正负样本尽可能的远。下面来看其中的数学原理。

3.最大间隔分类背后的数学原理(Mathematics Behind Large Margin Classification)

先来看看什么是向量的内积。假如我们有两个向量:

u = [u 1 u 2], v = [v 1 v 2]

v <script type="math/tex" id="MathJax-Element-59">v</script> 的长度为

‖v‖<script type="math/tex" id="MathJax-Element-60">\Arrowvert v\Arrowvert</script>，它表示从原点到点

(v1,v2) <script type="math/tex" id="MathJax-Element-61">(v_1,v_2)</script> 的直线距离。由毕达哥拉斯定理可知，向量

v <script type="math/tex" id="MathJax-Element-62">v</script> 的长度为

v=v21+v22‾‾‾‾‾‾‾√<script type="math/tex" id="MathJax-Element-63">v=\sqrt{v_1^2+v_2^2}</script>。我们知道

vT⋅u=‖v‖cosα‖u‖ <script type="math/tex" id="MathJax-Element-64">v^T\cdot u=\Arrowvert v\Arrowvert\cos\alpha\Arrowvert u\Arrowvert</script>，其中

α <script type="math/tex" id="MathJax-Element-65">\alpha</script> 为向量

v <script type="math/tex" id="MathJax-Element-66">v</script> 和

u<script type="math/tex" id="MathJax-Element-67">u</script> 的夹角：

如上图，我们把

v <script type="math/tex" id="MathJax-Element-68">v</script> 在

u<script type="math/tex" id="MathJax-Element-69">u</script> 上的投影

‖v‖cosα <script type="math/tex" id="MathJax-Element-70">\Arrowvert v\Arrowvert cos\alpha</script> 记为

p <script type="math/tex" id="MathJax-Element-71">p</script>。所以：

vT⋅u=‖v‖cosα‖u‖=p⋅‖u‖=u1v1+u2v2<script type="math/tex" id="MathJax-Element-72">v^T\cdot u=\Arrowvert v\Arrowvert\cos\alpha\Arrowvert u\Arrowvert=p\cdot \Arrowvert u\Arrowvert=u_1v_1+u_2v_2</script>，需要注意的是，如果它们的夹角大于 90°，那么向量的内积将为负值，因为

cosα<0 <script type="math/tex" id="MathJax-Element-73">cos\alpha<0</script>。

内积就讲这么多，相信大家在高中都学过。现在我们回到上一节，回忆一下，在使得 A=∑mi=1[y(i)Cost1(θTx(i))+(1−y(i))Cost0(θTx(i))]=0 <script type="math/tex" id="MathJax-Element-74">A=\sum_{i=1}^m \left[ y^{(i)}Cost_1(\theta^Tx^{(i)})+(1-y^{(i)})Cost_0(\theta^Tx^{(i)})\right]=0</script> 之后，误差函数简化为 J(θ)=C⋅0+12∑nj=1θ2j=12∑nj=1θ2j <script type="math/tex" id="MathJax-Element-75">J(\theta)=C\cdot0+\frac{1}{2} \sum_{j=1}^n\theta_j^2=\frac{1}{2} \sum_{j=1}^n\theta_j^2</script>，可以改写为：

J (θ) = 1 2 \sum j = 1 n θ 2 j = 1 2 (θ 21 + θ 22 + . . . + θ 2 n) = 1 2 (θ 21 + θ 22 + . . . + θ 2 n ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ \sqrt) 2 = 1 2 ‖ θ ‖ 2

θ <script type="math/tex" id="MathJax-Element-77">\theta</script> 的长度。同样地，我们有:

x (i) θ T = p (i) \cdot ‖ θ ‖ = θ 1 x (i) 1 + θ 2 x (i) 2 + . . . + θ n x (i) n

x(i) <script type="math/tex" id="MathJax-Element-79">x^{(i)}</script> 投影到参数向量

θ <script type="math/tex" id="MathJax-Element-80">\theta</script> 上。所以，我们在上一节中提到的约束条件就变为：

1）如果 y=1 <script type="math/tex" id="MathJax-Element-81">y=1</script>，要求 p(i)⋅‖θ‖≥1 <script type="math/tex" id="MathJax-Element-82">p^{(i)}\cdot\Arrowvert\theta\Arrowvert \ge 1</script>；
2）如果 y=0 <script type="math/tex" id="MathJax-Element-83">y=0</script>，要求 p(i)⋅‖θ‖≤−1 <script type="math/tex" id="MathJax-Element-84">p^{(i)}\cdot\Arrowvert\theta\Arrowvert \le -1</script>。

由于在训练过程中， θ <script type="math/tex" id="MathJax-Element-85">\theta</script> 会变得很小，而又必须满足上述的约束条件，所以 p(i)=‖x(i)‖cosα <script type="math/tex" id="MathJax-Element-86">p^{(i)}=\Arrowvert x^{(i)}\Arrowvert cos\alpha</script> 将会变得尽可能的大，因为 ‖x(i)‖ <script type="math/tex" id="MathJax-Element-87">\Arrowvert x^{(i)}\Arrowvert</script> 为常量，所以在训练过程中，参数向量 θ <script type="math/tex" id="MathJax-Element-88">\theta</script> 与各个训练样本特征值向量 x(i) <script type="math/tex" id="MathJax-Element-89">x^{(i)}</script> 的夹角会越来越小。我们知道，训练完成时，决策边界是一条满足 θ1x1+θ2x2+...+θnxn=0 <script type="math/tex" id="MathJax-Element-90">\theta_1x_1+\theta_2x_2+...+\theta_nx_n=0</script> 的曲线或者直线，所以向量 θ <script type="math/tex" id="MathJax-Element-91">\theta</script> 和各个训练样本 x(i) <script type="math/tex" id="MathJax-Element-92">x^{(i)}</script> 是尽可能保持垂直的（任意维数），从而导致决策边界会离正负样本尽可能地远。（读者可以自行画图体验一下。）

二、核函数(Kernels)

用markdown编辑器写数学公式，只要篇幅一长，编写就会很卡，所以核函数另起一篇。先留个位置在这里。

以上就是支持向量机的大概内容（不包括核函数），核函数请参考上面链接的文章
如有错误，期望您能纠正，留言或者加入QQ群

——–转载请注明出处，谢谢——–

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

英伟达Cosmos 3物理AI发布：虚实世界打通，加拿大砸5亿加元抢AI人才

昨天结束的COMPUTEX上，黄仁勋说了一句话我很认同——"有用的人工智能已经到来"。Cosmos 3+加拿大国家战略+腾讯工具集，三条线在同一天被点亮，这意味着AI产业正在从"实验期"进入"基建期"。就像2010年智能手机改变了所有行业，物理AI会改变所有与"实物"打交道的行业——制造、物流、建筑、医疗、农业。机器人、自动驾驶、工业仿真——这些"需要理解真实世界物理规则"的领域，一夜之间有了基础

DAMO开发者矩阵

SMD：一个 Spotify 音乐下载工具

SMD是一个开源的Spotify音乐下载工具，提供GUI、CLI和Telegram机器人三种使用方式。该项目支持解析并下载来自Spotify、Deezer、YouTube Music等平台的单曲、专辑和播放列表，还能通过关键词搜索音乐。用户需安装Python依赖后通过命令行操作，可指定保存路径。目前因版权问题处于冻结状态，GUI版本已停用，开发者提供了CLI版本作为替代。该项目基于Python开发

DAMO开发者矩阵

方向盘后的“贾维斯”：具身智能与大模型，正在让汽车活过来

这种物理反馈不仅让交互变得生动，更是AI理解物理世界的基础——就像人类通过触觉和视觉来感知危险一样，拥有“身体”的汽车才能真正理解什么是碰撞，什么是安全边界。在生死攸关的毫秒之间，本地大脑的可靠性，是汽车具备“生命感”的安全底线。这意味着，当汽车遇到前方道路临时封闭、交警手势指挥等复杂长尾场景时，它不再依赖死板的代码规则，而是能像人类一样，理解“封路绕行”的因果关系，自主推理出可行路径。从“听令办