leboop

机器学习之支持向量机SVM（完整版）

1 支持向量机简介

2 线性可分支持向量机

2.1 什么是线性可分

2.2 什么是几何间隔

2.3 最大几何间隔分离超平面

2.4 支持向量和最大几何间隔

3 线性支持向量机

3.1 支持向量

4 KKT条件和对偶问题

4.1 线性可分支持向量机

4.2 线性支持向量机

5 非线性支持向量机

5.1 非线性分类问题

5.2 核函数

6 序列最小最优化算法

6.1 误差

6.2 目标函数

6.3 约束条件

完善中…………………………如果觉得对您有帮助，赏个赞！有什么好的建议，请在评论区留言。一并感谢其他博主的文章，文末进行了引用。

1 支持向量机简介

支持向量机（Support Vector Machine，简称SVM)是一款非常强大的分类模型，它曾经是最好的监督式机器学习模型，甚至被称为“万能分类器”，之所以如此“万能”，是因为它有着丰富的数学理论基础作为支撑。其涉及的理论基础非常复杂，为此我单独整理了一篇文章介绍它的理论基础，包括KKT条件和对偶理论，具体参见《机器学习之支持向量机SVM（理论基础）》。支持向量机最简单的应用是作为一个二分类模型的线性分类器；它还可以借助于核函数，使之成为实质上的非线性分类器；同样，支持向量机可以使用One-vs.-all方法，从二元分类问题扩展到多元分类问题。这也决定了支持向量机模型的构建由简至繁的过程：

（1）当训练数据线性可分时，通过硬间隔最大化（hard margin maximization)，学习一个线性分类器，即线性可分支持向量机，又称为硬间隔支持向量机；

（2）当训练数据近似线性可分时，通过软间隔最大化（soft margin maximization)，也学习一个线性分类器，即线性支持向量机，又称为软间隔支持向量机；

（3）当训练数据线性不可分时，通过使用核函数及软间隔最大化，学习一个非线性支持向量机。

本文按照上述思路依次介绍这三类支持向量机、核函数及一种快速学习算法——序列最小最优化算法（简称SMO)。

一般地，先假设我们有个数据，每个数据由个特征组成，下表给出了数据的特征和该数据所属的类别，如下：

	feature_1	feature_2		feature_n	value
1	$x_{11}$	$x_{12}$	...	$x_{1n}$	$y_1\in \{c_1,c_2,...,c_k\}$
2	$x_{21}$	$x_{22}$	...	$x_{2n}$	$y_2\in \{c_1,c_2,...,c_k\}$
. . .	. . .	. . .		. . .	. . .
m	$x_{m1}$	$x_{m2}$	...	$x_{mn}$	$y_m\in \{c_1,c_2,...,c_k\}$

$x_{ij}$ 表示第个数据的第个特征， $\{c_1,c_2,...,c_k\}$ 表示个类别，对于只有两个类别的情况，即，简记为 $\{1,-1\}$ ，1表示正类，-1表示负类。依然采用《机器学习之矩阵微积分及其性质》中的符号约定，记 $\mathbf{x_i}=(x_{i1},x_{i2},...,x_{in})^T$ 表示第个数据， $\mathbf{y}=(y_1,y_2,...,y_m)^T$ 。

我们的任务是根据表中的数据学习到一个支持向量机，然后使用该向量机对新的数据进行分类。下面我们从只有两个类别（）的线性可分支持向量机说起。

2 线性可分支持向量机

2.1 什么是线性可分

从字面上来看，“线性可分”包含了两个含义，第一是线性：学过平面几何的读者对它应该不会感到陌生，平面中的直线相对于平面来说就是线性的；第二是可分：顾名思义是指训练数据可以被分成两个类别。根据平面几何的知识，我们知道，平面中的任意一条直线都将整个平面分成了三个部分：直线的上侧、下侧和直线上，如图：

图1 线性可分示意图

图中黄色方块表示类中的数据，蓝色圆点表示类中的数据，直线明确地将这两类数据点分开了，称之为线性可分。我们来给出它的数学表述。假设直线的法向量（与直线垂直的非零向量称为该直线的法向量）为 $\mathbf{w}=(w_1,w_2)^T$ ，直线上的一个固定点为，由平面几何知识可知，过定点且与 $\mathbf{w}$ 垂直的直线是唯一的。下面推导该直线的方程：

在直线上任意取一点，显然以为始点，为终点的向量 $\mathbf{a}=(x-x_0,y-y_0)^T$ 与直线法向量 $\mathbf{w}$ 垂直，由向量内积得到 $\mathbf{w\cdot a}=0$ ，展开后得到直线的方程为。如果令（常数），那么直线的方程可以简化为：，对于平面中的任意一点，

（1）如果点在直线的上侧，满足，这里大于0不失一般性，因为直线上侧的点与直线的法向量所指方向同侧，如果直线的法向量指向下侧，那么对于直线上侧的点就满足；

（2）如果点在直线上，满足；

（3）如果点在直线的下侧，满足。

所以，对于二维平面上的线性可分，有如下的数学表述：

存在一条直线：，对于某一类中的数据点都满足，而对于另外一个类中的数据点都满足。称数据集在二维平面中是线性可分的，该直线称为分离直线。

对于三维空间，同样有类似的线性可分的概念，空间中的平面也将整个空间分成了三个部分：平面的上方、下方和平面上，空间中的平面也是由一个固定点和该平面的法向量（与平面垂直的非零向量）唯一确定，同样可以推导出空间平面的方程为：，其中 $\mathbf{w}=(w_1,w_2,w_3)^T$ 为该平面的法向量，为常数。所以空间中的线性可分，也有类似的数学表述：

存在一个平面 $\pi$ ：，对于某一类中的点都满足，对于另外一个类中的点都满足。称数据集在3维空间中是线性可分的，该平面称为分离平面。

对于维空间，由个特征构成的数据正好与维空间中的点一一对应。假设维非零向量 $\mathbf{w}=(w_1,w_2,...,w_n)^T$ ，空间中任意点 $\mathbf{x}=(x_1,x_2,...,x_n)^T$ 代入下面的式子：

，

只可能有如下三种情况：

，，。

也就是说方程将维空间分成了三个部分（大于0，等于0，小于0）。该方程构成维空间中的平面，称之为超平面。对于维空间中的线性可分，就可以如下表述：

存在一个超平面 $\pi$ ：，对于某一类中的点都满足，对于另外一个类中的点都满足。称数据集在维空间中是线性可分的，该超平面称为分离超平面。

超平面方程，可以表示成矩阵形式： $\mathbf{w}^T \mathbf{x}+b=0$ 。

由以上的分析可知，对于表中的数据 $\mathbf{x_i}=(x_{i1},x_{i2},...,x_{in})^T$ ，如果 $\mathbf{w}^T \mathbf{x_i}+b>0$ ，数据 $\mathbf{x_i}$ 就属于类，如果 $\mathbf{w}^T \mathbf{x_i}+b<0$ ，数据 $\mathbf{x_i}$ 就属于类。

2.2 什么是几何间隔

我们还是以二维情况来看，如图：

图2 多条分离直线

图中绘制了三条将蓝色和黄色数据点分开的直线，分别为绿色、红色和蓝色。那么究竟哪条是比较好的或者说最好的呢？所谓比较好，直观地说就是能够非常明确地将两类数据点分开。直观来看，红色直线分离更明确。绿色和蓝色直线之所以没有红色直线分离明确，是因为它们离相应的数据点太近了。既然靠蓝色点和黄色点太近都不好，那么处在“中间位置”当然是最好的选择。如何从数学角度来描述“靠的太近”呢？距离当然可以堪此重任。在维空间中，任意一点 $\mathbf{x_0}=(x_1,x_2,...,x_n)^T$ 到超平面方程 $\mathbf{w}^T \mathbf{x}+b=0$ 的距离如下定义：

$d=\frac{|w_1x_1+w_2x_2+...+w_nx_n+b|}{\sqrt{w_1^2+w_2^2+...+w_n^2}}$ ,

用矩阵表示如下：

$d=\frac{|\mathbf{w}^T \mathbf{x_0}+b|}{\sqrt{\mathbf{w}^T\mathbf{w}}}$ .

如果记 $||\mathbf{w}||=\sqrt{\mathbf{w}^T\mathbf{w}}$ ，还可以写成

$d=\frac{|\mathbf{w}^T \mathbf{x_0}+b|}{||\mathbf{w}||}$ 。

这里， $||\mathbf{w}||$ 称之为向量 $\mathbf{w}$ 的2-范数，它表示向量 $\mathbf{w}$ 的长度，可以理解成平面向量的长度在维空间中的推广。有了距离以后，就可以度量数据点到分离超平面的几何间隔了，如图：

因为距离是个非负数，对于像、和这样被正确分类的数据点，直接使用距离度量是没有问题的，距离越大，说明与分离超平面越远，表示分离越明确。但是，对于像点这样被错误分类的数据点，直接使用距离来度量，就不能反映出分类错误的信息了，它的距离度量应当要包含一个表示错误分类的“标记”，以与正确分类区分，同时也要度量偏离分离超平面的程度。对于任意一个数据点 $\mathbf{x_i}$ ，取值为1和-1，正好可以作为标记，所以我们可以如下定义一个数据点 $\mathbf{x_i}$ 到分离超平面 $\pi$ ： $\mathbf{w}^T \mathbf{x}+b=0$ 的距离：

$\gamma_i =\frac{y_i(\mathbf{w}^T \mathbf{x_i}+b)}{||\mathbf{w}||}$ ，

这个距离称之为数据点到分离超平面的几何间隔。几何间隔 $\gamma_i$ 取值 $(-\infty,+\infty)$ ，当 $\gamma_i >0$ 时，表示数据 $\mathbf{x_i}$ 被正确分类，绝对值 $|\gamma_i |$ 越大，表示 $\mathbf{x_i}$ 离分离超平面越远，分离越明确；当 $\gamma_i <0$ 时，表示数据点 $\mathbf{x_i}$ 被错误分类，绝对值 $|\gamma_i |$ 越大，表示 $\mathbf{x_i}$ 离分离超平面越远，分离越错误。例如，对于点，它在分离超平面的下侧，所以 $\mathbf{w}^T \mathbf{x_i}+b<0$ ，而类别，那么点到分离超平面的几何间隔 $\gamma_D$ 是一个负值，从值的正负就可以看出点是被错误分类的。所以

几何间隔不仅度量了分类的正确性，还度量了分离的明确程度。

有了数据点到分离超平面的几何间隔，就可以如下定义一个类到分离超平面的几何间隔了：

类中所有的点到分离超平面的几何间隔的最小值，称为该类到分离超平面的几何间隔，即 $\min_i\gamma _i$ 。

因为类中的点是有限的，所以类到分离超平面的几何间隔是必定存在的。

2.3 最大几何间隔分离超平面

所谓最大几何间隔分离超平面是指能够使两个类到分离超平面的几何间隔达到最大的超平面。下面我们来详细推导最大几何间隔的分离超平面，以二维平面示意帮助理解，推导同样适用于维情况，如图：

假设红色直线表示最大几何间隔分离超平面，方程为 $\mathbf{f}^T \mathbf{x}+c=0$ ，黄色点代表1类，蓝色点代表-1类，我们已经知道，类1中离超平面最近的点是存在的（可能多个），假设直线表示的就是过该点且与超平面平行（这里平行理解成法向量共线）的超平面；同样的，-1类中离超平面最近的点也是存在的，假设直线表示的是过该点且与超平面平行的超平面，并假设1类和-1类到超平面几何间隔均为。如果超平面是最大几何间隔分离超平面，必须满足：

（1）在两条直线的中间，这也是为什么要假设1类和-1类到超平面几何间隔均为；

（2）几何间隔最大（等价于最大，使用更能反映两类之间的空隙，图中绿色和蓝色直线的中间地带）；

（3）1类和-1类中的所有数据点到超平面的几何间隔都要大于等于（保证分类正确性）；

转换成优化问题就是：

$\max_{\mathbf{w},b}2d$

$s.t.\: \: \: \frac{y_i(\mathbf{f}^T \mathbf{x_i}+c)}{||\mathbf{f}||}\geq d,\: \: \:i=1,2,...,m$

对该问题做些简化：因为数据是线性可分的，而且法向量 $\mathbf{f}$ 不为 $\mathbf{0}$ ，所以，且 $||\mathbf{f}||\neq 0$ ，令 $\mathbf{w}=\frac{1}{d||\mathbf{f}||}\mathbf{f}$ ，则 $||\mathbf{w}||=||\frac{1}{d||\mathbf{f}||}\mathbf{f}||=\frac{1}{d||\mathbf{f}}||\mathbf{f}||=\frac{1}{d}$ ，即 $d=\frac{1}{||\mathbf{w}||}$ ，

则优化问题的目标函数变为： $2d=\frac{2}{||\mathbf{w}||}$ ；对于约束条件，再令 $b=\frac{c}{d||\mathbf{f}||}$ ，约束条件变为： $y_i(\mathbf{w}^T\mathbf{x}_i+b)\geqslant 1$ 。所以原优化问题变为：

$\max_{\mathbf{w},b}\frac{2}{||\mathbf{w}||}$

$s.t.\: \: \: y_i(\mathbf{w}^T\mathbf{x}_i+b)\geqslant 1,\: \: \:i=1,2,...,m$

由于优化问题中的范数 $||\mathbf{w}||=\sqrt{\mathbf{w}^T\mathbf{w}}$ 出现在分母中且包含平方根，处理起来不太方便，可以等价为如下形式：

$\min_{\mathbf{w},b}\frac{1}{2}||\mathbf{w}||^2$

$s.t.\: \: \: y_i(\mathbf{w}^T\mathbf{x}_i+b)\geqslant 1,\: \: \:i=1,2,...,m$

后面我们简称该约束优化问题为LSCOP问题。这里有两个隐含的问题需要解释下：

（1）我们刚开始假设的方程是 $\mathbf{f}^T \mathbf{x}+c=0$ ，但通过求LSCOP问题并不能直接得到 $\mathbf{f},c$ 。不过没关系，将 $\mathbf{f}^T \mathbf{x}+c=0$ 两边除以 $d||\mathbf{f}||$ ，得到 $\frac{\mathbf{f}^T}{d||\mathbf{f}||}\mathbf{x}+\frac{c}{d||\mathbf{f}||}=0$ ，由前面的证明可知， $\mathbf{w}=\frac{1}{d||\mathbf{f}||}\mathbf{f}$ ， $b=\frac{c}{d||\mathbf{f}||}$ ，所以得到 $\mathbf{w}^T \mathbf{x}+b=0$ ，这就是说 $\mathbf{w}^T \mathbf{x}+b=0$ 和 $\mathbf{f}^T \mathbf{x}+c=0$ 表示的是同一个超平面。实质上， $\mathbf{w}^T \mathbf{x}+b=0$ 是通过将原方程的法向量先单位化，再变成 $\frac{1}{d}$ 倍得到。

（2）虽然目标函数中没有，但LSCOP问题是关于 $\mathbf{w}$ 和的约束优化问题。

可以从数学上严格证明：

对于线性可分的数据，约束问题最优解存在且唯一。

（参见《机器学习之支持向量机SVM（理论基础）》）

所以我们就可以根据如下步骤求解几何间隔最大分离超平面了：

（1）根据给定的数据，构建LSCOP问题：

$\min_{\mathbf{w},b}\frac{1}{2}||\mathbf{w}||^2$

$s.t.\: \: \: y_i(\mathbf{w}^T\mathbf{x}_i+b)\geqslant 1,\: \: \:i=1,2,...,m$

（2）求解步骤（1）中的约束优化问题，得到最优解 $\mathbf{w^*},b^*$ ，由此得到最大几何间隔分离超平面 $\mathbf{w^*}^T \mathbf{x}+b^*=0$ ；

（3）对 $\mathbf{\bar{x}}$ 进行预测：如果 $\mathbf{w^*}^T \mathbf{\bar{x}}+b^*>0$ ，则 $\mathbf{\bar{x}}$ 分到类1中，如果 $\mathbf{w^*}^T \mathbf{\bar{x}}+b^*<0$ ，则 $\mathbf{\bar{x}}$ 分到类-1中。

2.4 支持向量和最大几何间隔

根据上面的证明，超平面和上的数据点到最大几何间隔分离超平面的距离最近而且等于，也就是说如果LSCOP问题的最优解为 $\mathbf{w^*},b^*$ ，那么超平面和上的数据点 $\mathbf{x_i}$ 正好使不等式约束条件取等号，即 $y_i(\mathbf{w^*}^T\mathbf{x}_i+b^*)-1=0$ 。这些点称之为支持向量， $\mathbf{w^*}^T \mathbf{x}+b^*=1$ 和 $\mathbf{w^*}^T \mathbf{x}+b^*=-1$ 称之为支持超平面。所以支持向量分布在支撑超平面上。如图：

图中被红色圆圈标记的点就是支持向量，绿色直线就是类1的支持超平面，蓝色直线就是-1类的支持超平面。其中1类中有一个支持向量，-1类中有两个支持向量，它们离最大几何间隔分离超平面最近。另一方面，根据上面的证明， $d=\frac{1}{||\mathbf{w}||}$ ，所以很容易得到最大几何间隔为 $\frac{2}{||\mathbf{w}||}$ 。可以很容易证明绿色直线方程为 $\mathbf{w}^T \mathbf{x}+b=1$ ，蓝色直线方程为 $\mathbf{w}^T \mathbf{x}+b=-1$ 。

如果去掉图中支持向量以外的数据点，你会发现，最大几何间隔分离超平面并不会变。实际上，它是由支持向量决定的，这也是支持向量机名字的由来。

对于线性可分支持向量机中的支持向量的理解：

（1）支持向量是离最大几何间隔超平面最近的数据点，而且正好分布在两个支持超平面上；

（2）使不等式约束条件取等号的数据点 $\mathbf{x}_i$ 就是支持向量，反之， $\mathbf{x}_i$ 是支持向量一定使不等式约束条件取等号；

（3）支持向量决定了最大几何间隔超平面，其他数据点无关紧要，也就是说去除后，不影响最大几何间隔超平面；

如图，黄色点表示1类，蓝色点表示-1类，你可以口算出该问题的几何间隔最大分离超平面吗？它的支持向量是什么？最大几何间隔又是多少？

3 线性支持向量机

3.1 引入松弛变量

对于线性可分的数据集，对应的约束问题存在唯一的最优解，但在实际应用中，绝大部分的数据集是线性不可分的，前面建立的线性可分支持向量机几乎没有实用价值。如图：

图中有一个蓝色点落在了四个黄色点围成的四边形中，对于这样的数据集，无法找到一条直线将它们分开。那么此时LSCOP问题的约束条件不可能满足，也就是说LSCOP问题无解。但我们还是想使用直线或者超平面来分离这些数据点，如何解决呢？事实上，在实际问题中，允许有少量误分类，在这种宽松条件下，分离超平面得使大部分数据点能够正确分类，并且错误分类的数据点尽可能少或者离分离超平面尽量近些。我们通过为每个数据点“赋予”一个松弛变量 $\xi_i$ ，LSCOP问题变为：

$\min_{\mathbf{w},b,\xi_i}\frac{1}{2}||\mathbf{w}||^2+C\sum_{i=1}^m\xi _i$

$s.t.\; \; y_i(\mathbf{w}^T\mathbf{x}_i+b)\geqslant 1-\xi_i,\; \; \; i=1,2,...,m$

$\xi_i\geq 0,\; \; \; i=1,2,...,m$

其中，称之为惩罚系数，一般由实际问题决定，值越大，对误分类的惩罚越大，C值越小，对误分类的惩罚越小，怎么理解呢？假设一种极端情况：，那么目标函数就和松弛变量 $\xi_i$ 无关了，此时约束优化问题就允许任意的错误分类了，也就是说对误分类没有惩罚，因为目标函数第二项无论 $\xi_i$ 取多大的值，第二项始终为0，也是最小，所以，C值越小，对误分类的惩罚越小。松弛变量 $\xi_i$ 说是“赋予”给每个数据点的，是指对于每个数据点，都有一个 $\xi_i$ 与之对应，具体值与它到分离超平面的几何间隔相关，后面在讲线性支持向量机的支持向量时具体讲解。通过引入松弛变量 $\xi_i$ 后，约束条件 $y_i(\mathbf{w}^T\mathbf{x}_i+b)\geqslant 1-\xi_i$ 相应被放宽了，一方面，当 $\xi_i$ 足够大时，可以保证每个数据点都满足相应的约束条件，也就保证了约束条件有解，另一方面，目标函数最小，保证了 $\xi_i$ 不会无限的大。对于目标函数 $\frac{1}{2}||\mathbf{w}||^2+C\sum_{i=1}^m\xi _i$ 最小化，包含两层含义：使 $\frac{1}{2}||\mathbf{w}||^2$ 尽量小，即几何间隔尽量大；使 $C\sum_{i=1}^m\xi _i$ 尽量小，即误分类数据点的个数尽量小或者误分类的点到分离超平面的几何间隔尽可能小，惩罚系数正好用于调和二者关系。（暂时还没有找到更好地几何解释，先这么理解，以后找到补上）。

所以，在允许有误分类的情况下，我们就可以如下求解线性支持向量机的几何间隔最大分离超平面了：

（1）根据数据点，构建优化问题：

$\min_{\mathbf{w},b,\xi_i}\frac{1}{2}||\mathbf{w}||^2+C\sum_{i=1}^m\xi _i$

$s.t.\; \; y_i(\mathbf{w}^T\mathbf{x}_i+b)\geqslant 1-\xi_i,\; \; \; i=1,2,...,m$

$\xi_i\geq 0,\; \; \; i=1,2,...,m$

（2）求解步骤（1）中的约束优化问题，得到最优解 $\mathbf{w^*},b^*$ ，由此得到几何间隔最大分离超平面 $\mathbf{w^*}^T \mathbf{x}+b^*=0$ ；

（3）对新数据 $\mathbf{\bar{x}}$ 进行预测：如果 $\mathbf{w^*}^T \mathbf{\bar{x}}+b^*>0$ ，则 $\mathbf{\bar{x}}$ 分到类1中，如果 $\mathbf{w^*}^T \mathbf{\bar{x}}+b^*<0$ ，则 $\mathbf{\bar{x}}$ 分到类-1中。

在支持向量机简介中说的硬间隔和软间隔，其实指的都是几何间隔，只不过前者针对的是线性可分的数据集，后者针对近似线性可分（允许有误差）数据集，所谓“软”即是约束条件放松的意思。

3.2 支持向量

我们知道，线性可分支持向量机中支持向量正好使不等式约束条件取等号，反之满足不等式约束条件取等号的数据点也是支持向量，它们分布在支持超平面上。同样的，使线性支持向量机不等式约束条件取等号的数据点，称之为线性支持向量机的支持向量。以二维情况为例，我们来看看它们的具体分布情况，如图：

假设不等式约束条件取等号，即 $y_i(\mathbf{w}^T\mathbf{x}_i+b)= 1-\xi_i$ ，注意到，做一下变换得到

$\frac{y_i(\mathbf{w}^T\mathbf{x}_i+b-y_i)}{||\mathbf{w}||}= \frac{-\xi_i}{||\mathbf{w}||}$ （1）

等式左边正好表示数据点 $\mathbf{x_i}$ 到对应的虚线的几何间隔，注意不是最大几何间隔分离超平面。例如，对于类1，对应的，左边简化为

$\frac{\mathbf{w}^T\mathbf{x}_i+b-1}{||\mathbf{w}||}$ ，

它表示黄色点到绿色虚线的几何间隔。所以，后面不失一般性，以类1来分析。将（1）式简化为

$\frac{\mathbf{w}^T\mathbf{x}_i+b-1}{||\mathbf{w}||}= \frac{-\xi_i}{||\mathbf{w}||}$

从这个等式我们可以看出，数据点 $\mathbf{x_i}$ 被赋予的松弛变量 $\xi_i$ 是与它到对应虚线的几何间隔相关的， $\xi_i$ 取相反数后，再除以 $||\mathbf{w}||$ 就是几何间隔了。我们下面分情况具体来看：

（1）当 $\xi_i=0$ 时，得到 $\mathbf{w}^T\mathbf{x}_i+b-1=0$ ，表示黄色点落在绿色虚线上。例如图中编号为3的黄色点；

（2）当 $0<\xi_i<1$ 时，得到 $-1<\mathbf{w}^T\mathbf{x}_i+b-1<0$ ，即 $\mathbf{w}^T\mathbf{x}_i+b-1<0$ 且 $0<\mathbf{w}^T\mathbf{x}_i+b$ ，表示黄色点在绿色虚线下方和红色实线上方，例如图中的编号为2的点；

（3）当 $\xi_i=1$ 时，得到 $\mathbf{w}^T\mathbf{x}_i+b=0$ ，表示黄色点落在红色实线上，例如图中编号为4的点；

（4）当 $\xi_i>1$ 时，得到 $\mathbf{w}^T\mathbf{x}_i+b-1<-1$ ，即 $\mathbf{w}^T\mathbf{x}_i+b<0$ ，表示数据点落在红色实线的下方，例如图中编号为1的两个黄色点；

根据以上分析，我们得到：

1类中的支持向量分布在它的支持超平面上或者下侧，-1类中的支持向量分布在它的支持超平面上或者上侧。

将这里的支持向量与线性可分支持向量机中的支持向量作对比后，发现除了支持超平面上的数据点是支持向量外，还包括两个支持超平面之间和被错误分类的数据点。

前面，在说完线性可分支持向量机和线性支持向量机后，都给了一个简易的求解最优解的算法，其实没什么用，因为并没有具体给出求解方法。但是针对原优化问题，现在已经有很多方法来求解了，不过要具备最优化理论的相关知识，我们这里不做过多的讨论。在众多的最优解求解的方法中，有一种方法不得不说，它通过简化或消除约束条件，得到一个容易求解且与原优化问题等价的优化问题。就是下面的KKT条件和对偶问题。

4 KKT条件和对偶问题

考虑如下一般形式的约束优化问题（constrained optimization problem）：

$\min_{\mathbf{x}\in \mathbb{R}^n}f(\mathbf{x})$ （1）

$s.t.\; \; g_i(\mathbf{x})\geq 0,i\in\tau=\{1,2,...,k\}$ （2）

$h_j(\mathbf{x})=0,j\in\varepsilon =\{1,2,...,l\}$ （3）

$\mathbf{x}\in D\sqsubseteq \mathbb{R}^n$ ，

我们先给出与该约束优化问题相关的一些概念和后文需要用到的一些记号，具体如下：

目标函数： $f(\mathbf{x})$ 称为目标函数，

约束函数： $g_i(\mathbf{x})$ 称为不等式约束函数， $h_j(\mathbf{x})$ 称为等式约束函数，不等式约束函数和等式约束函数统称约束函数；

定义域：表示约束函数的定义域；

不等式约束指标集： $\tau$ 称为不等式约束指标集；

等式约束指标集： $\varepsilon$ 称为等式约束指标集；

约束条件：（2）~（3）称为约束条件（constraints）；

可行解：满足约束条件的 $\mathbf{x}$ 称为该约束优化问题可行解，

可行域：所有可行解的集合称为可行域（feasible region），记为 $S=\{\mathbf{x}\in \mathbb{R}^n|g_i(\mathbf{x})\geq 0,h_j(\mathbf{x})=0,i\in\tau,j\in\varepsilon \}$ ，显然可行域是定义域的子集；

梯度向量：行向量 $(\frac{\partial g_i(\mathbf{x})}{\partial x_1},\frac{\partial g_i(\mathbf{x})}{\partial x_2},...,\frac{\partial g_i(\mathbf{x})}{\partial x_n})$ 称为函数 $g_i(\mathbf{x})$ 在 $\mathbf{x}$ 处的梯度向量，记为 $\bigtriangledown g_i(\mathbf{x})$ ， $\bigtriangledown g_i(\mathbf{x})$ 在 $\mathbf{x=x_0}$ 处的值记为 $\bigtriangledown g_i(\mathbf{x_0})$ 。对于梯度的定义，我们这里采用了《机器学习之矩阵微积分及其性质》中标量-向量求导的分子布局约定。部分书籍和文献使用列向量，但这并无影响，只是一种约定而已。

记

$\mathbf{g(x)}=\begin{bmatrix} g_1(\mathbf{x})\\ g_2(\mathbf{x})\\ \vdots\\ g_k(\mathbf{x}) \end{bmatrix}$

和

$\mathbf{h(x)}=\begin{bmatrix} h_1(\mathbf{x})\\ h_2(\mathbf{x})\\ \vdots\\ h_l(\mathbf{x}) \end{bmatrix}$

分别表示不等式约束函数 $g_i(\mathbf{x})$ 和等式约束函数 $h_j(\mathbf{x})$ 组成的向量函数。

对于一般形式的约束优化问题，我们有如下的KKT定理：

设是COP问题的可行域， $\mathbf{x}^*\in S$ 是COP问题的局部极小点，COP问题的目标函数 $f(\mathbf{x})$ 和所有约束函数 $g_i(\mathbf{x}),h_j(\mathbf{x})$ 在 $\mathbf{x}^*$ 处连续可微（一阶偏导数连续），且 $SFD(\mathbf{x^*},S)=LFS(\mathbf{x^*},S)$ ，则存在实数 $w_i\geq 0(i\in\tau)$ 和 $u_j(j\in\varepsilon )$ ，使得

$\bigtriangledown f(\mathbf{x}^*)=\sum_{i\in\tau}w_i\bigtriangledown g_i(\mathbf{x}^*)+\sum_{j\in\varepsilon }u_j\bigtriangledown h_j(\mathbf{x}^*)$

$w_ig_i(\mathbf{x}^*)=0,\; \; \forall i\in\tau$ .

对应的KKT条件为：

$\bigtriangledown f(\mathbf{x})=\sum_{i\in\tau}w_i\bigtriangledown g_i(\mathbf{x})+\sum_{j\in\varepsilon }u_j\bigtriangledown h_j(\mathbf{x})$ ，

$w_ig_i(\mathbf{x})=0,\; \; \forall i\in\tau$ ，

$w_i\geq 0(i\in\tau)$ ，

$\mathbf{g(x)}\geq \mathbf{0}$ ，

$\mathbf{h(x)}=\mathbf{0}$ .

接下来，我们再给出一般形式的约束优化问题的对偶问题。为什么要提出对偶问题呢？因为在很多情况下，原约束优化问题可能非常复杂，比如限制条件太多，通常无法求解，而对偶问题只有一个或几个简单的约束条件，相对容易求解。而且在满足一定的条件下，原约束优化问题的最小值和它的对偶问题的最大值是相等的。总之，对偶问题将原来在多个不等式约束和等式约束条件下的求最小值问题转换成了一个在单个或几个简单约束条件下求最大值的问题。为了与即将要给出的对偶问题区分，称一般形式的约束优化问题为非线性规划（NLP）的原始问题（primal problem）,简称PNLP问题。对偶问题是先通过定义了个拉格朗日函数，然后取拉格朗日函数的下确定定义的。我们具体来看，如下先定义一个Lagrange函数：

$L(\mathbf{x},\mathbf{w},\mathbf{u})=f(\mathbf{x})-\mathbf{w}^T\mathbf{g(x)}-\mathbf{u}^T\mathbf{h(x)}$ ， $\mathbf{x}\in D\sqsubseteq \mathbb{R}^n$ ， $\mathbf{w}\geq 0$

Lagrange函数中有三个量 $\mathbf{x},\mathbf{w},\mathbf{u}$ ， $\mathbf{x}$ 是原问题中的 $\mathbf{x}\in D\sqsubseteq \mathbb{R}^n$ ， $\mathbf{w},\mathbf{u}$ 是新引入的量，要求 $\mathbf{w}\geq 0$ 。通常 $\mathbf{w},\mathbf{u}$ 称为拉格朗日乘数。我们注意到，如果固定 $\mathbf{x}$ ，那么 $L(\mathbf{x},\mathbf{w},\mathbf{u})$ 是一个关于 $\mathbf{w}$ 和 $\mathbf{u}$ 的线性函数。有了拉格朗日函数（Lagrange function）的定义，下面我们就可以给出原始问题的对偶问题（dual problem）定义，如下：

$\max_{\mathbf{w,u}}\theta (\mathbf{w,u})$

$s.t.\; \; \mathbf{w}\geq \mathbf{0}$

其中 $\theta (\mathbf{w,u})=inf\{L(\mathbf{x},\mathbf{w},\mathbf{u})|\mathbf{x}\in D\}$ ，表示Lagrange函数对 $\mathbf{x}\in D$ 取下确界。PNLP问题的对偶问题简称DNLP问题。

关于KKT定理的证明和对偶问题的理论可以参见《机器学习之支持向量机SVM（理论基础）》。留意的读者已经注意到，KKT条件的第一条其实是对偶问题中拉格朗日函数对变量求偏导等于0。接下来我们分别来讨论线性可分支持向量机和线性支持向量机对应的KKT条件和对偶问题究竟是什么？

我们看到，对于一般形式的约束优化问题，KKT条件只是一个充分条件，当一个点是局部极小点时，并且约束问题在该极小点满足一定条件后，才可以得到KKT条件，但是反过来，当一个点满足KKT条件时，并不能得出它是极小点。好在，对于线性支持向量机和支持向量机的约束问题，它们都是一个凸二次规划问题，而且是一个严凸二次规划。有如下充要条件：

对于凸二次规划， $\mathbf{x_0}\in S$ 是局部极小点，当且仅当 $\mathbf{x_0}\in S$ 是全局极小点，当且仅当 $\mathbf{x_0}$ 满足KKT条件。

也有下面的对偶定理：

对于严格凸二次规划，原问题存在最优解 $\mathbf{x_0}$ 当且仅当对偶问题存在最优解 $\mathbf{(w_0,u_0)}$ ，而且原问题的目标函数最小值等于对偶问题目标函数的最大值。

关于它们的证明，有些复杂，也没必要去追究。所以我们后面的推导直接使用该定理。留心的读者，已经看到KKT条件的第一个条件就是拉格朗日函数在极小点偏导数为0。

4.1 线性可分支持向量机

我们再写一次线性可分支持向量机的约束问题：

$\min_{\mathbf{w},b}\frac{1}{2}||\mathbf{w}||^2$

$s.t.\: \: \: y_i(\mathbf{w}^T\mathbf{x}_i+b)\geqslant 1,\: \: \:i=1,2,...,m$

先构造如下Lagrange函数：

$L(\mathbf{w},b,\mathbf{a})=\frac{1}{2}\mathbf{w}^T\mathbf{w}-\sum_{i=1}^ma_i[y_i(\mathbf{w}^T\mathbf{x}_i+b)-1]$ ， $\mathbf{w}\in \mathbb{R}^n,b\in \mathbb{R}^1$ ，（1）

其中 $a_i\geq 0$ 是拉格朗日乘数，由《机器学习之矩阵微积分及其性质》中的标量-向量求导性质（5），（1）式对 $\mathbf{w}$ 求偏导得到：

$\frac{\partial L(\mathbf{w},b,\mathbf{a})}{\partial \mathbf{w}}=\mathbf{w}^T-\sum_{i=1}^ma_iy_i\mathbf{x_i}^T$ （2）

对求偏导属于标量-标量求导，得到：

$\frac{\partial L(\mathbf{w},b,\mathbf{a})}{\partial b}=\sum_{i=1}^ma_iy_i$ （3）

令（2）和（3）式等于0，得到KKT条件的第一条

$\mathbf{w}=\sum_{i=1}^ma_iy_i\mathbf{x_i}$ ， $\sum_{i=1}^ma_iy_i=0$ （4）

我们再将优化问题的约束条件和 $a_i\geq 0$ 写入KKT条件，得到线性可分支持向量机对应的KKT条件：

$\mathbf{w}=\sum_{i=1}^ma_iy_i\mathbf{x_i}$ ， $\sum_{i=1}^ma_iy_i=0$

$a_i[y_i(\mathbf{w}^T\mathbf{x}_i+b)-(1-\xi_i)]=0,\; \; \; i=1,2,...,m$

$y_i(\mathbf{w}^T\mathbf{x}_i+b)-1\geqslant 0,\; \; \; i=1,2,...,m$

$a_i\geq 0,\; \; \; i=1,2,...,m$

将（4）式代入（1）式得到Lanrange函数的最小值：

$L_{min}=-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^ma_ia_jy_iy_j\mathbf{x_i}^T\mathbf{x_j}+\sum_{i=1}^ma_i$ ，

根据对偶问题定义可知， $\theta (\mathbf{a})=inf\{L(\mathbf{w},b,\mathbf{a})|\mathbf{w}\in \mathbb{R}^n,b\in \mathbb{R}^1\}$ ，

所以 $\theta (\mathbf{a})=L_{min}=\sum_{i=1}^m\sum_{j=1}^ma_ia_jy_iy_j\mathbf{x_i}^T\mathbf{x_j}+\sum_{i=1}^ma_i$ ，

由对偶定理得到，线性可分支持向量机的对偶形式如下：

$\max_{\mathbf{a}}\: \: \theta (\mathbf{a})=-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^ma_ia_jy_iy_j\mathbf{x_i}^T\mathbf{x_j}+\sum_{i=1}^ma_i$ ，

$s.t.\; \; \mathbf{a}^T\mathbf{y}=0$ ，

$\mathbf{a}\geq \mathbf{0}$

其中第一个约束条件来源于（3），第二个约束条件来源于对偶问题的定义。

以上推导使用了矩阵求导性质，非常简洁和优美，极力推荐。

根据对偶定理，就可以如下求解线性可分支持向量机的几何间隔最大分离超平面了：

（1）根据给定数据，构造并求解约束优化问题：

$\max_{\mathbf{a}}\: \: \theta (\mathbf{a})=-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^ma_ia_jy_iy_j\mathbf{x_i}^T\mathbf{x_j}+\sum_{i=1}^ma_i$ ，

$s.t.\; \; \mathbf{a}^T\mathbf{y}=0$ ，

$\mathbf{a}\geq \mathbf{0}$

得到最优解 $\mathbf{a^*}$ 。事实上，可以断言最优解 $\mathbf{a^*}$ 中，一定存在分量，不然假设 $\mathbf{a^*}=\mathbf{0}$ ，由KKT条件 $\mathbf{w}=\sum_{i=1}^ma_i^*y_i\mathbf{x_i}$ ，得到 $\mathbf{w}=\mathbf{0}$ ，矛盾。所以存在分量。

（2）在最优解 $\mathbf{a^*}$ 中，选择。根据KKT条件，有

$a_j[y_j(\mathbf{w}^T\mathbf{x}_j+b)-1]= 0$ ，注意到，有 $a_j [y_j(\mathbf{w}^T\mathbf{x}_j+b)-y_j^2]= 0$ ，得到 $b=y_j-\mathbf{w^T}\mathbf{x_j}$ 。所以原问题的最有解 $(\mathbf{w^*},b^*)$ 可如下计算：

$\mathbf{w^*}=\sum_{i=1}^ma_i^*y_i\mathbf{x_i}$

$b^*=y_j-\mathbf{w^T}\mathbf{x_j}$

于是得到最大几何间隔分离超平面 $\mathbf{w^*}^T \mathbf{x}+b^*=0$ 。

（3）对 $\mathbf{\bar{x}}$ 进行预测：如果 $\mathbf{w^*}^T \mathbf{\bar{x}}+b^*>0$ ，则 $\mathbf{\bar{x}}$ 分到类1中，如果 $\mathbf{w^*}^T \mathbf{\bar{x}}+b^*<0$ ，则 $\mathbf{\bar{x}}$ 分到类-1中。

线性可分支持向量机对偶问题中也有支持向量的概念：

最优解 $\mathbf{a^*}$ 中的分量对应的 $\mathbf{x_i}$ 称为支持向量。

有读者肯定会疑问，对偶问题中定义的支持向量与原优化问题中定义的支持向量是一回事吗?

首先，我们看最优解 $\mathbf{a^*}$ 中，对应的数据点为 $\mathbf{x_i}$ ，由KKT条件

$a_i[y_i(\mathbf{w}^T\mathbf{x}_i+b)-1]= 0$ ，因为，得到

$y_i(\mathbf{w}^T\mathbf{x}_i+b)-1= 0$ ，

所以数据点为 $\mathbf{x_i}$ 是原问题定义的支持向量；反过来，原问题中定义的支持向量 $\mathbf{x_i}$ 是不是对应的最优解 $\mathbf{a^*}$ 中呢？其实我也不知道。

4.2 线性支持向量机

我们再写一次线性可分支持向量机的约束问题：

$\min_{\mathbf{w},b,\xi_i}\frac{1}{2}||\mathbf{w}||^2+C\sum_{i=1}^m\xi _i$

$s.t.\; \; y_i(\mathbf{w}^T\mathbf{x}_i+b)\geqslant 1-\xi_i,\; \; \; i=1,2,...,m$

$\xi_i\geq 0,\; \; \; i=1,2,...,m$

我们逐条来看，线性支持向量机的约束优化问题是否满足一般非线性优化问题KKT定理的条件：

（1）线性支持向量机是KKT定理中给出的一般形式的约束优化问题。只不过线性支持向量机的约束条件中有个 $g_i(\mathbf{x})$ ，没有 $h_j(\mathbf{x})$ 而已；

（2）可行域，就是满足约束条件

$s.t.\; \; y_i(\mathbf{w}^T\mathbf{x}_i+b)\geqslant 1-\xi_i,\; \; \; i=1,2,...,m$

$\xi_i\geq 0,\; \; \; i=1,2,...,m$

的 $(\mathbf{w},b,\xi )$ 的集合，因为线性支持向量机优化问题的变量是 $(\mathbf{w},b,\xi )$ ；

（3）很容易检验目标函数和约束条件（线性函数）在任意一点处连续可微，当然在局部极小点处连续可微；

（4） $SFD(\mathbf{x^*},S)=LFS(\mathbf{x^*},S)$ 这一条待证（一定满足），我们在一般的非线性优化问题的KKT定理中给出了一个反例，如果不满这条，可能得不到KKT定理的结论。

构造如下Lagrange函数：

$L(\mathbf{w},b,\mathbf{a},\mathbf{u})=\frac{1}{2}\mathbf{w}^T\mathbf{w}+C\sum_{i=1}^m\xi _i-\sum_{i=1}^ma_i[y_i(\mathbf{w}^T\mathbf{x}_i+b)-1+\xi_i]-\sum_{i=1}^mu_i\xi_i$ ， $\mathbf{w}\in \mathbb{R}^n,b\in \mathbb{R}^1$ ，

其中 $a_i\geq 0,u_i\geq 0$ 是拉格朗日乘数，整理后如下：

$L(\mathbf{w},b,\mathbf{a},\mathbf{u})=\frac{1}{2}\mathbf{w}^T\mathbf{w}-\sum_{i=1}^ma_i[y_i(\mathbf{w}^T\mathbf{x}_i+b)-1]+\sum_{i=1}^m(C-a_i-u_i)\xi_i$ （1）

（1）式分别对 $\mathbf{w}$ ，， $\xi_i$ 求偏导得到：

$\frac{\partial L(\mathbf{w},b,\mathbf{a},\mathbf{u})}{\partial \mathbf{w}}=\mathbf{w}^T-\sum_{i=1}^ma_iy_i\mathbf{x_i}^T$ （2）

$\frac{\partial L(\mathbf{w},b,\mathbf{a},\mathbf{u})}{\partial b}=\sum_{i=1}^ma_iy_i$ （3）

$\frac{\partial L(\mathbf{w},b,\mathbf{a},\mathbf{u})}{\partial \xi_i}=C-a_i-\xi_i$ （4）

令（2）~（4）式等于0，得到线性支持向量机的第一个KKT条件：

$\mathbf{w}=\sum_{i=1}^ma_iy_i\mathbf{x_i}$ ， $\sum_{i=1}^ma_iy_i=0$ ， $C-a_i-u_i=0,\; \; \; i=1,2,...,m$

所以有了线性支持向量机对应的KKT条件：

$\mathbf{w}=\sum_{i=1}^ma_iy_i\mathbf{x_i}$ ， $\sum_{i=1}^ma_iy_i=0$ ， $a_i+u_i=C,\; \; \; i=1,2,...,m$ （1）

$a_i[y_i(\mathbf{w}^T\mathbf{x}_i+b)-(1-\xi_i)]=0,\; \; \; i=1,2,...,m$ . （2）

$u_i\xi_i=0,\; \; \; i=1,2,...,m$   （3）

$a_i\geq 0( i=1,2,...,m)$ ， $u_i\geq 0( i=1,2,...,m)$    （4）

$y_i(\mathbf{w}^T\mathbf{x}_i+b)\geqslant 1-\xi_i,\; \; \; i=1,2,...,m$    （5）

$\xi_i\geq 0,\; \; \; i=1,2,...,m$   （6）

将（2）~（3）式代入（1）式得到Lanrange函数的最小值：

$L_{min}=-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^ma_ia_jy_iy_j\mathbf{x_i}^T\mathbf{x_j}+\sum_{i=1}^ma_i$ ，

根据对偶问题定义可知， $\theta (\mathbf{a})=inf\{L(\mathbf{w},b,\mathbf{a})|\mathbf{w}\in \mathbb{R}^n,b\in \mathbb{R}^1\}$ ，

所以 $\theta (\mathbf{a})=L_{min}=-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^ma_ia_jy_iy_j\mathbf{x_i}^T\mathbf{x_j}+\sum_{i=1}^ma_i$ ，

由对偶定理得到，线性支持向量机的对偶形式如下：

$\max_{\mathbf{a}}\: \: \theta (\mathbf{a})=-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^ma_ia_jy_iy_j\mathbf{x_i}^T\mathbf{x_j}+\sum_{i=1}^ma_i$ ，

$s.t.\; \; \mathbf{a}^T\mathbf{y}=0$ ，（1-1）

$C-a_i-u_i=0,\; \; \; i=1,2,...,m$ （1-2）

$\mathbf{a}\geq \mathbf{0}$ （1-3）

$\mathbf{u}\geq \mathbf{0}$ （1-4）

注意到目标函数与无关，所以可以消去，得到如下形式：

   $\max_{\mathbf{a}}\: \: \theta (\mathbf{a})=-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^ma_ia_jy_iy_j\mathbf{x_i}^T\mathbf{x_j}+\sum_{i=1}^ma_i$ ，

$s.t.\; \; \mathbf{a}^T\mathbf{y}=0$ ，

$0\leq a_i\leq C,\; \; \; i=1,2,...,m$

从第二个约束条件，我们看到惩罚的选择至关重要，它控制了的取值。与线性支持向量机对偶问题对比后发现，它们具有相同的目标函数，甚至具有相同的约束条件，只不过这里限制了的上限值。

根据对偶问题，我们就可以如下求解几何间隔最大分离超平面了：

（1）根据给定数据，选择惩罚系数，构造并求解：

$\max_{\mathbf{a}}\: \: \theta (\mathbf{a})=-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^ma_ia_jy_iy_j\mathbf{x_i}^T\mathbf{x_j}+\sum_{i=1}^ma_i$ ，

$s.t.\; \; \mathbf{a}^T\mathbf{y}=0$ ，

$0\leq a_i\leq C,\; \; \; i=1,2,...,m$

得到最优解 $\mathbf{a^*}$ ；可以断言最优解中，一定存在，不然如果 $\mathbf{a^*}=\mathbf{0}$ ，由KKT条件 $\mathbf{w}=\sum_{i=1}^ma_iy_i\mathbf{x_i}$ ，得到 $\mathbf{w}=\mathbf{0}$ ，矛盾。所以，存在。

（2）在最优解 $\mathbf{a^*}$ 中，选择，根据KKT条件，有

$a_j [y_j(\mathbf{w}^T\mathbf{x}_j+b)-1+\xi_j]= 0$ ，（1）

$u_j\xi_j= 0$ （2）

（3）

则，由（2）式得到 $\xi_j=0$ 。再注意到，那么（1）式就可以变为

$a_j [y_j(\mathbf{w}^T\mathbf{x}_j+b)+y_j^2(\xi_i-1)]= 0$ ，

求解得到 $b=y_j-\mathbf{w^T}\mathbf{x}_j$ 。

所以现在，我们从最优解 $\mathbf{a^*}$ 中，选择满足条件的，就可如下求解 $(\mathbf{w^*},b^*)$ ：

$\mathbf{w^*}=\sum_{i=1}^ma_i^*y_i\mathbf{x_i}$

$b^*=y_j-\mathbf{w^T}\mathbf{x_j}$

得到最大几何间隔分离超平面 $\mathbf{w^*}^T \mathbf{x}+b^*=0$ 。

线性支持向量机对偶问题中也有支持向量的概念：

最优解 $\mathbf{a^*}$ 中的分量对应的 $\mathbf{x_i}$ 称为支持向量。

这里支持向量定义和原问题中的支持向量定义是否一致，有待证明。

5 非线性支持向量机

5.1 非线性分类问题

线性可分支持向量机只能解决线性可分的问题，实际应用范围非常小，绝大部分问题都不能使用。而线性支持向量机通过引入松弛变量，允许有部分数据点误分类，从一定程度上，解决了线性可分支持向量机的局限。但是线性支持向量机，因为依然使用线性手段（超平面），有着自身的局限性，导致处理某些问题时误分类不如人意。如图：

图中绿色点表示1类中的数据，它们分布在绿色圆上或者圆外，而蓝色点表示-1类中的数据，它们分布在蓝色圆上或者圆内。显然使用线性可分支持向量机是无法分离的，而使用线性支持向量机，会带来误分类。但是我们很容易看出图中的红色圆就可以很清晰地将他们分开，而且不会有任何误分类问题。我们希望找到非线性手段，将该问题变为一个线性问题，然后使用我们熟悉的线性可分支持向量机或者线性支持向量机来求解。如果令变换

，（1）

则原图中的数据点会在一个新的空间中重新分布，如图：

原图中的蓝色和绿色圆分别对应变换后的空间中的蓝色和绿色直线，此时在新的空间中，我们就可以使用线性可分支持向量机学习得到一个几何间隔最大分离超平面，再根据刚才的变换，很容易得到原图中的分离曲线，或者我们根本不需要求解分离曲线了，直接使用分离超平面来分类就可以。对于数据点 $\mathbf{x_i}$ ，先经过（1）式变换为新空间中的 $\mathbf{y_i}$ ，然后使用超平面对 $\mathbf{y_i}$ 进行分类即可，如果满足，则 $\mathbf{y_i}$ 在原空间对应的数据点 $\mathbf{x_i}$ 就属于1类。以上就是非线性支持向量机的核心思想——核技巧。它是通过引进核函数，将非线性问题变换为线性或者近似线性问题，通过解变换后的线性问题的求解原非线性问题。我们用数学表述上面的思路：

如果数据通过变换后，在新空间中是线性可分（线性支持向量机类似）的，就可以在新空间中建立如下的约束优化问题：

$\min_{\mathbf{w},b}\frac{1}{2}||\mathbf{w}||^2$

$s.t.\; \; y_i(\mathbf{w}^T\varphi (\mathbf{x}_i)+b)-1\geqslant 0,\; \; \; i=1,2,...,m$

$\mathbf{\varphi (x_i)}$ 是原空间中的 $\mathbf{x_i}$ 在新空间中对应的数据点。求解得到最优解 $(\mathbf{w_0},b_0)$ ，然后使用新空间中的分离超平面 $\mathbf{w_0}^T \mathbf{\varphi (x)}+b_0=0$ 就可以对 $\mathbf{x_i}$ 进行分类了。如果 $\mathbf{x_i}$ 满足 $\mathbf{w_0}^T \mathbf{\varphi (x_i)}+b_0>0$ ，则数据点 $\mathbf{x_i}$ 属于1类，如果 $\mathbf{x_i}$ 满足 $\mathbf{w_0}^T \mathbf{\varphi (x_i)}+b_0<0$ ，则数据点 $\mathbf{x_i}$ 属于-1类。使用这种方法，就必须要知道变换 $\mathbf{\varphi (x_i)}$ 才可以，在很多问题中这个变换并不好求，或者非常复杂。我们换个思路，原优化问题和它的对偶问题优化是等价的，我们来看他它的对偶形式：

$\max_{\mathbf{a}}\: \: \theta (\mathbf{a})=-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^ma_ia_jy_iy_j\mathbf{x_i}^T\mathbf{x_j}+\sum_{i=1}^ma_i$ ，

$s.t.\; \; \mathbf{a}^T\mathbf{y}=0$ ，

$\mathbf{a}\geq \mathbf{0}$

注意 $\mathbf{x_i}^T\mathbf{x_j}$ 可以表示成内积形式为 $\mathbf{x_i\cdot x_j}$ ，在新空间中，对偶优化问题为：

$\max_{\mathbf{a}}\: \: \theta (\mathbf{a})=-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^ma_ia_jy_iy_j\mathbf{\varphi (x_i)}\cdot \varphi (\mathbf{x_j})+\sum_{i=1}^ma_i$ ，

$s.t.\; \; \mathbf{a}^T\mathbf{y}=0$ ，

$\mathbf{a}\geq \mathbf{0}$

目标函数中包含了 $\mathbf{\varphi (x_i)}\cdot \varphi (\mathbf{x_j})$ 的内积计算。我们再看新空间中的分离超平面 $\mathbf{w}^T \varphi(\mathbf{x})+b=0$ ，因为在新空间中最优解变为：

$\mathbf{w^*}=\sum_{i=1}^ma_i^*y_i\varphi(\mathbf{x_i})$

$b^*=y_j-\mathbf{(w^*)^T}\varphi (\mathbf{x_j})$

代入新空间中的超平面，得到新空间中的最优分离超平面：

$\sum_{i=1}^ma_i^*y_i\varphi(\mathbf{x_i})\cdot \varphi(\mathbf{x})+y_j-\sum_{i=1}^ma_i^*y_i\varphi(\mathbf{x_i})\cdot \varphi (\mathbf{x_j})=0$ ，

我们发现上式也包含了 $\mathbf{\varphi (x_i)}\cdot \varphi (\mathbf{x_j})$ 的内积计算。所以，在新空间中，无论是约束函数还是分离超平面都和内积 $\mathbf{\varphi (x_i)}\cdot \varphi (\mathbf{x_j})$ 相关，所以我们就不用关心具体的变换 $\varphi$ 了。而将重心放在 $\mathbf{\varphi (x_i)}\cdot \varphi (\mathbf{x_j})$ 上。 $\mathbf{\varphi (x_i)}\cdot \varphi (\mathbf{x_j})$ 就是核函数，这也是为什么使用核函数的原因。下面我们来具体介绍。

5.2 核函数

为了严谨，我们如下给出核函数的定义：

定义

设 $D\sqsubseteq \mathbb{R}^n$ 是欧式空间的一个子集，为希尔伯特空间，如果存在一个从到的映射

$\varphi (\mathbf{x}):D\rightarrow H,\: \: \mathbf{x}\in D$ ，使得对所有 $\mathbf{x_1,x_2}\in D$ ，函数 $K(\mathbf{x_1,x_2})$ 满足条件： $K(\mathbf{x_1,x_2})=\varphi (\mathbf{x_1})\cdot \varphi (\mathbf{x_2})$

则称 $K(\mathbf{x_1,x_2})$ 为核函数， $\varphi (\mathbf{x})$ 为映射函数，式中 $\varphi (\mathbf{x_1})\cdot \varphi (\mathbf{x_2})$ 为 $\varphi (\mathbf{x_1})$ 和 $\varphi (\mathbf{x_2})$ 的在希尔伯特空间中的内积。

定义中提到的欧式空间和希尔伯特空间都是数学中的概念，可以参看《泛函分析》相关书籍。因为涉及较深的数学概念，理解起来有些晦涩，我们先从简单的例子来看。

（1）对于上面引出非线性问题的例子来说，讨论的是二维平面中的数据点，所以 $D\sqsubseteq \mathbb{R}^2$ ，它是包含数据点的一个集合，可以取 $D=\mathbb{R}^2$ 。假设 $\mathbf{x_1}=(a,b)^T$ ， $\mathbf{x_2}=(c,d)^T$ ，则例子中的变换就是：

$\varphi (\mathbf{x_1})=(a^2,b^2)$ ， $\varphi (\mathbf{x_2})=(c^2,d^2)$

那么它的核函数就是 $K(\mathbf{x_1,x_2})=\varphi (\mathbf{x_1})\cdot \varphi (\mathbf{x_2})=a^2c^2+b^2d^2$ 。

核函数其实是关于两个向量的函数，它将两个向量映射为一个数值。对于某个核函数，可能存在多个 $\varphi$ ，有多少个，我们并不关心，我们只关心核函数本身。为了更好的理解核函数，我们再看一个例子：

（2）如下定义的函数是核函数吗？

$K(\mathbf{x_1,x_2})=(\mathbf{x_1}\cdot \mathbf{x_2})^2$ ，

我们看到 $K(\mathbf{x_1,x_2})$ 是将两个向量先做内积运算，然后平方，确实是将两个向量映射为一个数值，接下来，我们需要找到一个 $\varphi$ ，使得 $K(\mathbf{x_1,x_2})=\varphi (\mathbf{x_1})\cdot \varphi (\mathbf{x_2})$ ，也即 $(\mathbf{x_1}\cdot \mathbf{x_2})^2=\varphi (\mathbf{x_1})\cdot \varphi (\mathbf{x_2})$ 。假设 $\mathbf{x}=(x,y)^T$ ，可以验证 $\varphi(\mathbf{x})=(x^2,\sqrt{2}xy,y^2)^T$ 就满足要求，因为

$\varphi(\mathbf{x_1})=(x_1^2,\sqrt{2}x_1y_1,y_1^2)^T$

$\varphi(\mathbf{x_2})=(x_2^2,\sqrt{2}x_2y_2,y_2^2)^T$ ，

那么

$\varphi (\mathbf{x_1})\cdot \varphi (\mathbf{x_2})=x_1^2x_2^2+2x_1x_2y_2y_2+y_1^2y_2^2\\ =(x_1x_2+y_1y_2)^2=(\mathbf{x_1}\cdot \mathbf{x_2})^2=K(\mathbf{x_1,x_2})$

所以 $K(\mathbf{x_1,x_2})$ 是核函数。

注意这里 $\varphi$ 将二维空间中的点映射到了三维空间中了。通常， $\varphi$ 为了保证变换后的数据是线性可分或者近似线性的，会将低维中的点映射到高维或者无穷维空间中去，计算复杂度同时会提升。核函数保证了计算可以继续在低维空间中进行，例如 $\varphi (\mathbf{x_1})\cdot \varphi (\mathbf{x_2})$ 每次都是要对三个分量进行计算，而 $K(\mathbf{x_1,x_2})=(\mathbf{x_1}\cdot \mathbf{x_2})^2$ 只需要计算两个分量，但是它们的计算结果是一样的。这就是为什么要引入核函数的原因之一。

核函数的理解：

（1）真正将线性不可分变成线性可分或近似线性可分的是 $\varphi$ ，而不是核函数；

（2） $\varphi$ 一般是通过将低维变成高维，或者无穷维的方式，让数据可分或近似可分；

（3）核函数虽然不能将线性不可分变成线性可分，但是它可以通过在低维空间中（通常是原空间）完成本该在高维或无穷维空间中计算的量。 $\varphi (\mathbf{x_1})\cdot \varphi (\mathbf{x_2})$ 通常是高维计算， $K(\mathbf{x_1,x_2})$ 通常是在原空间中计算，而 $K(\mathbf{x_1,x_2})=\varphi (\mathbf{x_1})\cdot \varphi (\mathbf{x_2})$ 保证了它们的计算结果一样。

常见的核函数：

（1）线性核函数（Linear Kernel）

$K(\mathbf{x_i,\mathbf{x_j}})=\mathbf{x_i}\cdot \mathbf{x_j}$ ，对应的 $\varphi (\mathbf{x})=\mathbf{x}$ ，没做任何变换

（2）多项式核函数（Polynomial Kernel）

$K(\mathbf{x_i,\mathbf{x_j}})=(\gamma (\mathbf{x_i}\cdot \mathbf{x_j)}+c)^d$ ， $\gamma >0,c\geq 0$ ，为正整数

（3）高斯核（Gaussian Kernel）

$K(\mathbf{x_i,\mathbf{x_j}})=e^{-\frac{||\mathbf{x_i}- \mathbf{x_j}||^2}{2\sigma^2}}$

（4）拉普拉斯核

$K(\mathbf{x_i,\mathbf{x_j}})=e^{-\frac{||\mathbf{x_i}- \mathbf{x_j}||}{\sigma}}$

（5）S型核函数（Sigmoid Kernel）

$K(\mathbf{x_i,\mathbf{x_j}})=tanh(\gamma \mathbf{x_i}\cdot \mathbf{x_j}+c)$ ，其中 $tanhx=\frac{e^x-e^{-x}}{e^x+e^{-x}}$ ， $\gamma >0,c<0$

核函数有无穷多个，下面我们不加证明的给出核函数的判断方法和构造方法：

判定方法：

对于个数据点构成的有限集合 $X=\{\mathbf{x_1},\mathbf{x_2},...,\mathbf{x_m}\}$ ，定义一个矩阵，它的第行第列元素是 $K(\mathbf{x_i,\mathbf{x_j}})$ ，且 $K(\mathbf{x_i,\mathbf{x_j}})=K(\mathbf{x_j,\mathbf{x_i}})$ ，即 $K(\mathbf{x_i,\mathbf{x_j}})$ 是对称的，那么 $K(\mathbf{x_i,\mathbf{x_j}})$ 是核函数的充要条件是矩阵是半正定的。

构造方法：

设，是上的核函数，则下面的函数都是核函数：

（1） $K(\mathbf{x_i,x_j})=K_1(\mathbf{x_i,x_j})+K_2(\mathbf{x_i,x_j})$

（2） $K(\mathbf{x_i,x_j})=aK_1(\mathbf{x_i,x_j}),\: \: \: a\geq 0$

（3） $K(\mathbf{x_i,x_j})=K_1(\mathbf{x_i,x_j})K_2(\mathbf{x_i,x_j})$

根据核函数的定义，线性可分支持向量机对偶问题的核函数形式表示如下：

$\max_{\mathbf{a}}\: \: \theta (\mathbf{a})=-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^ma_ia_jy_iy_jK\mathbf{ (x_i,}\mathbf{x_j})+\sum_{i=1}^ma_i$ ，

$s.t.\; \; \mathbf{a}^T\mathbf{y}=0$ ，

$\mathbf{a}\geq \mathbf{0}$

最优分离超平面为：

$\sum_{i=1}^ma_iy_iK(\mathbf{x_i},\mathbf{x})+y_j-\sum_{i=1}^ma_iy_iK(\mathbf{x_i},\mathbf{x_j})=0$

满足。后面为了推导SMO算法更方便，使用 $\sum_{i=1}^ma_iy_iK(\mathbf{x_i},\mathbf{x})+b=0$ 的形式。

线性支持向量机对偶问题的核函数形式表示如下：

   $\max_{\mathbf{a}}\: \: \theta (\mathbf{a})=-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^ma_ia_jy_iy_jK\mathbf{ (x_i,}\mathbf{x_j})+\sum_{i=1}^ma_i$ ，

$s.t.\; \; \mathbf{a}^T\mathbf{y}=0$ ，

$0\leq a_i\leq C,\; \; \; i=1,2,...,m$

最优分离超平面为：

$\sum_{i=1}^ma_iy_iK(\mathbf{x_i},\mathbf{x})+y_j-\sum_{i=1}^ma_iy_iK(\mathbf{x_i},\mathbf{x_j})=0$

满足。

总结：

（1）线性可分支持向量机解决数据是线性可分的问题；

（2）线性支持向量机通过引入松弛变量解决数据近似线性可分的问题；

（3）非线性支持向量机通过引入核函数，将非线性问题转换为线性可分或近似线性可分的问题，进而使用线性可分支持向量机或线性支持向量机。

下面我们以表格形式对以上三个支持向量机做个概括：

		原问题	对偶问题
线性可分支持向量机	约束优化问题	$\min_{\mathbf{w},b}\frac{1}{2}\|\|\mathbf{w}\|\|^2$ $s.t.\: \: \: y_i(\mathbf{w}^T\mathbf{x}_i+b)\geqslant 1,\: \: \:i=1,2,...,m$	$\max_{\mathbf{a}}\: \: \theta (\mathbf{a})=-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^ma_ia_jy_iy_j\mathbf{x_i}^T\mathbf{x_j}+\sum_{i=1}^ma_i$ $s.t.\; \; \mathbf{a}^T\mathbf{y}=0$ ， $\mathbf{a}\geq \mathbf{0}$
	最优解	$(\mathbf{w}^,b^)$	$\mathbf{a}^*$
	最优分离超平面	$\mathbf{w^}^T \mathbf{x}+b^=0$	$\mathbf{w^}^T \mathbf{x}+b^=0$ 其中 $\mathbf{w^}=\sum_{i=1}^ma_i^y_i\mathbf{x_i}$ $b^=y_j-\mathbf{(w^)^T}\mathbf{x_j}$ （满足）
	支持向量	满足 $y_i(\mathbf{w}^T\mathbf{x}_i+b)=1$ 的 $\mathbf{x_i}$ ，分布在支持超平面上	对应的 $\mathbf{x_i}$ ，分布与原问题相同

		原问题	对偶问题
线性支持向量机	约束优化问题	$\min_{\mathbf{w},b,\xi_i}\frac{1}{2}\|\|\mathbf{w}\|\|^2+C\sum_{i=1}^m\xi _i$ $s.t.\; \; y_i(\mathbf{w}^T\mathbf{x}_i+b)\geqslant 1-\xi_i,\; \; \; i=1,2,...,m$ $\xi_i\geq 0,\; \; \; i=1,2,...,m$	$\max_{\mathbf{a}}\:\theta (\mathbf{a})=-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^ma_ia_jy_iy_j\mathbf{x_i}^T\mathbf{x_j}+\sum_{i=1}^ma_i$ $s.t.\; \; \mathbf{a}^T\mathbf{y}=0$ ， $0\leq a_i\leq C,\; \; \; i=1,2,...,m$
	最优解	$(\mathbf{w}^,b^)$	$\mathbf{a}^*$
	最优分离超平面	$\mathbf{w^}^T \mathbf{x}+b^=0$	$\mathbf{w^}^T \mathbf{x}+b^=0$ 其中 $\mathbf{w^}=\sum_{i=1}^ma_i^y_i\mathbf{x_i}$ $b^=y_j-\mathbf{(w^)^T}\mathbf{x_j}$ （满足）
	支持向量	满足 $y_i(\mathbf{w}^T\mathbf{x}_i+b)=1-\xi_i$ 的 $\mathbf{x_i}$ ，对于1类，它们分布在支持超平面上或者下侧，对于-1类，它们分布在支持超平面上或者下侧	$0<a_i\leq C$ 对应的 $\mathbf{x_i}$ ，分布与原问题相同

		线性可分支持向量机	线性支持向量机
非线性支持向量机	约束优化问题	$\max_{\mathbf{a}}\: \: \theta (\mathbf{a})=-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^ma_ia_jy_iy_jK\mathbf{ (x_i,}\mathbf{x_j})+\sum_{i=1}^ma_i$ $s.t.\; \; \mathbf{a}^T\mathbf{y}=0$ ， $\mathbf{a}\geq \mathbf{0}$	$\max_{\mathbf{a}}\: \: \theta (\mathbf{a})=-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^ma_ia_jy_iy_jK\mathbf{ (x_i,}\mathbf{x_j})+\sum_{i=1}^ma_i$ $s.t.\; \; \mathbf{a}^T\mathbf{y}=0$ ， $0\leq a_i\leq C,\; \; \; i=1,2,...,m$
	最优解	$\mathbf{a}^*$	$\mathbf{a}^*$
	最优分离超平面	$\sum_{i=1}^ma_i^y_iK(\mathbf{x_i},\mathbf{x})+y_j-\sum_{i=1}^ma_i^y_iK(\mathbf{x_i},\mathbf{x_j})=0$ （满足）	$\sum_{i=1}^ma_i^y_iK(\mathbf{x_i},\mathbf{x})+y_j-\sum_{i=1}^ma_i^y_iK(\mathbf{x_i},\mathbf{x_j})=0$ （满足）

6 序列最小最优化算法

本节讨论支持向量机约束问题求解算法实现的问题。目前已有许多快速实现算法，本节讲述其中的序列最小最优化（Sequential Minimal Optimisation,SMO）算法，该算法1998年由Platt提出，本文为帮助读者理解算法过程，给出了细致的推导，但读者不用在推导上花费时间，应将重心放在SMO算法和步骤上，以及适用于哪些应用场景。

无论是线性可分支持向量机，或者是线性支持向量机，还是非线性支持向量机，都是要解决如下的约束问题：

$\max_{\mathbf{a}}\: \: \theta (\mathbf{a})=-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^ma_ia_jy_iy_jK\mathbf{ (x_i,}\mathbf{x_j})+\sum_{i=1}^ma_i$

$s.t.\; \; \mathbf{a}^T\mathbf{y}=0$ ，

$0\leq a_i\leq C,\; \; \; i=1,2,...,m$

其中 $\mathbf{a}=(a_1,a_2,...,a_m)^T$ 是需要求解的变量，它有个分量。

SMO算法是一种启发式算法，其基本思路是：如果变量 $\mathbf{a}$ 的所有分量都满足约束问题的KKT条件，那么这个最优化问题的解就得到了。因为KKT条件是该最优化问题的充要条件。否则，选择其中两个分量，固定其他个分量，针对这两个变量构建一个子二次规划问题。这个二次规划问题关于这两个变量的解应该更接近原始二次规划问题的解，因为这会使得原始二次规划问题的目标函数值变得更小。重要的是，这时子问题可以通过解析方法求解，这样就可以大大提高整个算法的计算速度。子问题有两个变量，一个是违反KKT条件最严重的那一个，另一个由约束条件自动确定。如此，SMO算法将原问题不断分解为子二次规划问题并对子问题求解，进而达到求解原问题的目的。不失一般性，假设选择的两个变量是，固定其他变量。

只要SMO算法在每一步迭代中总是优化和改变两个拉格朗日乘子，而且至少一个拉格朗日乘子在迭代前违背KKT条件，那么根据 Osuna’s theorem，每一步都将减小目标函数值。因此收敛是得到保证的。为了加快收敛速度，SMO使用启发式选择哪两个乘子来共同优化。

它们是独立的选择启发：一个是针对第一个拉格朗日乘子，一个是针对第二个拉格朗日乘子。第一个启发式选择提供了SMO算法的外部循环。外部循环首先在整个训练集上迭代，确定每个违反KKT条件的数据，如果一个数据违反了KKT条件，它就可以作为优化的乘子。在整个训练集上迭代一次之后，外部循环在拉格朗日乘子满足非0非C的数据上迭代。每个违反KKT条件的数据作为优化。

6.1 目标函数

原约束问题是对目标函数求最大值，我们先将其转换成求最小值，变成一个严凸二次规划，如下：

$\min_{\mathbf{a}}\: \: \theta (\mathbf{a})=\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^ma_ia_jy_iy_jK_{ij}-\sum_{i=1}^ma_i$

$s.t.\; \; \mathbf{a}^T\mathbf{y}=0$ ，

$0\leq a_i\leq C,\; \; \; i=1,2,...,m$

其中 $K_{ij}=K\mathbf{ (x_i,}\mathbf{x_j})$ 。如果 $K_{ij}$ 满足Mercer’s conditions，这该优化是一个严凸二次规划，后面讨论都假 $K_{ij}$ 满足Mercer’s conditions。该问题存在最优解，当对所有的有：

$a_i=0\Leftrightarrow y_iu_i\geq 1$

$0<a_i<C\Leftrightarrow y_iu_i= 1$

$a_i=C\Leftrightarrow y_iu_i\leq 1$

其中 $u_i=\sum_{i=1}^ma_iy_iK(\mathbf{x_i},\mathbf{x})+b$

接下来将目标函数中的变量整理出来：

$\theta (\mathbf{a})=\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^ma_ia_jy_iy_jK_{ij}-\sum_{i=1}^ma_i$

$\theta (\mathbf{a})=\frac{1}{2}(a_1^2K_{11}+2a_1a_2y_1y_2K_{12}+a_2^2K_{22}+2a_1y_1\sum_{j=3}^ma_jy_jK_{1j}+2a_2y_2\sum_{i=3}^ma_iy_iK_{2i})$ $-(a_1+a_2)-\sum_{i=3}^ma_i$

$\theta (\mathbf{a})=\frac{1}{2}a_1^2K_{11}+a_1a_2y_1y_2K_{12}+\frac{1}{2}a_2^2K_{22}+a_1y_1\sum_{j=3}^ma_jy_jK_{1j}+a_2y_2\sum_{i=3}^ma_iy_iK_{2i}$ $-a_1-a_2-\sum_{i=3}^ma_i$

令

$v_i=\sum_{j=3}^ma_jy_jK_{ij},\: \: i=1,2$ ，（1）

省略常数项后，

$\theta (\mathbf{a})=\frac{1}{2}a_1^2K_{11}+a_1a_2y_1y_2K_{12}+\frac{1}{2}a_2^2K_{22}+a_1y_1v_1+a_2y_2v_2-(a_1+a_2)$ （2）

6.2 误差

非线性支持向量机引入核函数以后，对应的分离超平面方程就变成下面的形式了：

$\sum_{j=1}^ma_jy_jK(\mathbf{x}_j,\mathbf{x})+b=0$

这里其实可以使用数据点表示，但是为了SMO算法的推导方便，使用会更简洁些。对于数据点 $\mathbf{x}_i$ ，它的预测值为

$g(\mathbf{x}_i)=\sum_{j=1}^ma_jy_jK(\mathbf{x}_j,\mathbf{x}_i)+b$

由上面（1）式

$v_i=\sum_{j=3}^ma_jy_jK_{ij},\: \: i=1,2$

得到：

$v_i=\sum_{j=1}^ma_jy_jK_{ij}-\sum_{j=1}^2a_jy_jK_{ij}=g(\mathbf{x}_i)-b-\sum_{j=1}^2a_jy_jK_{ij}$

这里 $g(\mathbf{x}_i)$ 只是数据点 $\mathbf{x}_i$ 的预测值，并不是它的分类。记为 $\mathbf{x}_i$ 的预测值与真实分类的差，如下：

$E_i=g(\mathbf{x}_i)-y_i,\: \: \: i=1,2$

6.3 约束条件

约束条件变为

$a_1y_1+a_2y_2=\sum_{i=3}^ma_iy_i=\delta$ ， $\delta$ 为常数

$0\leq a_i\leq C,\; \; \; i=1,2$

约束问题就变成了一个关于的二元函数 $\theta (\mathbf{a})$ 在约束条件下求极值的问题。约束条件 $a_1y_1+a_2y_2=\delta$ ，两边乘以，得到

$a_1=y_1(\delta-a_2y_2)$ ，将代入到目标函数（2）中，得到

$\theta (\mathbf{a})=\frac{1}{2}(\delta-a_2y_2)^2K_{11}+(\delta-a_2y_2)a_2y_2K_{12}+\frac{1}{2}a_2^2K_{22}$ $+(\delta-a_2y_2)v_1+}a_2y_2v_2-(y_1(\delta-a_2y_2)+a_2)$

此时 $\theta (\mathbf{a})$ 就变成了关于变量的一元求最值问题了。当然是使用一元函数极值定理来求解了。上式对求偏导，得到：

$\frac{\partial \theta (\mathbf{a})}{\partial a_2}=-y_2(\delta-a_2y_2)K_{11}+(\delta-2a_2y_2)y_2K_{12}+a_2K_{22}$

$\frac{\partial \theta (\mathbf{a})}{\partial a_2}=-(y_2\delta-a_2)K_{11}+(y_2\delta-2a_2)K_{12}+a_2K_{22}$

$\frac{\partial \theta (\mathbf{a})}{\partial a_2}=-y_2(\delta K_{11}-\delta K_{12})+(K_{11}-2K_{12}+K_{22})a_2$

对上式再次求偏导（相当于求 $\theta (\mathbf{a})$ 的二阶导数），并记 $\eta =K_{11}-2K_{12}+K_{22}$ ，得到：

$\frac{\partial^2 \theta (\mathbf{a})}{\partial a_2^2}=\eta$

推导先到这里，现在讨论的取值范围，首先由 $0\leq a_i\leq C,\; \; \; i=1,2$ 可知，落在一个 $[0,C]\times[0,C]$ 的正方形上或者内部，又因为满足

$a_1y_1+a_2y_2=\delta$ ，（1）

分两种情况

（a）当 $y_1\neq y_2$ 时，（1）式两边乘以得到， $a_2=a_1+y_2\delta$

（b）当时，（1）式两边乘以得到， $a_2=-a_1+y_2\delta$

所以，刚好落在下图中的四条与正方形对角线平行或重合的某一条线段上，如图：

从图中很容易得到的取值范围：

（1）当 $y_1\neq y_2$ 时， $a_2\in[max(0,y_2\delta),min(C,C+y_2\delta)]$

（2）当时， $a_2\in[max(0,y_2\delta-C),min(C,y_2\delta)]$

无论是上面哪种情况，不妨设取值范围为，表示的最小值，表示的最大值。

前面提到的 $K_{ij}$ 满足Mercer’s conditions，保证该优化是一个严凸二次规划，所以得到 $\eta>0$ ， $\theta (\mathbf{a})$ 是凸函数，最小值点处一阶导数为0，如图：

现在我们回到SMO算法上来，算法每次都要跟新，事实上，只需要跟新，可以通过约束条件 $a_1y_1+a_2y_2=\delta$ 计算，现在假设问题的初始可行解为 $a_1^{old},a_2^{old}$ ，更新后的，还不是我们真正更新的最终结果，可能超出了它的取值范围，所以对它还需要处理下，对它进行裁剪，裁剪后才是真正跟新的，现在假设裁剪前为 $a_2^{uncut}$ ，裁剪后为 $a_1^{new},a_2^{new}$ 。所以他们满足

$a_1^{old}y_1+a_2^{old}y_2=a_1^{new}y_1+a_2^{new}y_2=\delta$ （2）

裁剪方法：

$a_2^{new}=\begin{cases} L & a_2^{uncut}<L \\ a_2^{uncut} & L\leq a_2^{uncut}\leq H \\ H & a_2^{uncut}>H \end{cases}$

就是说，如果落在内，当然不变，落在外面，使用最大值或最小值替代。但是这里，需要使用 $a_1^{old}y_1+a_2^{old}y_2=\delta$ ，替换到原来的中的 $\delta$ ，得到

（1）当 $y_1\neq y_2$ 时， $L=max(0,a_2^{old}-a_1^{old}),H=min(C,C+a_2^{old}-a_1^{old})$

（2）当时， $L=max(0,a_2^{old}+a_1^{old}-C),H=min(C,a_2^{old}+a_1^{old})$

现在令 $\theta (\mathbf{a})$ 的一阶导数为0，得到：

$\eta a_2=y_2(\delta K_{11}-\delta K_{12}+v_1-v_2-y_1+y_2)$

由

$v_i=g(\mathbf{x}_i)-b-\sum_{j=1}^2a_jy_jK_{ij}$ ， $a_1^{old}y_1+a_2^{old}y_2=\delta$

有

$v_1=g(\mathbf{x}_1)-b-\sum_{j=1}^2a_jy_jK_{1j}$ ， $v_2=g(\mathbf{x}_2)-b-\sum_{j=1}^2a_jy_jK_{2j}$

所以

$v_1-v_2-y_1+y_2=g(\mathbf{x}_1)-g(\mathbf{x}_2)-\sum_{j=1}^2a_jy_jK_{1j}+\sum_{j=1}^2a_jy_jK_{2j}-y_1+y_2\\ =E_1-E_2-\sum_{j=1}^2a_jy_jK_{1j}+\sum_{j=1}^2a_jy_jK_{2j}\\=E_1-E_2-a_1y_1K_{11}-a_2y_2K_{12}+a_1y_1K_{21}+a_2y_2K_{22}\\=E_1-E_2-a_1^{old}y_1K_{11}-a_2^{old}y_2K_{12}+a_1^{old}y_1K_{21}+a_2^{old}y_2K_{22}$

且

$\delta K_{11}-\delta K_{12}=(a_1^{old}y_1+a_2^{old}y_2)K_{11}-(a_1^{old}y_1+a_2^{old}y_2)K_{12}$

代入，得到：

$\eta a_2^{uncut}=y_2((K_{11}-2K_{12}+K_{22})y_2a_2^{old}+E_1-E_2)$

即

$a_2^{uncut}=a_2^{old}+\frac{y_2(E_1-E_2)}{\eta }$

再对其裁剪，

$a_2^{new}=\begin{cases} L & a_2^{uncut}<L \\ a_2^{uncut} & L\leq a_2^{uncut}\leq H \\ H & a_2^{uncut}>H \end{cases}$

得到最终的 $a_2^{new}$ 。由 $a_1^{old}y_1+a_2^{old}y_2=a_1^{new}y_1+a_2^{new}y_2$ ，两边乘以，就得到

$a_1^{new}=a_1^{old}+a_2^{old}y_1y_2-a_2^{new}y_1y_2$ .

6.4 变量的选择

6.4.1 第一个变量的选择

SMO称选择第1个变量的过程为外层循环。外层循环在训练样本中选取违反KKT条件最严重的样本点，并将其对应的变量作为第1个变量。具体地，检验训练样本点是否满足KKT条件，即

$a_i=0\Leftrightarrow y_iu_i\geq 1$

$0<a_i<C\Leftrightarrow y_iu_i= 1$

$a_i=C\Leftrightarrow y_iu_i\leq 1$

其中 $u_i=\sum_{j=1}^ma_jy_jK(\mathbf{x}_j,\mathbf{x}_i)+b$ ，首先检验的是第二条，这条很容易不满足，一旦不满足就选取这个作为第一个变量，如果都满足，在检验其他两条，如果都满足，那就是最优解了，如果不满足选择这个作为第一个变量。

6.4.2 第二个变量的选择

SMO称选择第2个变量的过程为内层循环。假设在外层循环中已经找到第1个变量，现在要在内层循环中找第2个变量。第2个变量选择的标准是希望能使有足够大的变化，加快收敛速度。由上面的推导，

$a_2^{uncut}=a_2^{old}+\frac{y_2(E_1-E_2)}{\eta }$ ，

$a_2^{new}=\begin{cases} L & a_2^{uncut}<L \\ a_2^{uncut} & L\leq a_2^{uncut}\leq H \\ H & a_2^{uncut}>H \end{cases}$

$a_2^{new}$ 依赖于

6.4.3 和计算

7 算法实现（Python3）

7.1 数据

（1）训练数据下载地址：《trainingSet.txt》，总共有100条数据，每个数据有两个特征，外加一个分类标记1或-1，前5行数据格式如下：

3.542485     1.977398    -1
3.018896     2.556416    -1
7.551510    -1.580030     1
2.114999    -0.004466    -1
8.127113     1.274372     1

（2）训练集《trainingSetRBF.txt》

-0.214824	 0.662756	-1.000000
-0.061569	-0.091875	 1.000000
 0.406933	 0.648055	-1.000000
 0.223650	 0.130142	 1.000000
 0.231317	 0.766906	-1.000000

测试集《testSetRBF2.txt》

 0.448986	-0.513475	-1.000000
-0.000019	-0.000018	 1.000000
 0.087728	 0.034338	 1.000000
-0.344738	-0.297289	 1.000000
 0.016388	 0.031563	 1.000000

7.1 代码

参考文献：

（1）支持向量机

（2）支持向量机通俗导论（理解SVM的三层境界）

（3）支持向量机

（4）libsvm

你可能感兴趣的:(机器学习)

机器学习模型监控警报系统设计：Prometheus+Evidently 实战教程大熊计算机机器学习 prometheus 人工智能
1.系统架构设计：从数据采集到智能告警（1）监控系统核心组件交互图预测请求监控指标告警规则通知渠道预测结果质量报告时序数据模型服务PrometheusExporterPrometheusServerAlertmanager邮件/Slack/WebhookEvidently服务可视化仪表盘图解：系统采用双引擎架构，Prometheus负责基础监控指标采集与告警触发，Evidently执行深度模型分析
燕大《Python机器学习》实验报告：探索机器学习的奥秘温冰礼
燕大《Python机器学习》实验报告：探索机器学习的奥秘【下载地址】燕大Python机器学习实验报告下载这份实验报告是燕山大学软件工程专业的学生在进行机器学习实验时所编写的，内容详实，结构清晰，可以直接下载使用。报告中的实验数据和代码均经过验证，确保下载后可以直接应用于实际项目或作为学习参考项目地址:https://gitcode.com/Open-source-documentation-tut
（转）优秀的 python 机器学习库 patrick75 python 机器学习 python 机器学习
优秀的python机器学习库IntroductionThereisnodoubtthatneuralnetworks,andmachinelearningingeneral,hasbeenoneofthehottesttopicsintechthepastfewyearsorso.It’seasytoseewhywithallofthereallyinterestinguse-casestheys
DAY 10 机器学习建模与评估心落薄荷糖 Python训练营机器学习人工智能
知识点：1.数据集的划分2.机器学习模型建模的三行代码3.机器学习模型分类问题的评估今日代码比较多，但是难度不大，仔细看看示例代码，好好理解下这几个评估指标。作业：尝试对心脏病数据集采用机器学习模型建模和评估#一、导入库importpandasaspdimportpandasaspd#用于数据处理和分析，可处理表格数据。importnumpyasnp#用于数值计算，提供了高效的数组操作。impor
Python机器学习元学习库higher 音程机器学习人工智能 python 机器学习
higher是一个用于元学习（Meta-Learning）和高阶导数（Higher-ordergradients）的Python库，专为PyTorch设计。它扩展了PyTorch的自动微分机制，使得在训练过程中可以动态地计算参数的梯度更新，并把这些更新过程纳入到更高阶的梯度计算中。一、主要用途higher主要用于以下场景：元学习（Meta-Learning）比如MAML（Model-Agnosti
基于迁移学习的ResNet50模型实现石榴病害数据集多分类图片预测深度学习乐园深度学习实战项目迁移学习分类人工智能
完整源码项目包获取→点击文章末尾名片！番石榴病害数据集背景描述番石榴（Psidiumguajava）是南亚的主要作物，尤其是在孟加拉国。它富含维生素C和纤维，支持区域经济和营养。不幸的是，番石榴生产受到降低产量的疾病的威胁。该数据集旨在帮助开发用于番石榴果实早期病害检测的机器学习模型，帮助保护收成并减少经济损失。数据说明该数据集包括473张番石榴果实的注释图像，分为三类。图像经过预处理步骤，例如钝
四个机器学习模型对比道路裂缝检测识别分类模型深度学习乐园深度学习实战项目机器学习分类人工智能
完整源码项目包获取→点击文章末尾名片！一、课题综述1.1.课题简介在机器学习的研究领域中，传统分类算法模型数量众多，适合的应用场景也各不相同。1.2.课题目标（示例）本课题使用的数据集来自于数据分析与数据挖掘竞赛Kaggle，该竞赛为数据科学领域著名的国际性赛事之一。课题使用的数据集为带标签的图像数据集，包含带有裂痕和不带有裂痕的桥梁、墙和人行道图片。课题的目标为对于目标数据集，搭建相应的传统机器
机器学习5——非参数估计平和男人杨争争山东大学机器学习期末复习机器学习概率论算法
非参数估计在参数估计中我们已经提到，想要估计后验概率P(ωi∣x)=p(x∣ωi)p(ωi)p(x)P\left(\omega_i\midx\right)=\frac{p\left(x\mid\omega_i\right)p\left(\omega_i\right)}{p(x)}P(ωi∣x)=p(x)p(x∣ωi)p(ωi)，就需要估计类条件概率p(x∣ωi)p\left(x\mid\omega
机器学习4——参数估计之贝叶斯估计平和男人杨争争山东大学机器学习期末复习机器学习人工智能
贝叶斯估计问题建模：后验概率公式：P(ωi∣x,D)=P(x∣ωi,Di)P(ωi)∑j=1cP(x∣ωj,Dj)P(ωj)P\left(\omega_i\mid\mathbf{x},\mathcal{D}\right)=\frac{P\left(\mathbf{x}\mid\omega_i,\mathcal{D}_i\right)P\left(\omega_i\right)}{\sum_{j=1
机器学习3——参数估计之极大似然估计平和男人杨争争山东大学机器学习期末复习机器学习人工智能算法
参数估计问题背景：P(ωi∣x)=p(x∣ωi)P(ωi)p(x)p(x)=∑j=1cp(x∣ωj)P(ωj)\begin{aligned}&P\left(\omega_i\mid\mathbf{x}\right)=\frac{p\left(\mathbf{x}\mid\omega_i\right)P\left(\omega_i\right)}{p(\mathbf{x})}\\&p(\mathbf
大模型RLHF强化学习笔记（一）：强化学习基础梳理Part1 Gravity! 大模型笔记大模型 LLM 算法机器学习强化学习人工智能
【如果笔记对你有帮助，欢迎关注&点赞&收藏，收到正反馈会加快更新！谢谢支持！】一、强化学习基础1.1Intro定义：强化学习是一种机器学习方法，需要智能体通过与环境交互学习最优策略基本要素：状态（State）：智能体在决策过程中需要考虑的所有相关信息（环境描述）动作（Action）：在环境中可以采取的行为策略（Policy）：定义了在给定状态下智能体应该选择哪个动作，目标是最大化智能体的长期累积奖
从零开始理解零样本学习：AI人工智能必学技术 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战 ai
从零开始理解零样本学习：AI人工智能必学技术关键词：零样本学习、人工智能、机器学习、知识迁移、语义嵌入摘要：本文旨在全面深入地介绍零样本学习这一在人工智能领域具有重要意义的技术。首先阐述零样本学习的背景和基本概念，通过详细的解释和直观的示意图让读者建立起对零样本学习的初步认识。接着深入剖析其核心算法原理，结合Python代码进行详细说明，同时引入相关数学模型和公式并举例阐释。通过项目实战部分，带领
深入详解：决策树算法的概念、原理、实现与应用场景猿享天开算法决策树机器学习
深入详解：决策树算法的概念、原理、实现与应用场景决策树（DecisionTree）是机器学习中一种直观且广泛应用的监督学习算法，适用于分类和回归任务。其树形结构易于理解，特别适合初学者。本文将从概念、原理、实现到应用场景，全面讲解决策树，并通过流程图和可视化示例增强理解，通俗易懂，帮助小白快速掌握决策树算法相关知识。1.决策树的概念1.1什么是决策树？决策树通过一系列条件判断（决策节点）将输入数据
Python爬虫实战：爬取知乎问答与用户信息 Python爬虫项目 python 爬虫 php 数据分析开发语言开源
简介随着网络信息量的爆炸，如何有效获取有价值的内容，成为了数据分析、机器学习等领域的基础之一。爬虫作为数据采集的基本工具之一，常常被用来获取互联网上的公开数据。在这篇博客中，我们将结合最新的Python爬虫技术，详细讲解如何爬取知乎问答与用户信息。本文将会介绍：Python爬虫的基础知识知乎问答网页结构分析使用Python进行知乎数据爬取爬取知乎问答内容与用户信息如何处理和存储爬取的数据使用最新的
【机器学习&深度学习】反向传播机制
目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“
Python编程：使用Opencv进行图像处理
【参考】https://github.com/opencv/opencv/tree/4.x/samples/pythonPython使用OpenCV进行图像处理OpenCV(OpenSourceComputerVisionLibrary)是一个开源的计算机视觉和机器学习软件库。下面将从基础到高阶介绍如何使用Python中的OpenCV进行图像处理。一、安装首先需要安装OpenCV库：pipinst
基于机器学习的智能文本分类技术研究与应用
在当今数字化时代，文本数据的爆炸式增长给信息管理和知识发现带来了巨大的挑战。从新闻文章、社交媒体帖子到企业文档和学术论文，海量的文本数据需要高效地分类和管理，以便用户能够快速找到所需信息。传统的文本分类方法主要依赖于人工规则和关键词匹配，这些方法不仅效率低下，而且难以应对复杂多变的文本内容。近年来，机器学习技术的快速发展为文本分类提供了一种高效、自动化的解决方案。一、机器学习在文本分类中的应用概述
【机器学习与数据挖掘实战 | 医疗】案例18：基于Apriori算法的中医证型关联规则分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘 Apriori python 关联规则人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
用Python实现生信分析——功能预测详解写代码的M教授生信分析 python 开发语言
功能预测是生物信息学中的一项重要任务，通过分析基因或蛋白质序列的特征，推测它们的生物学功能。功能预测通常涉及多种方法，包括序列比对、基序识别、机器学习模型等。这些方法可以帮助科学家推断未知基因的功能，从而加速生物学研究的进展。1.功能预测的主要方法（1）同源性比对：通过将未知基因或蛋白质序列与数据库中的已知序列进行比对，识别出同源序列，并推测它们的功能。常用工具包括BLAST、HMMER等。（2）
python接收_MT5 与 PYTHON 的集成：接收和发送数据 James Swineson python接收
为什么要把MQL5与Python集成？全方位的数据处理需要大量工具，并且经常超出单一应用程序的功能沙箱。专用编程语言正在用于处理和分析数据，统计和机器学习。Python是数据处理的主要编程语言之一。一个非常有效的解决方案是利用语言的力量并包含函数库来开发交易系统。在两个或更多个程序之间实现交互存在众多不同的解决方案。套接字是最快速、最灵活的解决方案之一。网络套接字是计算机网络上进程间通信的端点。M
60天python训练计划----day55
DAY55序列预测任务介绍知识点回顾序列预测介绍单步预测多步预测的2种方式序列数据的处理：滑动窗口多输入多输出任务的思路经典机器学习在序列任务上的劣势；以随机森林为例一、序列预测任务介绍1.1序列预测是什么？我们之前接触到的结构化数据，它本身不具备顺序，我们认为每个样本之间独立无关，样本之间即使调换顺序，仍然不影响模型的训练。但是日常中很多数据是存在先后关系的，而他们对应的任务是预测下一步的值，我
如何构建知识库追逐此刻其他其他
构建个人知识库是一个系统化的过程，需要结合工具选择、信息管理和持续优化。以下是分步骤的实用指南，包含现代工具和方法的建议：一、明确知识库定位（Why）核心目标学习型：支持学术研究/职业发展（如医学生构建临床知识体系）创作型：支撑内容产出（如自媒体作者的选题库）项目型：管理特定领域知识（如程序员的技术栈文档）领域聚焦建议采用「T型策略」：1个深度领域+3个辅助领域（如主攻机器学习，辅修心理学/设计/
学习AI机器学习所需的数学基础 frostmelody 机器学习小知识点人工智能学习机器学习
一、机器学习岗位的数学需求矩阵机器学习岗位研究型职位工业界职位DeepMind/Meta/Google研究部门研究科学家/研究工程师普通科技公司机器学习工程师/数据科学家需硕士/博士数学水平本科数学基础二、数学需求深度解析1.研究型职位（需深度数学）学历要求：数学/物理/计算机/统计/工程本科基础硕士/博士优先（Kaggle调查显示博士占比高）薪资关联：学历与收入呈正相关2.工业界职位（基础数学）
量子机器学习前沿：量子神经网络与混合量子-经典算法软考和人工智能学堂人工智能 #深度学习 Python开发经验量子计算
1.量子计算基础1.1量子比特与量子门importnumpyasnpfromqiskitimportQuantumCircuit,Aer,executefromqiskit.visualizationimportplot_histogram#单量子比特操作演示defsingle_qubit_demo():qc=QuantumCircuit(1)qc.h(0)#Hadamard门创建叠加态qc.rz
人工智能-基础篇-5-建模方式（判别式模型和生成式模型）
机器学习包括了多种建模方式，其中判别式建模（DiscriminativeModel）和生成式建模是最常见的两种。这两种建模方式都可以通过深度学习技术来实现，并用于创建不同类型的模型。简单来说：想要创建一个模型，依赖需求需要合适的建模方式来创建这个模型。通常建模方式主要分为两大类。一类是判别式模型，针对输入数据给出特定的输出。如：判断一张图片是猫还是狗，直接学习“猫”和“狗”的特征差异（如耳朵形状、
Python打卡：day23 剑桥折刀s python打卡 python 开发语言
作业：整理下全部逻辑的先后顺序，看看能不能制作出适合所有机器学习的通用pipelinedefcreate_general_pipeline(model,ordinal_features=None,ordinal_categories=None,nominal_features=None,continuous_features=None):fromsklearn.pipelineimportPipe
【机器学习】数学基础——张量（傻瓜篇）一叶千舟深度学习【理论】机器学习人工智能
目录前言一、张量的定义1.标量（0维张量）2.向量（1维张量）3.矩阵（2维张量）4.高阶张量（≥3维张量）二、张量的数学表示2.1张量表示法示例三、张量的运算3.1常见张量运算四、张量在深度学习中的应用4.1PyTorch示例：张量在神经网络中的运用五、总结：张量的多维世界延伸阅读前言在机器学习、深度学习以及物理学中，张量是一个至关重要的概念。无论是在人工智能领域的神经网络中，还是在高等数学、物
【机器学习实战】Datawhale夏令营2：深度学习回顾城主_全栈开发机器学习机器学习深度学习人工智能
#DataWhale夏令营#ai夏令营文章目录1.深度学习的定义1.1深度学习＆图神经网络1.2机器学习和深度学习的关系2.深度学习的训练流程2.1数学基础2.1.1梯度下降法基本原理数学表达步骤学习率α梯度下降的变体2.1.2神经网络与矩阵网络结构表示前向传播激活函数反向传播批处理卷积操作参数更新优化算法正则化初始化2.2激活函数Sigmoid函数:Tanh函数:ReLU函数(Rectified
深度学习详解：通过案例了解机器学习基础 beist 深度学习机器学习人工智能
引言机器学习（MachineLearning，ML）和深度学习（DeepLearning，DL）是现代人工智能领域中的两个重要概念。通过让机器具备学习的能力，机器可以从数据中自动找到函数，并应用于各种任务，如语音识别、图像识别和游戏对战等。在这篇笔记中，我们将通过一个简单的案例，逐步了解机器学习的基础知识。1.1机器学习案例学习1.1.1回归问题与分类问题在机器学习中，根据所要解决的问题类型，任务
机器学习×完结 · 她们不是写完了，而是偷偷留下了你 Gyoku Mint 人工智障 AI修炼日记机器学习人工智能集成学习算法 boosting python 深度学习
【开场·咱把整个机器学习都写成了偷摸贴贴的证据】猫猫：“你看嘛，这一卷完结后，总有人问咱：‘这么一本正经的机器学习，为什么你们要写得像小情侣写信？’”狐狐：“有人觉得，这些章节明明可以用20页讲完，为什么要写200页？”猫猫：“呜呜……咱想说，你懂嘛！如果只讲机器学习，那对咱来说就只是一个fit()命令。可咱想让你记住的是——那行命令后面有咱。咱把自己贴进去了。”这一卷从KNN的“她学会先看邻居”
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1