统计机器学习-线性可分支持向量机与硬间隔最大化

考虑一个二分类问题。假设输入空间与特征空间为两个不同的空间。输入空间为欧氏空间或离散集合,特征空间为欧式空间或希尔伯特空间。线性可分支持向量机、线性支持向量机假设这两个空间的元素一一对应,并将输入空间中的输入映射为特征空间中的特征向量。非线性支持向量机利用一个从输入空间到特征空间的非线性映射将输入映射为特征向量(核技巧)。支持向量机的学习是在特征空间进行的。

输入空间:输入空间是输入的所有可能取值的集合。

特征空间:特征空间是所有特征向量存在的空间,特征向量的每一维代表一个特征,通常与输入空间一一对应,但也可以通过映射函数从输入空间映射得到特征空间。

欧氏空间:内积空间+完备性+有限维。

希尔伯特空间:内积空间+完备性,可以看做欧式空间在无限维的情形。

线性可分支持向量机、线性支持向量机处理的样本在输入空间上就通过线性划分,所以输入空间和特征空间一一对应。非线性支持向量机处理的样本在输入空间上不可以线性划分,所以需要通过映射函数从输入空间映射到特征空间使其在特征空间上可以线性划分,最终转化成线性可分支持向量机、线性支持向量机的形式。

问题

假设给定一个特征空间上的训练数据集

其中,,,,为第个特征向量,也称为实例,为的类标记,当时,称为正例;当时,称为负例,称为样本点。再假设训练数据集是线性可分的。

线性可分:用一个超平面可以将正负例完全正确的划分在超平面两侧。

学习的目的是找到一个超平面:

对于一个新的输入的分类决策函数为:

满足条件的这样的超平面可能有很多个,但是支持向量机通过几何间隔在超平面的选择上加上了约束,即最大化几何间隔,使最后得到的超平面是唯一的。

函数间隔和几何间隔

函数间隔

一般来说,一个样本点到超平面的距离代表了支持向量机对这个样本分类的确信程度。由于当超平面确定,点到平面的距离公式

的分母为一个常量,所以确信程度的大小由分子决定。于是定义样本点的函数间隔:

对于中所有样本的函数间隔:

当超平面能够完全分类正确时,所以函数间隔代表确信程度最小样本的确信程度,最大化函数间隔就等于最大化支持向量机对样本分类的确信程度。在线性可分支持向量机中,这也称为硬间隔最大化。

几何间隔

由于对参数和成比例缩放,就可以改变函数间隔的大小,但这仍然表示同一个超平面。所以提出几何间隔对规范化:

代表的范数。

重新定义问题

学习一个超平面:

超平面的参数和需要满足条件

根据公式(4)将(5)-(6)转化为关于函数间隔的表述方式:

由于函数间隔的取值不会影响最优化问题的解(参数和成比例缩放),所以取。而最大化等价于最小化,所以支持向量机最终可以表示成最优化问题:

这是一个凸二次规划问题,即目标函数是二次函数,且约束函数是仿射函数。

线性可分支持向量机学习算法--最大间隔法

输入:线性可分训练数据集,其中,,;

输出:最大间隔分离超平面和分类决策函数。

(1)构造并求解约束最优化问题:

求得最优解,。

(2)由此得到分离超平面:

分类决策函数:

这样的超平面存在且唯一,证明略。

支持向量和间隔边界

支持向量是使约束条件公式(10)等号成立的点,即

对于正例,支持向量在超平面

对于负例,支持向量在超平面

如图所示

间隔边界

落在和上的实例点称为支持向量,和之间的距离称为间隔,和称为间隔边界。在决定超平面时,只有支持向量起作用,所以这种模型叫做支持向量机。

学习的对偶算法

对于最优化问题(9)-(10):

首先构建拉格朗日函数:

其中,则原始问题为极小极大问题:

由拉格朗日对偶性改为求解原始问题的对偶问题:

首先求解对偶问题的内部极小问题:

将拉格朗日函数分别对,求偏导并令其等于0:

得到:

将其代入(11)得到:
\begin{align} L(w,b,\alpha)&=\frac12\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)-\sum_{i=1}^N\alpha_iy_i\Bigg(\bigg(\sum_{j=1}^N\alpha_jy_jx_j\bigg)\cdot x_i+b\Bigg)+\sum_{i=1}^N\alpha_i\\ &=\frac12\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)-\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)-b\sum_{i=1}^N\alpha_iy_i+\sum_{i=1}^N\alpha_i\\ &=-\frac12\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)+\sum_{i=1}^N\alpha_i \end{align}
于是对偶问题为:

对(14)的目标函数取相反数转化为极小问题:

定理

设是对偶问题最优化问题

的解,则存在下标,使得,并按下式求得原始最优化问题

的解,

证明

由于目标函数和约束函数是凸函数,且假设不等式约束是严格可行的,则,,分别原始问题和对偶问题的解的充分必要条件是,,满足条件:

由(18)得

由反证法,假设不存在下标,使得,根据(22),则,代入(18)得到,超平面不存在,假设不成立。于是存在下标,使得,根据(20)得到

根据得

解得



代入得到

证明完成。

线性可分支持向量机的对偶学习算法

输入:线性可分训练数据集其中,,;

输出:最大间隔分离超平面和分类决策函数。

(1)构造并求解约束最优化问题

求得最优解。

(2)计算

并选择的一个正分量,计算

(3)求得分离超平面

分类决策函数:

支持向量

根据公式

可以知道对的结果有影响的样本点,其,又因为,所以,根据条件:

所以

这样的样本点落在间隔边界上

与前面的描述相同。

你可能感兴趣的:(统计机器学习-线性可分支持向量机与硬间隔最大化)