线性可分支持向量机与硬间隔最大化

本文来自我的个人博客 https://www.zhangshenghai.com/posts/44274/

支持向量机的基本想法是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。

线性可分支持向量机

考虑一个二分类问题, 假设输入空间和特征空间是两个不同的空间。

  • 输入空间:欧式空间或离散集合

  • 特征空间:欧式空间或希尔伯特空间

  • 线性可分支持向量机、线性支持向量机:假设这两个空间中的元素一一对应,并将输入空间

    中的输入映射为特征空间中的特征向量

  • 非线性支持向量机:利用一个从输入空间到特征空间的非线性映射将输入映射为特征向量

输入都由输入空间转换到特征空间,支持向量机的学习是在特征空间进行的。

假设给定一个特征空间上的训练数据集:

样本分为正例和负例。

学习的目标:找到分离超平面 。

和感知机不同(利用误分类最小的策略求分离超平面,解有无穷个),线性可分支持向量机利用间隔最大化求最优分离超平面,解是唯一的。

决策函数 。

其实,在二维特征空间的分类问题中,有许多直线能将两类数据正确划分,线性可分支持向量机对应着将两类数据正确划分并且间隔最大的直线。

函数间隔和几何间隔

函数间隔

定义超平面()关于样本点()的函数间隔为 。

定义超平面()关于训练集的函数间隔为 。

函数间隔表示分类预测的正确性和确信度。

几何间隔

如下图所示,点A与超平面()的距离由线段AB给出,记作:

定义超平面()关于训练集的几何间隔为 。

函数间隔和几何间隔的关系

如果超平面参数w和b成比例地改变(超平面没有变),函数间隔也按此比例改变,而几何间隔不变。

间隔最大化

最大间隔分离超平面

具体地,求一个几何间隔最大的分离超平面,即最大间隔分离超平面可以表示为下面的约束最优化问题:

根据几何间隔和函数间隔的关系:

函数间隔 的取值不影响最优化问题的解,可以取 。

最大化 和最小化 是等价的,为了求导方便,我们将其等价为最小化 。

则线性可分支持向量机的最优化问题如下,这是一个求解最优解的凸二次规划问题:

补充:凸优化问题是指约束最优化问题:

其中,目标函数和约束函数都是上连续可微的凸函数,约束函数是上的仿射函数。

当目标函数为二次函数且约束函数是仿射函数时,凸最优化问题成为凸二次规划问题。

支持向量和间隔边界

在线性可分情况下,训练集的样本点中与分离超平面距离最近的样本点的实例称为支持向量

支持向量使得约束条件式等号成立,即。

  • 正例:
  • 负例:

如下图所示:

与平行,它们之间形成一条长带,分离超平面位于它们中央且与之平行。长带的宽度称为间隔,等于,和称为间隔边界。

在决定分离超平面时只有支持向量起作用,而其他实例点并不起作用。

线性可分支持向量机学习算法——最大间隔法

输入:线性可分训练数据集

线性可分训练数据集 ,其中 ,,。

输出:最大间隔分离超平面和分类决策函数

构造并求解约束最优化问题:

得到分离超平面分类决策函数

给出《统计学习方法》中的一个例子:

学习的对偶算法

关于拉格朗日对偶的介绍可以参考我的上一篇笔记。应用拉格朗日对偶性,通过求解对偶问题得到原始问题的最优解。

这样做有两个优点:

  • 对偶问题往往更容易求解
  • 自然引入核函数,进而推广到非线性分类问题

首先构建拉格朗日函数,为每一个不等式约束引进拉格朗日乘子:
\begin{align*} \\ & L \left( w, b, \alpha \right) = \dfrac{1}{2} \| w \|^{2} + \sum_{i=1}^{N} \alpha_{i} \left[- y_{i} \left( w \cdot x_{i} + b \right) + 1 \right] \\ & = \dfrac{1}{2} \| w \|^{2} - \sum_{i=1}^{N} \alpha_{i} y_{i} \left( w \cdot x_{i} + b \right) + \sum_{i=1}^{N} \alpha_{i} \end{align*}
根据拉格朗日对偶性,原始问题的对偶问题是极大极小问题:

为了得到对偶问题的解,需要先求对的极小,再求对的极大。

求极小

将拉格朗日函数分别对求偏导数并令其等于0:
\begin{align*} \\ & \nabla _{w} L \left( w, b, \alpha \right) = w - \sum_{i=1}^{N} \alpha_{i} y_{i} x_{i} = 0 \\ & \nabla _{b} L \left( w, b, \alpha \right) = -\sum_{i=1}^{N} \alpha_{i} y_{i} = 0 \end{align*}


代入拉格朗日函数,得
\begin{align*} \\ & L \left( w, b, \alpha \right) = \dfrac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j} \left( x_{i} \cdot x_{j} \right) - \sum_{i=1}^{N} \alpha_{i} y_{i} \left[ \left( \sum_{j=1}^{N} \alpha_{j} y_{j} x_{j} \right) \cdot x_{i} + b \right] + \sum_{i=1}^{N} \alpha_{i} \\ & = - \dfrac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j} \left( x_{i} \cdot x_{j} \right) - \sum_{i=1}^{N} \alpha_{i} y_{i} b + \sum_{i=1}^{N} \alpha_{i} \\ & = - \dfrac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j} \left( x_{i} \cdot x_{j} \right) + \sum_{i=1}^{N} \alpha_{i} \end{align*}

\begin{align*} \\ & \min_{w,b}L \left( w, b, \alpha \right) = - \dfrac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j} \left( x_{i} \cdot x_{j} \right) + \sum_{i=1}^{N} \alpha_{i} \end{align*}

求极大

求,即是对偶问题:
\begin{align*} \\ & \max_{\alpha} - \dfrac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j} \left( x_{i} \cdot x_{j} \right) + \sum_{i=1}^{N} \alpha_{i} \\ & s.t. \sum_{i=1}^{N} \alpha_{i} y_{i} = 0 \\ & \alpha_{i} \geq 0, \quad i=1,2, \cdots, N \end{align*}
将上式由求极大转换成求极小,得到下面与之等价的对偶最优化问题:
\begin{align*} \\ & \min_{\alpha} \dfrac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j} \left( x_{i} \cdot x_{j} \right) - \sum_{i=1}^{N} \alpha_{i} \\ & s.t. \sum_{i=1}^{N} \alpha_{i} y_{i} = 0 \\ & \alpha_{i} \geq 0, \quad i=1,2, \cdots, N \end{align*}
对线性可分训练数据集,假设上面对偶最优化问题对的解为,可以由求得原始最优化问题对(w, b)的解。有下面的定理:

线性可分支持向量机学习算法

输入:线性可分训练数据集

线性可分训练数据集 ,其中 ,,。

输出:分离超平面和分类决策函数

  1. 构造并求解约束最优化问题:

\begin{align*} \\ & \min_{\alpha} \dfrac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j} \left( x_{i} \cdot x_{j} \right) - \sum_{i=1}^{N} \alpha_{i} \\ & s.t. \sum_{i=1}^{N} \alpha_{i} y_{i} = 0 \\ & \alpha_{i} \geq 0, \quad i=1,2, \cdots, N \end{align*}

​ 得到最优解。

  1. 计算

    并选择的一个正分量,计算

  2. 求得分类超平面:

    分类决策函数:

同样给出一个对偶形式算法的例子,训练数据和上一个例子相同:

你可能感兴趣的:(线性可分支持向量机与硬间隔最大化)