SVM支持向量机的数学推导

本文为整理老师PPT结果,仅作为个人学习使用

支持向量机学习方法有一些由简至繁的模型:

  • 线性可分SVM
当训练数据线性可分时,通过硬间隔(hard margin,什么是硬、软间隔下面会讲)最大化可以学习得到一个线性分类器,即硬间隔SVM,如上图的的H3。
  • 线性SVM
当训练数据不能线性可分但是可以近似线性可分时,通过软间隔(soft margin)最大化也可以学习到一个线性分类器,即软间隔SVM。
  • 非线性SVM
当训练数据线性不可分时,通过使用核技巧(kernel trick)和软间隔最大化,可以学习到一个非线性SVM。

 2. 线性可分SVM——硬间隔

考虑如下形式的线性可分的训练数据集:

{(X_1,y_1),(X_2,y_2),...,(X_n,y_n)}

其中X_i表示一个含有d个元素的列向量,即 X_i\in \mathbf{R}^dy_i是标量,y_i\in{+1,-1}y_i=+1表示X_i属于正类别,y_i=-1表示X_i属于负类别。

注: 本文中, X_i是(列)向量,有的文章一般用 x_i 表示一个向量而用 X 表示所有x_i 组成的一个矩阵,注意区分。

回忆一下感知机的目标: 找到一个超平面使其能正确地将每个样本正确分类。感知机使用误分类最小的方法求得超平面,不过此时解有无穷多个(例如图的H2和H3以及它俩的任意线性组合)。而线性可分支持向量机利用间隔最大化求最优分离超平面,这时解是唯一的。

2.1 超平面与间隔

一个超平面由法向量W和截距b,其方程X^TW+b=0,可以规定法向量指向的一侧为正类,另一侧为负类。下图画出了三个平行的超平面,法方向取左上方向。

注意: 如果XW都是列向量,即X^TW会得到XW的点积(dot product, 是一个标量),等价于X \cdot WW \cdot X

SVM支持向量机的数学推导_第1张图片

 为了找到最大间隔超平面,我们可以先选择分离两类数据的两个平行超平面,使得它们之间的距离尽可能大。在这两个超平面范围内的区域称为“间隔(margin)”,最大间隔超平面是位于它们正中间的超平面。这个过程如上图所示。

2.2 间隔最大化

将高数里面求两条平行直线的距离公式推广到高维可求得图中margin的\rho

margin = \rho = \frac 2 {||W||}

我们的目标是使\rho最大,等于于使\rho^2最大:

\underset{W,b}{max} \rho \iff \underset{W,b}{max} \rho^2 \iff \underset{W,b}{min}\frac 1 2 ||W||^2

上式的\frac 1 2是为了后续求导后刚好能消去,没有其他特殊意义。

同时也不要忘了有一些约束条件:

\begin{array}{c} X_{i}^{T} W+b \geq+1, y_{i}=+1 \\ X_{i}^{T} W+b \leq-1, y_{i}=-1 \end{array}
 

总结一下,间隔最大化问题的数学表达就是

\begin{array}{c} \underset{W,b}{min} J(W)=\underset{W,b}{min} \frac{1}{2}\|W\|^{2} \\ \text { s.t. } \quad y_{i}\left(X_{i}^{T} W+b\right) \geq 1, i=1,2, \ldots n . \end{array}

2.3 支持向量

在线性可分的情况下,训练数据集的样本点中与分离超平面距离最近的数据点称为支持向量(support vector),,支持向量是使约束条件取等的点,即满足

y_i(X_i^TW+b) = 1

的点。

也即所有在直线 X^TW+b = 1或者直线X^TW+b = -1的点。如下图:

SVM支持向量机的数学推导_第2张图片

 在决定最佳超平面时只有支持向量起作用,而其他数据点并不起作用。如果移动非支持向量,甚至删除非支持向量都不会对最优超平面产生任何影响。也即支持向量对模型起着决定性的作用,这也是“支持向量机”名称的由来。

2.4 对偶问题

我们称上式子所述问题为原始问题(primal problem), 可以应用拉格朗日乘子法构造拉格朗日函数(Lagrange function)再通过求解其对偶问题(dual problem)得到原始问题的最优解。转换为对偶问题来求解的原因是:

  • 对偶问题更易求解,由下文知对偶问题只需优化一个变量\alpha_i且约束条件更简单;
  • 能更加自然地引入核函数,进而推广到非线性问题。

首先构建拉格朗日函数。为此需要引进拉格朗日乘子(Lagrange multiplier) \alpha_i \ge 0, i=1,2,...n。则拉格朗日函数为:

L(W, b, \alpha)=\frac{1}{2}\|W\|^{2}-\sum_{i=1}^{n} \alpha_{i}\left[y_{i}\left(X_{i}^{T} W+b\right)-1\right]

因此,给定一个 Wb,若不满足间隔最大化问题的数学表达约束条件,那么有

\underset{\alpha}{max} L(W,b,\alpha) = +\infty

否则,若满足式子的条件,有

\underset{\alpha}{max} L(W,b,\alpha) = J(W) = \frac 1 2 ||W||^2

 优化问题即为

\underset{W, b}{min} \underset{\alpha}{max} L(W,b,\alpha)

根据拉格朗日对偶性,\underset{W,b}{min} \max _{\alpha} L(W, b, \alpha)所描述问题的对偶问题是:

\max _{\alpha} \min _{W, b} L(W, b, \alpha)

以上具体推导细节可参见书籍《统计学习方法》

 

你可能感兴趣的:(深度学习)