SVM算法相关推导。[一]

网上有很多介绍SVM的文章,csdn里写得最好的是

July大神的 支持向量机通俗导论(理解SVM的三层境界),该文最初写于2012年6月,而后不断反反复复修改&优化,修改次数达上百次,最后修改于2016年11月。

下面的文章只是我自己的笔记。可以配合July的文章理解。我把理解SVM需要的参考资料概念都贴过来。包括对偶,朗格朗日乘子, KKT条件等理解SVM需要的概念等。

本文是学习吴恩达S229 机器学习课的关于SVM的笔记整理。

SVM主要是二分类算法, 通过支持向量,在很少的数据集上也能表现不错。而且SVM通过核函数,容易扩展到非线性空间。还有一个有点,SVM可以支持很多维甚至是无限维的特征空间。

SVM也可以扩展到回归算法SVR。或者多分类问题。

  1. 基本的符号表示

SVM里面函数的类别一般用-1,1来表示反例和正例。即

y\in \{-1, +1\}

定义一个g函数有

g(z)=\left\{\begin{matrix} 1 &z >= 0\\-1 &otherwise \end{matrix}\right.

那么针对线性情况有

h_\theta (x)=g(\theta^Tx)   其中 x\in\mathbb{R}^{n+1} 并且x_0=1

其实就是

h_{w,b}(x)=g(w^T+b)

其中w就是特征向量, b就是截取值

w=\begin{bmatrix} \theta_1 \\ \vdots \\ \theta_n\\ \end{bmatrix} ,

 b=\theta_0 

2. 间隔的概念

根据线性分类器的基础概念我们知道,要求一个超平面用来分割两类数据

超平面为

w^Tx+b=0

那么距离超平面的距离就是

f(x)=w^Tx+b

对每一个样本 (x^{(i)}, y^{(i)}),y值都是-1, 或1, 所以样本距离超平面的距离总可以表示为

\hat{y^{(i)}}=y^{(i)}(w^Tx^{(i)}+b)

y^{(i)}==1的时候需要w^Tx^{(i)}+b\gg 0

y^{(i)}==-1的时候需要w^Tx^{(i)}+b\ll 0

如果样本的\hat{y^{(i)}}>0 则表示样本被正确分类。

每个样本都有一个距离,叫做函数间隔

\hat\gamma=\underset{i}{\min}\ \hat{y^{(i)}} =\underset{i}{\min}\ y^{(i)}(w^Tx^{(i)}+b)

几何间隔直观的理解就是点到直线的距离,度量为单位法线

\frac{w}{\left \| w \right \|}

这样已知一个采样点 (x^{(i)}, y^{(i)}), 那么这个点沿着直线的法线反方向移动一段距离就可以到直线上的点。

x^{(i)}-\gamma^{(i)}\cdot \frac{w}{\left \| w \right \| }

这个距离\gamma^{(i)}就是几何间距

因为得到的点在直线上,所以有

w^T(x^{(i)}-\gamma^{(i)}\cdot\frac{w}{\left \| w \right \|})+b=0

对该式求解\gamma^{(i)}:

w^Tx^{(i)}+b=\gamma^{(i)}\frac{w^Tw}{\left \| w \right \|}=\gamma^{(i)}\left \|w\right\|

因此有

\gamma^{(i)}=(\frac{w}{\left\|w\right\|})^Tx^{(i)}+\frac{b}{\left\|w\right\|}

考虑到y的取值范围为-1 或者 1,那么得到正的几何距离

\gamma^{(i)}=y^{(i)}\left[\frac{w^T}{\left\|w\right\|}x^{(i)}+\frac{b}{\left\|w\right\|}\right]

因此可以看出函数边界和几何边界的关系

\gamma^{(i)}=\frac{\hat\gamma^{(i)}}{\left\|w\right\|}

3. 最大间隔分类器

对真个训练集,几何间隔为

\gamma=\underset{i}{\min } \ \gamma^{(i)}

最大间隔分类器算法会选择w, b 使的\gamma最大,即可以描述为

\underset{\gamma,w,b}{\max}\ \gamma\\s.t\begin{cases} y^{(i)}(w^Tx^{(i)}+b)\geq \gamma \\ \left \|w\right\|=1 \end{cases}

 

因为||w||=1是非凸性约束,我们考虑函数间隔

\underset{\hat{\gamma},w,b}{\max}\ \frac{\hat{\gamma}}{\left\|w\right\|}\\ s.t.\ y^{(i)}(w^Tx^{(i)}+b)\geq\hat\gamma

对w, b 任意缩放都不影响结果,所以不妨假设\hat\gamma=1

这样我们最大话的目标其实是 1/||w||

因而我们的求解目标可以变为 在约束下min||w||^2

\underset{w,b}{\min}\ \left\|w\right\|^2\\ s.t. \ y^{(i)}(w^Tx^{(i)}+b)\geq1

这样就变成了凸优化问题。

 

你可能感兴趣的:(SVM算法相关推导。[一])