传统机器学习-SVM

SVM涉及距离,和KNN一样,要做数据标准化处理。

传统机器学习-SVM_第1张图片

看吴恩达SVM,补充笔记https://blog.csdn.net/qq_xuanshuang/article/details/105361122 

1-什么是SVM

Hard Margin SVM:前提,样本是线性可分的

传统机器学习-SVM_第2张图片

2-SVM背后的最优化问题

SVM:最大化margin,其中margin=2d,即SVM要最大化d。

回忆解析几何,点到直线的距离:

(x,y)到Ax+By+C=0的距离, \frac{|Ax+By+C|}{\sqrt{A^2+B^2}}

拓展到n维空间, \theta^Tx_b=0 \Rightarrow w^Tx +b = 0,有\frac{w^Tx+b}{||w||}

经过一系列变化,最优化的目标是(带约束的最优化问题)

                                         \begin{aligned} &min(\frac{1}{2}||w||^2) \\ & s.t. \ y^{(i)}(w^Tx^{(i)}+b)\geqslant 1 \end{aligned} 

函数间隔 VS 几何间隔

线性可分支持向量机利用间隔最大化求解最优分离超平面(解是唯一的)。

一般来说,一个点距离分离超平面的远近可以表示分类预测的确信程度。在超平面w \cdot x+b=0确定的情况下,|w \cdot x +b|能够相对地表示点x距离超平面的远近。而w \cdot x+b的符号与类标记y的符号是否一致能够表示分类是否正确。所以可用y(w \cdot x+b)来表示分类的正确性及确信度,这就是函数间隔(functionalmargin)。

定义超平面(w,b)关于训练数据集T的函数间隔为超平面(w,b)关于T中所有样本点(x^{(i)},y^{(i)})的函数间隔之最小值,函数间隔可以表示分类预测的正确性及确信度。但是选择分离超平面时,只有函数间隔还不够。因为只要成比例地改变w和b,例如将它们改为2w和2b,超平面并没有改变,但函数间隔却成为原来的2倍。这一事实启示我们。可以对分离超平面的法向量w加某些约束,如规范化,||w||=1,使得间隔是确定的。这时函数间隔成为几何间隔(geometric margin)。

                                \begin{matrix} \gamma^{(i)}=\left\{\begin{matrix} \frac{w}{||w||} \cdot x^{(i)} + \frac{b}{||w||} & if \ y^{(i)}=+1\\ -(\frac{w}{||w||} \cdot x^{(i)} + \frac{b}{||w||}) & if \ y^{(i)}=-1 \end{matrix}\right| \end{matrix} \Rightarrow \gamma^{(i)}=y^{(i)}(\frac{w}{||w||} \cdot x^{(i)} + \frac{b}{||w||})

定义超平面(w,b)关于训练数据集T的几何间隔为超平面(w,b)关于T中所有样本点(x^{(i)},y^{(i)})的几何间隔之最小值,即

                                \gamma = \min_{i=1,\cdots, m} \gamma^{(i)}

求一个几何间隔最大的分离超平面,即最大间隔分离超平面。具体地,这个问题可以表示为下面的约束最优化问题:

                               \max_{w,b} \gamma \\ s.t. \ y^{(i)}(\frac{w}{||w||}\cdot x^{(i)}+\frac{b}{||w||})\geqslant \gamma, \ i=1,2,\cdots, m

即我们希望最大化超平面(w,b)关于训练数据集的几何间隔\gamma,约束条件表示的超平面(w,b)关于每个训练样本点的几何间隔至少是\gamma。考虑几何间隔和函数间隔的关系式,可将这个问题改写为:

                                \max_{w,b} \frac{\hat{\gamma}}{||w||} \\ s.t. \ y^{(i)}(w\cdot x^{(i)}+b)\geqslant \hat{ \gamma}, \ i=1,2,\cdots, m

函数间隔\hat{\gamma}的取值并不影响最优化问题的解。事实上,假设将w和b按比例改变为\lambda w\lambda b,这时函数间隔成为\lambda \hat{\gamma}。函数间隔的这一改变对上面最优化问题的不等式约束没有影响,对目标函数的优化也没有影响,也就是说,它产生一个等价的最优化问题。这样,就可以取\hat{\gamma} = 1。将\hat{\gamma} = 1代入上面的最优化问题,注意到最大化1/||w||和最小化0.5||w||^2是等价的,于是就得到下面的线性可分支持向量机的最优化问题:

                                 \min_{w,b}(\frac{1}{2}||w||^2) \\ s.t. \ y^{(i)}(w^Tx^{(i)}+b)\geqslant 1, i= 1, 2, \cdots ,m

支持向量和间隔边界

在线性可分情况下,训练数据集的样本点中与分离超平面距离最近的样本点的实例成为支持向量。支持向量使约束条件式等号成立的点,即

                                  y^{(i)}(w^Tx^{(i)}+b)= 1

y^{(i)}=+1的正例点,支持向量在超平面

                                 H1: w \cdot x+b=1

上,对y^{(i)}=-1的负例点,支持向量在超平面

                                   H2: w \cdot x+b=-1

上,如下图:在H1和H2上的点就是支持向量

                              传统机器学习-SVM_第3张图片
注意到H1和H2平行,并且没有实例点落在它们中间。在H1与H2之间形成一条长带,分离超平面与它们平行且位于它们中央。长带的宽度,即H1与H2之间的距离成为间隔。间隔依赖于分离超平面的法向量w,等于2/||w||,H1和H2称为间隔边界。
在决定分离超平面时只有支持向量起作用,而其他实例点并不起作用。如果移动支持向量将改变所求的解;但是如果在间隔边界以外移动其他实例点,甚至去掉这些点,则解是不会改变的。由于支持向量在确定分离超平面中起着决定性作用,所以将这种分类模型成为支持向量机。支持向量的个数一般很少,所以支持向量机由很少的“重要的”训练样本确定。 

学习的对偶算法

 带约束的最优化问题可用拉格朗日算子求解。

                                 L(w,b,\alpha) = \frac{1}{2}||w||^2 - \sum_{i=1}^m\alpha^{(i)}y^{(i)}(w\cdot x^{(i)} +b - 1) \ \ \ \ \ \ (1) 

其中,\alpha^{(i)} \geqslant 0, i=1, 2, \cdots, m\alpha = (\alpha^{(1)}, \alpha^{(2)},\cdots, \alpha^{(m)})^T为拉格朗日乘子向量。 

根据拉格朗日对偶性,原始问题的对偶问题是极大极小问题:

                                 \max_\alpha \min_{w,b}L(w,b,\alpha) \ \ \ \ \ \ (2)

所以,为了得到对偶问题的解,需要先求L(w,b,\alpha)对w,b极小,再求对\alpha的极大。

(1)    求min_{w,b}L(w,b,\alpha)分别对w,b求偏导数并令其等于0。

                                  \begin{aligned} \left.\begin{matrix} \triangledown_w L(w,b,\alpha) &=w-\sum_{i=1}^m \alpha^{(i)}y^{(i)}x^{(i)}=0 \\ \triangledown_b L(w,b,\alpha) &=\sum_{i=1}^m \alpha^{(i)}y^{(i)}}=0 \end{matrix}\right| \end{aligned} \Rightarrow \begin{aligned} \left.\begin{matrix} w =-\sum_{i=1}^m \alpha^{(i)}y^{(i)}x^{(i)} \\ \sum_{i=1}^m \alpha^{(i)}y^{(i)}}=0 \end{matrix}\right| \end{aligned} \ \ \ \ \ \ (3)

              将(3)带入(1)有

                                   \begin{aligned} L(w, b, \alpha)&=\frac{1}{2}\sum_{i=1}^m \sum_{j=1}^m \alpha^{(i)}\alpha^{(j)}y^{(i)}y^{(j)}(x^{(i)} \cdot x^{(j)}) \\ &-\sum_{i=1}^m \alpha^{(i)}y^{(i)}((\sum_{j=1}^m\alpha^{(j)}y^{(j)}x^{(j)})\cdot x^{(j)} + b) + \sum_{i=1}^m\alpha^{(i)} \\ &=-\frac{1}{2}\sum_{i=1}^m \sum_{j=1}^m \alpha^{(i)}\alpha^{(j)}y^{(i)}y^{(j)}(x^{(i)} \cdot x^{(j)}) +\sum_{i=1}^m\alpha^{(i)} \end{aligned}

              即

                                  \min_{w,b}L(w,b,\alpha)=-\frac{1}{2}\sum_{i=1}^m \sum_{j=1}^m \alpha^{(i)}\alpha^{(j)}y^{(i)}y^{(j)}(x^{(i)} \cdot x^{(j)})+\sum_{i=1}^m\alpha^{(i)}

(2)求min_{w,b}L(w,b,\alpha)\alpha的极大,即是对偶问题。

                                   \begin{aligned} &\max_\alpha -\frac{1}{2}\sum_{i=1}^m \sum_{j=1}^m \alpha^{(i)}\alpha^{(j)}y^{(i)}y^{(j)}(x^{(i)} \cdot x^{(j)})+\sum_{i=1}^m\alpha^{(i)} \\ &s.t. \ \ \sum_{i=1}^m\alpha^{(i)}y^{(i)}=0 \\ & \ \ \ \ \ \ \alpha^{(i)} \geqslant 0, \ \ \ \ i=1,2,\cdots,m \end{aligned}

将上面的目标函数由求极大转换成求极小,则得下面与之等价的对偶最优化问题。

                                   \begin{aligned} &\min_\alpha \frac{1}{2}\sum_{i=1}^m \sum_{j=1}^m \alpha^{(i)}\alpha^{(j)}y^{(i)}y^{(j)}(x^{(i)} \cdot x^{(j)})-\sum_{i=1}^m\alpha^{(i)} \\ &s.t. \ \ \sum_{i=1}^m\alpha^{(i)}y^{(i)}=0 \\ & \ \ \ \ \ \ \alpha^{(i)} \geqslant 0, \ \ \ \ i=1,2,\cdots,m \end{aligned}

解出\alpha后,求出wb即可得到模型:

                                    f(x)=w^Tx+b=-\sum_{i=1}^m\alpha^{(i)}y^{(i)}x^{(i)}^Tx+b \ \ \ \ \ \ \ \ (4)

注意到是不等式约束,因此上述过程需满足KKT条件,即

                                     \left\{\begin{matrix} \alpha^{(i)} \geqslant 0\\ y^{(i)}f(x^{(i)})-1 \geqslant 0\\ \alpha^{(i)}(y^{(i)}f(x^{(i)})-1)=0 \end{matrix}\right.

注:KKT条件主要包含三大部分:
①:拉格朗日乘子≥0
②:原问题的约束条件
③:拉格朗日函数中的拉格朗日乘子项=0   

从KKT条件可以看出,对于任意训练样本(x^{(i)},y^{(i)}) ,总有\alpha^{(i)}y^{(i)}f(x^{(i)})=1。若\alpha^{(i)}=0,则该样本将不会出现在式(4)的求和项中,即不会对f(x)有任何影响;若\alpha^{(i)}>0,则必有 y^{(i)}f(x^{(i)})=1,即该样本位于最大间隔边界上,是一个支持向量。这显示出支持向量机一个重要结论:训练完成后,大部分的训练样本都不需要保留,最终模型仅与支持向量有关。                      

3-Soft Margin SVM 和SVM的正则化

下面两幅图,均是Hard Margin SVM,第一个可能泛化不好,第二个线性不可分,Hard Margin SVM无法得到结果,无法应用。

传统机器学习-SVM_第4张图片传统机器学习-SVM_第5张图片

Soft Margin SVM

其思想,允许模型犯一定的错误,Hard不允许有样本存在在这两条线之间,soft可以。其中\pounds _i不是一个固定的值,而是每个样本都有自己的\pounds,例我们有m个样本,则\pounds也有m个数值,即每一个数据点都可以有一个容错空间。

传统机器学习-SVM_第6张图片

经过一系列变化,最优化的目标是(带约束的最优化问题) 

                      \begin{aligned} \left.\begin{matrix} &\min(\frac{1}{2}||w||^2 + C \sum_{i=1}^m\pounds^{(i)} ) \\ &s.t. \ y^{(i)}(w^Tx^{(i)}+b)\geqslant 1 - \pounds^{(i)}, i=1,2,\cdots,m \\ &\pounds^{(i)} \geqslant 0, i=1,2,\cdots,m \\ &L1 \end{matrix}\right| \left.\begin{matrix} \min(\frac{1}{2}||w||^2 + C \sum_{i=1}^m\pounds^{(i)^2} ) \\ s.t. \ y^{(i)}(w^Tx^{(i)}+b)\geqslant 1 - \pounds^{(i)}, i=1,2,\cdots,m \\ \pounds^{(i)} \geqslant 0, i=1,2,\cdots,m \\ L2 \end{matrix}\right| \end{aligned}

学习的对偶算法

 带约束的最优化问题可用拉格朗日算子求解。

              \begin{aligned} L(w,b,\xi ,\alpha,\mu ) = \frac{1}{2}||w||^2 +C\sum_{i=1}^m\xi^{(i)}- \sum_{i=1}^m\alpha^{(i)}y^{(i)}(w\cdot x^{(i)} +b - (1-\xi^{(i)})) -\sum_{i=1}^m\mu^{(i)}\xi^{(i)} \ \ \ \ \ \ (1) \end{aligned} 

其中,\alpha^{(i)} \geqslant 0 , \mu^{(i)} \geqslant 0

根据拉格朗日对偶性,原始问题的对偶问题是极大极小问题:

               \max_{\alpha,\mu} \min_{w,b,\xi}L(w,b,\xi ,\alpha,\mu ) \ \ \ \ \ \ (2)

所以,为了得到对偶问题的解,需要先求L(w,b,\xi ,\alpha,\mu )w,b,\xi极小,再求对\alpha,\mu的极大。

(1)    求min_{w,b,\xi}L(w,b,\xi ,\alpha,\mu )分别对w,b,\xi求偏导数并令其等于0。

                                  \begin{aligned} \left.\begin{matrix} \triangledown_w L(w,b,\xi,\alpha,\mu) &=w-\sum_{i=1}^m \alpha^{(i)}y^{(i)}x^{(i)}=0 \\ \triangledown_b L(w,b,\xi,\alpha,\mu) &=\sum_{i=1}^m \alpha^{(i)}y^{(i)}}=0 \\ \triangledown_{\xi^{(i)}} L(w,b,\xi,\alpha,\mu) &=C-\alpha^{(i)}-\mu^{(i)}=0 \end{matrix}\right| \end{aligned} \Rightarrow \begin{aligned} \left.\begin{matrix} w =-\sum_{i=1}^m \alpha^{(i)}y^{(i)}x^{(i)} \\ \sum_{i=1}^m \alpha^{(i)}y^{(i)}}=0 \\ C - \alpha^{(i)} -\mu^{(i)}=0 \end{matrix}\right| \end{aligned} \ \ \ \ \ \ (3)

              将(3)带入(1)有

                                   \begin{aligned} L(w, b,\xi, \alpha,\mu)&=\frac{1}{2}\sum_{i=1}^m \sum_{j=1}^m \alpha^{(i)}\alpha^{(j)}y^{(i)}y^{(j)}(x^{(i)} \cdot x^{(j)}) + C\sum_{i=1}^m\xi^{(i)}\\ &-\sum_{i=1}^m \alpha^{(i)}y^{(i)}((\sum_{j=1}^m\alpha^{(j)}y^{(j)}x^{(j)})\cdot x^{(j)} + b+\xi^{(i)}) + \sum_{i=1}^m\alpha^{(i)} - \sum_{i=1}^m\mu^{(i)}\xi^{(i)} \\ &=-\frac{1}{2}\sum_{i=1}^m \sum_{j=1}^m \alpha^{(i)}\alpha^{(j)}y^{(i)}y^{(j)}(x^{(i)} \cdot x^{(j)}) +\sum_{i=1}^m\alpha^{(i)} \end{aligned}

              即

                                  \min_{w,b,\xi} L(w, b,\xi, \alpha,\mu)=-\frac{1}{2}\sum_{i=1}^m \sum_{j=1}^m \alpha^{(i)}\alpha^{(j)}y^{(i)}y^{(j)}(x^{(i)} \cdot x^{(j)})+\sum_{i=1}^m\alpha^{(i)}

(2)求min_{w,b,\xi} L(w, b,\xi, \alpha,\mu)\alpha的极大,即是对偶问题。

                                   \begin{aligned} &\max_\alpha -\frac{1}{2}\sum_{i=1}^m \sum_{j=1}^m \alpha^{(i)}\alpha^{(j)}y^{(i)}y^{(j)}(x^{(i)} \cdot x^{(j)})+\sum_{i=1}^m\alpha^{(i)} \\ &s.t. \ \ \sum_{i=1}^m\alpha^{(i)}y^{(i)}=0 \\ & \ \ \ \ \ \ C-\alpha^{(i)}-\mu^{(i)}=0 \\ & \ \ \ \ \ \ \alpha^{(i)} \geqslant 0\\ & \ \ \ \ \ \ \mu^{(i)} \geqslant 0, \ \ \ \ i=1,2,\cdots,m \end{aligned}

将上面的目标函数由求极大转换成求极小,则得下面与之等价的对偶最优化问题,并消去\mu^{(i)}

                                   \begin{aligned} &\min_\alpha \frac{1}{2}\sum_{i=1}^m \sum_{j=1}^m \alpha^{(i)}\alpha^{(j)}y^{(i)}y^{(j)}(x^{(i)} \cdot x^{(j)})-\sum_{i=1}^m\alpha^{(i)} \\ &s.t. \ \ \sum_{i=1}^m\alpha^{(i)}y^{(i)}=0 \\ & \ \ \ \ \ \ 0 \leqslant \alpha^{(i)} \leqslant C, \ \ \ \ i=1,2,\cdots,m \end{aligned}

注意到是不等式约束,因此上述过程需满足KKT条件,即

                                     \left\{\begin{matrix} \alpha^{(i)} \geqslant 0,\ \mu^{(i)} \geqslant 0 \\ y^{(i)}f(x^{(i)})-1+ \xi^{(i)} \geqslant 0,\ \xi^{(i)} \geqslant 0\\ \alpha^{(i)}(y^{(i)}f(x^{(i)})-1)=0,\ \mu^{(i)}\xi^{(i)}=0 \end{matrix}\right.

注:KKT条件主要包含三大部分:
①:拉格朗日乘子≥0
②:原问题的约束条件
③:拉格朗日函数中的拉格朗日乘子项=0   

从KKT条件可以看出,对于任意训练样本 ,总有\alpha^{(i)}y^{(i)}f(x^{(i)})=1-\xi^{(i)}。若\alpha^{(i)}=0,则该样本将不会出现在式(4)的求和项中,即不会对f(x)有任何影响;若\alpha^{(i)} > 0,则必有y^{(i)}f(x^{(i)})=1-\xi^{(i)} ,即该样本是一个支持向量,因为C-\alpha^{(i)}-\mu^{(i)}=0,若\alpha^{(i)}<C,则\mu^{(i)}>0,进而有\xi^{(i)}=0,即该样本恰好位于最大间隔边界上;若\alpha^{(i)}=C,则\mu^{(i)}=0,此时若\xi^{(i)} \leqslant 1,则该样本在最大间隔边界内部,若\xi^{(i)} > 1,则该样本被错误分类。这显示出支持向量机一个重要结论:训练完成后,大部分的训练样本都不需要保留,最终模型仅与支持向量有关。

4-核函数

之前的优化目标可以利用一系列数学手段转换成如下的式子,可以看出有样本之间的点积(x^{(i)}\cdot x^{(j)}),按之前的特征工程,若想要多项式特征,可先将样本的特征转变为多项式特征,然后再点积(x^{'(i)}\cdot x^{'(j)})

传统机器学习-SVM_第7张图片传统机器学习-SVM_第8张图片

核函数的想法是,不用对样本的特征进行转变,而是直接找到一个函数,该函数对原样本的结果与先对原样本特征进行处理再点积的结果一致。

传统机器学习-SVM_第9张图片传统机器学习-SVM_第10张图片

举个,例如我们想要二阶特征,即我们想要特征(x_n^2,\cdots,x_1^2,\sqrt2x_nx_{n-1},\cdots,\sqrt2x_n,\cdots,\sqrt2x_1,\cdots,1),只需要这样的核函数K(x,y)=(x\cdot y+1)

传统机器学习-SVM_第11张图片传统机器学习-SVM_第12张图片

多项式核函数:K(x,y)=(x\cdot y+c)^d

线性核函数:K(x,y)=x\cdot y,即对样本特征不进行任何处理,即使用原特征。

5-高斯核函数(RBF核)

核函数K(x,y)就是重新定义x和y的点积。

高斯核函数:K(x,y)=e^{-\gamma||x-y||^2 },高斯函数g(x)=\frac{1}{\sigma \sqrt{2 \pi}}e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2},高斯核函数与高斯函数形似。

高斯核函数的本质是将一个样本点映射到一个无穷维的特征空间。高斯核对每一个数据点都是landmark,把m*n的数据映射成了m*m的数据。

传统机器学习-SVM_第13张图片传统机器学习-SVM_第14张图片

高斯核:举个直观理解一下,原先是||x-y||^2,我们这边固定一下y,即y不取样本点而取固定点,这边固定点是l_1,l_2,这两个特殊点通常称为landmark(地标点)。若有两个地标,高斯核函数就将其升为二维样本点,其取值如中间的图。高斯核对每一个数据点都是landmark,把m*n的数据映射成了m*m的数据。

传统机器学习-SVM_第15张图片传统机器学习-SVM_第16张图片传统机器学习-SVM_第17张图片

6-RBF核函数中的gamma

高斯核函数与高斯函数形似,他们之间参数也有点关系。高斯函数中\mu代表均值,\sigma代表标准差,其中\sigma越大,方差越大,函数分布越宽;其中\sigma越小,方差越小,函数分布越窄;然后高斯函数中的\frac{1}{2\sigma^2}相当于高斯核函数中的\gamma,故\gamma越大,方差越小,函数分布越窄;其中\gamma越小,方差越大,函数分布越宽。

\gamma可用来调节模型复杂度,\gamma越大,模型越复杂(\gamma越大,分布越窄,与该样本x相邻的样本y影响更大,在该样本x的附近形成小钟形),\gamma越小,模型越简单(\gamma越小,分布越宽,与该样本x相邻的样本y影响相对偏小,考虑了附近更多的样本y,在该样本x的附近形成钟形较大)。

传统机器学习-SVM_第18张图片

\gamma由小到大,\gamma:0.5\rightarrow 1\rightarrow 10\rightarrow 100

传统机器学习-SVM_第19张图片传统机器学习-SVM_第20张图片

传统机器学习-SVM_第21张图片传统机器学习-SVM_第22张图片

参考:https://coding.imooc.com/learn/list/169.html

 

 

你可能感兴趣的:(机器学习)