西瓜书扩展_支持向量机_间隔与支持向量

二分类问题

这里我们考虑的是一个两类的分类问题,数据点用来表示,这是一个维向量,而类别用来表示,可以取或者,分别代表两个不同的类:

                                                        

划分超平面方程

一个线性分类器就是要在维的数据空间中找到一个分离超平面,其方程可以表示为:

                                                            

其中为法向量(控制超平面的旋转方向),为截距(控制超平面离原点的位置)

我们令 ,在进行分类的时候,我们将数据点代入中,如果得到的结果,则赋予其类别,如果则赋予类别:

几何间隔

取任一样本点到超平面的垂直距离为,因向量垂直于超平面,单位法向量为。

我们有:,且点在超平面上,满足,代入超平面方程:

;解得

如果样本点在分类这一侧的话,距离为,如果在分类一侧,距离表示为。

如果分类正确,则与的符号一致(同正号或者同负号),把的负号消去。

统一用表示任一样本点到超平面的几何距离:或者

约束条件

我们希望样本全部分类正确,并且分类间隔边界(下图虚线)上的样本点为支持向量。

                                             

如果分类正确,则与的符号一致(同正号或者同负号),上式可以合并为:

                                                          

最大化分类间隔

对数据点进行分类的时候,当它的间隔越大的时候,置信度就越好。于是,我们希望能够最大化这个间隔。

支持向量到划分超平面的距离:

                                                   

因划分超平面是间隔的中轴线:

                                                                

我们希望最大间隔,并同时满足于1.把两个类正确给分开,2.分类间隔边界上的样本点为支持向量;这两条约束: 

                                                               

                                

注意最大化间隔,仅需最大化,等价于最小化(我在这里加上了平方和系数,是为了以后进行最优化的过程中对目标函数求导时比较方便,因为我们并不关心最优情况下目标函数的具体数值)

                                                               

                                   

你可能感兴趣的:(西瓜书扩展_支持向量机_间隔与支持向量)