本节主要是观看Andrew Ng的斯坦福大学系列视频CS299第6讲、第7讲等后,加上个人理解,对支持向量机部分做的一个笔记整理。
本文顺序是:
首先,我们应该知道求超平面与分类问题的正确性是与样本点到超平面对的距离有直接关系的。吴恩达是用Logistic回归的例子来讲述的这个问题:比如说 θTx>>0时,我们可以非常自信的y=1(虽然还有很小的概率是y可能为0的)
以此类推,以图1为例。线将二维平面分成正反两类,我们可以充分认为B属于反类,而A也有很大可能属于反类,但是C就不一定,它离分类超平面比较近。改变一点超平面的划分,C可能到其他的分类。
基于这种情况,我们希望让所有分类点都充分可以认为分类是正确的,需要它们都离分类超平面足够远。这个问题,我们可以在后文中用到几何间隔来解决。
下面,来介绍下函数间隔和几何间隔。
首先对图一及后文所用函数做简短介绍。
分类标签y只能取-1或1,于图一中,就是直线上方星星所在类标签为1,圆点一方类标签为-1(相反也可以)。
超平面分割线:wTx+b
分类器为:hw,b(x)=g(wTx+b)当z>0时,g(z)=1;z<0,g(z)=−1
此处x与w的维度可以是多维。
??这时我们分类器直接预测分类值,而不是像Logestic回归中预测y=1的可能性。
函数间隔:给定样本点 (x(i),y(i)) ,它的函数间隔受到(w,b)控制。它的函数间隔为
但是这个定义存在一个问题,就是当(w,b)做等倍数变换的时候,超平面并没有发生改变,但是函数间隔发生了改变。这显然是不好的性质。因此,我们将w的大小固定,使函数间隔固定。将||w||=1时,这时的间隔就是几何间隔。这里给出几何间隔定义:
现在我们来分析下基于上述概念得到的一些结论。二维的图形见图2。
超平面的法向量是w(这个很好理解,多维情况下不明白可以参考解析几何相关知识)。AB之间长度是几何间隔 γ(i)(假设几何间隔大于0.超平面上侧是y=1的分类),则B的位置是x(i)−γ(i)⋅w||w|| .而显然B在超平面上,因此有公式: