支持向量机通俗导论(理解SVM的三层境界)

        支持向量机通俗导论(理解SVM的三层境界)

作者: Julypluskid;致谢:白石。
出处:结构之法算法之道 blog


前言
第一层、了解SVM
  1.0、什么是支持向量机SVM
  1.1、线性分类
  1.2、线性分类的一个例子
  1.3、函数间隔Functional margin与几何间隔Geometrical margin
  1.4、最大间隔分类器Maximum Margin Classifier的定义
  1.5、到底什么是Support Vector
第二层、深入SVM
  2.1、从线性可分到线性不可分
  2.2、核函数Kernel
    2.2.1、如何处理非线性数据
    2.2.2、特征空间的隐式映射:核函数
  2.3、使用松弛变量处理 outliers 方法
  2.4、小结
第三层、证明SVM
  3.1、线性学习器
    3.1.1、感知机算法
      读者答疑
    3.1.2、松弛变量
  3.2、核函数特征空间
  3.3、SMO算法
  3.4、SVM的应用
    3.4.1、文本分类
参考文献及推荐阅读
预告


前言

    动笔写这个支持向量机(support vector machine)是费了不少劲和困难的,从5月22日凌晨两点在微博上说我要写了,到此刻真正动笔要写此文,中间竟然隔了近半个月(而后你会发现,我写完此文又再得花一个半月,前后加起来,写这个SVM便要花近二个月)。原因很简单,一者这个东西本身就并不好懂,要深入学习和研究下去需花费不少时间和精力,二者这个东西也不好讲清楚,尽管网上已经有朋友已经写得不错了(见文末参考链接),但在描述数学公式的时候还是显得不够。得益于同学白石的数学证明,我还是想尝试写一下,希望本文在兼顾通俗易懂的基础上,真真正正能足以成为一篇完整概括和介绍支持向量机的导论性的文章。

    本文作为Top 10 Algorithms in Data Mining系列第二篇文章,将主要结合支持向量机导论、数据挖掘导论及网友Free Mind的支持向量机系列而写(于此,还是一篇学习笔记,只是加入了自己的理解,有任何不妥之处,还望海涵),宏观上整体认识支持向量机的概念和用处,微观上深究部分定理的来龙去脉,证明及原理细节,力求深入浅出 & 通俗易懂。

    在本文中,你将看到,理解SVM分三层境界,

  • 第一层、了解SVM(你只需要对SVM有个大致的了解,知道它是个什么东西便已足够);
  • 第二层、深入SVM(你将跟我一起深入SVM的内部原理,通宵其各处脉络,以为将来运用它时游刃有余);
  • 第三层、证明SVM(当你了解了所有的原理之后,你会有大笔一挥,尝试证明它的冲动),最后谈谈SVM的应用,编码实现及开源工具libsvm;

    以此逐层深入,从而照顾到水平深浅度不同的读者,在保证浅显直白的基础上尽可能深入,还读者一个较为透彻清晰的SVM,希望我能做到。 

    同时,阅读本文之前,请读者注意以下两点:

  1. 若读者用IE6360浏览器阅读本文,将有大部分公式无法正常显示(显示一半或者完全无法显示),故若想正常的阅读本文请尽量使用chrome等浏览器,谢谢大家。
  2. 本文中出现了诸多公式,什么分类函数目标函数,对偶表示dual问题,若想真正理解本文之内容,我希望读者,能拿张纸和笔出来,把本文所有定理.公式都亲自推导一遍

    Ok,还是那句原话,有任何问题,欢迎任何人随时不吝指正 & 赐教,谢谢。


第一层、了解SVM

1.0、什么是支持向量机SVM

    然在进入第一层之前,你只需了解什么是支持向量机SVM就够了,而要明白什么是SVM,便得从分类说起。

    分类作为数据挖掘领域中一项非常重要的任务,目前在商业上应用最多(比如分析型CRM里面的客户分类模型,客户流失模型,客户盈利等等,其本质上都属于分类问题)。而分类的目的则是学会一个分类函数或分类模型(或者叫做分类器),该模型能吧数据库中的数据项映射到给定类别中的某一个,从而可以用于预测未知类别。

    其实,若叫分类,可能会有人产生误解,以为凡是分类就是把一些东西或样例按照类别给区分开来,实际上,分类方法是一个机器学习的方法,分类也成为模式识别,或者在概率统计中称为判别分析问题,或许会让人们消除此类误解。

    你甚至可以想当然的认为,分类就是恰如一个商场进了一批新的货物,你现在要根据这些货物的特征分门别类的摆放在相关的架子上,这一过程便可以理解为分类,只是它由训练有素的计算机程序来完成。
    说实话,上面这么介绍分类可能你不一定内心十分清楚。我来举个例子吧,比如心脏病的确诊中,如果我要完全确诊某人得了心脏病,那么我必须要进行一些高级的手段,或者借助一些昂贵的机器,那么若我们没有那些高科技医疗机器怎么办?还怎么判断某人是否得了心脏病呢?

    当然了,古代中医是通过望、闻、问、切“四诊”,但除了这些,我们在现代医学里还是可以利用一些比较容易获得的临床指标进行推断某人是否得了心脏病。如作为一个医生,他可以根据他以往诊断的病例对很多个病人(假设是500个)进行彻底的临床检测之后,已经完全确定了哪些病人具有心脏病,哪些没有,同时,在这个诊断的过程中,医生理所当然的记录了他们的年龄,胆固醇等10多项病人的相关指标。那么,以后,医生可以根据这些临床资料,对后来新来的病人通过检测那10多项年龄、胆固醇等指标,以此就能推断或者判定病人是否有心脏病,虽说不能达到100%的标准,但也能达到80、90%的正确率,而这一根据以往临场病例指标分析来推断新来的病例的技术,即成为分类classification技术。

    OK,既然讲到了病例诊断这个例子,接下来咱们就以这个例子来简单分析下SVM。
假定是否患有心脏病与病人的年龄和胆固醇水平密切相关,下表对应10个病人的临床数据(年龄用[x1]表示,胆固醇水平用[x2]表示):

    这样,问题就变成了一个在二维空间上的分类问题,可以在平面直角坐标系中描述如下:根据病人的两项指标和有无心脏病,把每个病人用一个样本点来表示,有心脏病者用“+”形点表示,无心脏病者用圆形点,如下图所示:

    如此我们很明显的看到,是可以在平面上用一条直线把圆点和“+”分开来的。当然,事实上,还有很多线性不可分的情况,下文将会具体描述。

    So,本文将要介绍的支持向量机SVM算法便是一种分类方法。

  • 所谓支持向量机,顾名思义,分为两个部分了解,一什么是支持向量(简单来说,就是支持 or 支撑平面上把两类类别划分开来的超平面的向量点,下文将具体解释),二这里的“机”是什么意思。我先来回答第二点:这里的“机(machine,机器)”便是一个算法。在机器学习领域,常把一些算法看做是一个机器,如分类机(当然,也叫做分类器),而支持向量机本身便是一种监督式学习的方法(什么是监督学习与非监督学习,请参见第一篇),它广泛的应用于统计分类以及回归分析中。

   支持向量机(SVM)是90年代中期发展起来的基于统计学习理论的一种机器学习方法,通过寻求结构化风险最小来提高学习机泛化能力,实现经验风险和置信范围的最小化,从而达到在统计样本量较少的情况下,亦能获得良好统计规律的目的。

    对于不想深究SVM原理的同学(比如就只想看看SVM是干嘛的),那么,了解到这里便足够了,不需上层。而对于那些喜欢深入研究一个东西的同学,甚至究其本质的,咱们则还有很长的一段路要走,万里长征,咱们开始迈第一步吧(相信你能走完)。

1.1、线性分类

    OK,在讲SVM之前,咱们必须先弄清楚一个概念:线性分类器(也可以叫做感知机,这里的机表示的还是一种算法,本文第三部分、证明SVM中会详细阐述)。

    这里我们考虑的是一个两类的分类问题,数据点用  x  来表示,这是一个  n  维向量,而类别用  y  来表示,可以取 1 或者 -1 ,分别代表两个不同的类。一个线性分类器就是要在  n  维的数据空间中找到一个超平面,其方程可以表示为:

wTx+b=0

    对应的几何示意图如下:

1.2、线性分类的一个例子

    来理论可能读者看不懂,咱们来直接举一个例子吧,且举最简单的例子,一个二维平面(一个超平面,在二维空间中的例子就是一条直线),如下图所示,平面上有两种不同的点,分别用两种不同的颜色表示,一种为红颜色的点,另一种则为蓝颜色的点,红颜色的线表示一个可行的超平面。

    从上图中我们可以看出,这条红颜色的线把红颜色的点和蓝颜色的点分开来了。而这条红颜色的线就是我们上面所说的超平面,也就是说,这个所谓的超平面的的确确便把这两种不同颜色的数据点分隔开来,在超平面一边的数据点所对应的  y  全是 -1 ,而在另一边全是 1 。

    接着,我们可以令分类函数

 f(x)= wTx+b  ,

    显然,如果  f(x)=0  ,那么  x  是位于超平面上的点。我们不妨要求对于所有满足  f(x)<0  的点,其对应的  y  等于 -1 ,而  f(x)>0  则对应  y=1  的数据点。

    当然,有些时候(或者说大部分时候)数据并不是线性可分的,这个时候满足这样条件的超平面就根本不存在(不过关于如何处理这样的问题我们后面会讲),这里先从最简单的情形开始推导,就假设数据都是线性可分的,亦即这样的超平面是存在的。

    更进一步,我们在进行分类的时候,将数据点  x 代入  f(x)  中,如果得到的结果小于 0 ,则赋予其类别 -1 ,如果大于 0 则赋予类别 1 。如果  f(x)=0 ,则很难办了,分到哪一类都不是(后续会说明此种情况)。

1.3、函数间隔Functional margin与几何间隔Geometrical margin 

    一般而言,一个点距离超平面的远近可以表示为分类预测的确信或准确程度。在超平面w*x+b=0确定的情况下,|w*x+b|能够相对的表示点x到距离超平面的远近,而w*x+b的符号与类标记y的符号是否一致表示分类是否正确,所以,可以用量y*(w*x+b)的正负性来判定或表示分类的正确性和确信度,于此,我们便引出了函数间隔functional margin的概念。
    我们定义函数间隔functional margin 为: 

        γˆ=y(wTx+b)=yf(x)

    接着,我们定义超平面(w,b)关于训练数据集T的函数间隔为超平面(w,b)关于T中所有样本点(xi,yi)的函数间隔最小值,即:

γˆ=minγˆi    (i=1,...n)

    然与此同时,问题就出来了。上述定义的函数间隔虽然可以表示分类预测的正确性和确信度,但在选择分类超平面时,只有函数间隔还远远不够,因为如果成比例的改变w和b,如将他们改变为2w和2b,虽然此时超平面没有改变,但函数间隔的值f(x)却变成了原来的改变(代进去一眼便看出来了)。其实,我们可以对法向量w加些约束条件,使其表面上看起来规范化,如此,我们很快又将引出 几何间隔 geometrical margin的概念。

    在给出几何间隔的定义之前,咱们首先来看下,如上图所示,对于一个点  x  ,令其垂直投影到超平面上的对应的为  x0  ,由于  w  是垂直于超平面的一个向量,我们有

x=x0+γww

    又由于  x0  是超平面上的点,满足  f(x0)=0  ,代入超平面的方程即可算出(别忘了,上面γˆ的定义,γˆ=y(wTx+b)=yf(x)):  γ

γ=wTx+bw=f(x)w

(有的书上会写成把||w|| 分开相除的形式,如本文参考文献及推荐阅读条目9,其中,||w||为w的二阶泛数)

    不过,这里的  γ  是带符号的,我们需要的只是它的绝对值,因此类似地,也乘上对应的类别  y 即可,因此实际上我们定义 几何间隔geometrical margin 为:

γ˜=yγ=γˆw






(代人相关式子可以得出:yi*(w/||w|| + b/||w||))

    正如本文评论下读者popol1991留言:函数间隔y*(wx+b)=y*f(x)实际上就是|f(x)|,只是人为定义的一个间隔度量;而几何间隔|f(x)|/||w||才是直观上的点到超平面距离。
    想想二维空间里的点到直线公式:假设一条直线的方程为ax+by+c=0,点P的坐标是(x0,y0),则点到直线距离为|ax0+by0+c|/sqrt(a^2+b^2)。 那么如果用向量表示,设w=(a,b),f(x)=wx+c,那么这个距离不正是|f(p)|/||w||么?特别感谢指正。OK,下图中xi,和xj分别到超平面的距离:

1.4、最大间隔分类器Maximum Margin Classifier的定义

    通过上文,我们已经很明显的看出,函数间隔functional margin 和 几何间隔geometrical margin 相差一个  w  的缩放因子。按照我们前面的分析,对一个数据点进行分类,当它的 margin 越大的时候,分类的 confidence 越大。对于一个包含  n  个点的数据集,我们可以很自然地定义它的 margin 为所有这  n  个点的 margin 值中最小的那个。于是,为了使得分类的 confidence 高,我们希望所选择的超平面hyper plane 能够最大化这个 margin 值。

    现在,我们这里有两个 margin 可以选:

1、functional margin 明显是不太适合用来最大化的一个量,因为在 hyper plane 固定以后,我们可以等比例地缩放  w  的长度和  b  的值,这样可以使得  f(x)=wTx+b  的值任意大,亦即 functional margin  γˆ  可以在 hyper plane 保持不变的情况下被取得任意大,

2、而 geometrical margin 则没有这个问题,因为除上了  w  这个分母,所以缩放  w  和  b  的时候  γ˜  的值是不会改变的,它只随着 hyper plane 的变动而变动,因此,这是更加合适的一个 margin 。

    这样一来,我们的 maximum margin classifier 的目标函数可以定义为:

maxγ˜˜ ˜˜

    当然,还需要满足一些条件,根据 margin 的定义,我们有

yi(wTxi+b)=γˆiγˆ,i=1,,n

    其中  γˆ=γ˜w  ,处于方便推导和优化的目的,我们可以令  γˆ=1 (对目标函数的优化没有影响) ,此时,我们的目标函数化为(括号里subject to导出的是约束条件):

max1w   (subjectto:yi(wTxi+b)1,i=1,,n)

    通过求解这个问题,我们就可以找到一个 margin 最大的 classifier ,如下图所示,中间的红色线条是 Optimal Hyper Plane ,另外两条线到红线的距离都是等于  γ˜  的(  γ˜  便是上文所定义的geometrical margin,当令  γˆ=1 时,  γ˜  便为1/||w||,而我们上面得到的目标函数便是在相应的约束条件下,要最大化这个1/||w||值):

    通过最大化 margin ,我们使得该分类器对数据进行分类时具有了最大的 confidence 。但,这个最大分类间隔器到底是用来干嘛的呢?很简单,SVM 通过使用最大分类间隙Maximum Margin Classifier 来设计决策最优分类超平面,而为何是最大间隔,却不是最小间隔呢?因为最大间隔能获得最大稳定性与区分的确信度,从而得到良好的推广能力(平行超平面间的距离或差距越大,分类器的总误差越小)。

    So,对于什么是Support Vector Machine ,我们可以先这样理解,如上图所示,我们可以看到 hyper plane 两边的那个 gap 分别对应的两条平行的线(在高维空间中也应该是两个 hyper plane)上有一些点,显然两个超平面hyper plane 上都会有点存在,否则我们就可以进一步扩大 gap ,也就是增大  γ˜  的值了。这些点,就叫做 support vector。下文1.5节将更为具体描述。

1.5、到底什么是Support Vector

    上节,我们介绍了Maximum Margin Classifier,但并没有具体阐述到底什么是Support Vector,本节,咱们来重点阐述这个概念。咱们不妨先来回忆一下上节1.4节最后一张图:

    可以看到两个支撑着中间的 gap 的超平面,它们到中间的纯红线separating hyper plane 的距离相等,即我们所能得到的最大的 geometrical margin  γ˜  。而“支撑”这两个超平面的必定会有一些点,而这些“支撑”的点便叫做支持向量Support Vector。

    很显然,由于这些 supporting vector 刚好在边界上,所以它们是满足  y(wTx+b)=1  (还记得我们把 functional margin 定为 1 了吗?上节中:“处于方便推导和优化的目的,我们可以令  γˆ=1 ),而对于所有不是支持向量的点,也就是在“阵地后方”的点,则显然有  y(wTx+b)>1  。当然,通常除了 K-Nearest Neighbor 之类的 Memory-based Learning 算法,通常算法也都不会直接把所有的点记忆下来,并全部用来做后续 inference 中的计算。不过,如果算法使用了 Kernel 方法进行非线性化推广的话,就会遇到这个问题了。Kernel 方法在下文第二部分2.2节中介绍)。

    OK,到此为止,算是了解到了SVM的第一层,对于那些只关心怎么用SVM的同学便已足够,不必再更进一层深究其更深的原理。


第二层、深入SVM

2.1、从线性可分到线性不可分

    当然,除了在上文中所介绍的从几何直观上之外,支持向量的概念也可以从其优化过程的推导中得到。虽然上文1.4节给出了目标函数,却没有讲怎么来求解。现在就让我们来处理这个问题。回忆一下之前得到的目标函数(subject to导出的则是约束条件):


max1w∥   (subjectto:yi(wTxi+b)1,i=1,,n)


    这个问题等价于(w由分母变成分子,从而也有原来的max问题变为min问题,很明显,两者问题等价):


min12w2(subject to:yi(wTxi+b)1,i=1,,n)

 

  1. 到这个形式以后,就可以很明显地看出来,它是一个凸优化问题,或者更具体地说,它是一个二次优化问题——目标函数是二次的,约束条件是线性的。这个问题可以用任何现成的 QP (Quadratic Programming) 的优化包进行求解。所以,我们的问题到此为止就算全部解决了。
  2. 虽然这个问题确实是一个标准的 QP 问题,但是它也有它的特殊结构,通过 Lagrange Duality 变换到对偶变量 (dual variable) 的优化问题之后,可以找到一种更加有效的方法来进行求解,而且通常情况下这种方法比直接使用通用的 QP 优化包进行优化要高效得多。

    也就说,除了用解决QP问题的常规方法之外,还可以应用拉格朗日对偶性,通过求解对偶问题得到最优解,这就是线性可分条件下支持向量机的对偶算法,这样做的优点在于:一者对偶问题往往更容易求解;二者可以自然的引入核函数,进而推广到非线性分类问题。
    ok,接下来,你将看到“对偶变量dual variable的优化问题”等类似的关键词频繁出现,便是解决此凸优化问题的第二种更为高效的解--对偶变量的优化求解.

    至于上述提到,关于什么是Lagrange duality,简单地来说,通过给每一个约束条件加上一个 Lagrange multiplier(拉格朗日乘值),我们可以将约束条件融和到目标函数里去(也就是说把条件融合到一个函数里头,现在只用一个函数表达式便能清楚的表达出我们的问题)


L(w,b,α)=12w2i=1nαi(yi(wTxi+b)1)

    然后我们令

θ(w)=maxαi0L(w,b,α)



    

    容易验证,当某个约束条件不满足时,例如  yi(wTxi+b)<1 ,那么我们显然有  θ(w)= (只要令  αi=  即可)。而当所有约束条件都满足时,则有  θ(w)=12w2  ,    亦即我们最初要最小化的量。因此,在要求约束条件得到满足的情况下最小化  12w2     实际上等价于直接最小化  θ(w)      (当然,这里也有约束条件,就是  αi0,i=1,,n )   ,因为如果约束条件没有得到满足, θ(w)      会等于无穷大,自然不会是我们所要求的最小值。具体写出来,我们现在的目标函数变成了:


minw,bθ(w)=minw,bmaxαi0L(w,b,α)=p

    这里用  p  表示这个问题的最优值,这个问题和我们最初的问题是等价的。不过,现在我们来把最小和最大的位置交换一下:

maxαi0minw,bL(w,b,α)=d

    当然,交换以后的问题不再等价于原问题,这个新问题的最优值用  d  来表示。并,我们有  dp  ,这在直观上也不难理解,最大值中最小的一个总也比最小值中最大的一个要大吧!  总之,第二个问题的最优值  d  在这里提供了一个第一个问题的最优值  p  的一个下界,在满足某些条件的情况下,这两者相等,这个时候我们就可以通过求解第二个问题来间接地求解第一个问题。具体来说,就是要满足KKT 条件。

    所谓的KKT条件,据网上给的资料介绍是(更多见维基百科:KKT 条件),一般地,一个最优化数学模型能够表示成下列标准形式:

    所谓 Karush-Kuhn-Tucker 最优化条件,就是指上式的最小点 x* 必须满足下面的条件:

    我这里先,直接给结论,后续会证明:我们这里的问题是满足 KKT 条件的,因此现在我们便转化为求解第二个问题。也就是说,求解这个对偶学习问题,分为两个步骤,首先要让L(w,b,a) 关于  w  和  b  最小化,然后求对α的极大。

    (1)、要让  L  关于  w  和  b  最小化,我们分别对w,b求偏导数,即令  L/w  和  L/b  等于零:



Lw=0Lb=0w=i=1nαiyixii=1nαiyi=0


    带回上述的  L  得到:

L(w,b,α)=12i,j=1nαiαjyiyjxTixji,j=1nαiαjyiyjxTixjbi=1nαiyi+i=1nαi=i=1nαi12i,j=1nαiαjyiyjxTixj


    使用拉格朗日定理解凸最优化问题可以使用一个对偶变量表示,用对偶问题表示之后,通常比原问题更容易处理,因为直接处理不等式约束是困难的。对偶问题通过引入又称为对偶变量的拉格朗日乘子来解。

    (2)、求对α的极大即是关于对偶变量dual variable  α 的优化问题(没有了变量w,b,只有a,反过来,求得的a将能导出w,b的解,最终得出分离超平面和分类决策函数):

    如前面所说,这个问题有更加高效的优化算法,不过具体方法在这里先不介绍,让我们先来看看推导过程中得到的一些有趣的形式。首先就是关于我们的 hyper plane ,对于一个数据点  x  进行分类,实际上是通过把  x  带入到  f(x)=wTx+b       算出结果然后根据其正负号来进行类别划分的。而前面的推导中我们得到 




      w=ni=1αiyixi
 ,

    因此分类函数为:


f(x)=(i=1nαiyixi)Tx+b=i=1nαiyixi,x+b

    

    

    这里的形式的有趣之处在于,对于新点 x的预测,只需要计算它与训练数据点的内积即可(,表示向量内积),这一点至关重要,是之后使用 Kernel 进行非线性推广的基本前提。此外,所谓 Supporting Vector 也在这里显示出来——事实上,所有非 Supporting Vector 所对应的系数 α 都是等于零的,因此对于新点的内积计算实际上只要针对少量的“支持向量”而不是所有的训练数据即可。

    为什么非支持向量对应的  α  等于零呢?直观上来理解的话,就是这些“后方”的点——正如我们之前分析过的一样,对超平面是没有影响的,由于分类完全有超平面决定,所以这些无关的点并不会参与分类问题的计算,因而也就不会产生任何影响了。这个结论也可由刚才的推导中得出,回忆一下我们刚才通过 Lagrange multiplier 得到的目标函数:


maxαi0L(w,b,α)=maxαi012w2i=1nαi(

你可能感兴趣的:(支持向量机通俗导论(理解SVM的三层境界))