作者:July、pluskid、白石。
出处:结构之法算法之道blog。
前言
动笔写这个支持向量机(support vector machine)是 费了不少劲和困难的,从5月22日凌晨两点在微博上说我要写了,到此刻真正动笔要写此文,中间竟然隔了近半个月。原因很简单,一者这个东西本身就并不好 懂,要深入学习和研究下去需花费不少时间和精力,二者这个东西也不好讲清楚,尽管网上已经有不少朋友已经写得不错了(见文末参考链接..),但在描述数学 公式的时候还是显得不够。得益于同学白石的数学证明,我还是想尝试写一下,希望本文在兼顾通俗易懂的基础上,真真正正能足以成为一篇完整概括和介绍支持向 量机的导论性的文章。
本文作为Top 10 Algorithms in Data Mining系列第二篇文章,将主要结合支持向量机导论、数据挖掘导论及网友的Free Mind的支持向量机系列而写(于此,还是一篇读书笔记,只是加入了自己的理解,有任何不妥之处,还望海涵),宏观上整体认识支持向量机的概念和用处,微观上深究部分定理的来龙去脉,证明及原理细节,力求深入浅出 & 通俗易懂。
同时,本文分三层,第一层、了解SVM,第二层、深入SVM,第三层、证明SVM,最后谈谈SVM的应用,以此逐层深入,从而照顾到水平深浅度不同的读 者,在保证浅显直白的基础上尽可能深入,还读者一个明明白白透透彻彻的SVM,希望我能做到。还是那句原话,有任何问题,欢迎任何人随时不吝指正 & 赐教,谢谢。
第一层、了解SVM
1.0、什么是支持向量机SVM
在进入第一层之前,你只需了解什么是支持向量机SVM就够了,而要明白什么是SVM,便得从头从什么是数据挖掘说起。
数据挖掘是机器学习、数据库和统计学三者结合的产物,数据挖掘首先要确定挖掘的任务或目的,确定了挖掘任务之后,就要决定使用什么样的挖掘算法,选择了算法之后便可以实施数据挖掘操作,获取有用的信息或模式。
分类作为数据挖掘领域中一项非常重要的任务,目前在商业上应用最多(比如分析型CRM里面的客户分类模型,客户流失模型,客户盈利等等,其本质上都属于分 类问题)。而分类的目的则是学会一个分类函数或分类模型(或者叫做分类器),该模型能吧数据库中的数据项映射到给定类别中的摸一个,从而可以用于预测未知 类别。
而本文将要介绍的支持向量机SVM算法便是一种分类方法。
- 所谓支持向量机,顾名思义,分为两个部分了解,一什么是支持向量(简 单来说,就是支持 or 支撑平面上把两类类别划分开来的超平面的向量点,下文将具体解释),二这里的“机”是什么意思。我先来回答第二点:这里的“机(machine,机器)” 便是一个算法。在机器学习领域,常把一些算法看做是一个机器,如分类机(当然,也叫做分类器),而支持向量机本身便是一种监督式学习的方法(什么是监督学 习与非监督学习,请参见第一篇),它广泛的应用于统计分类以及回归分析中。
对于不想深究SVM原理的同学(比如就只想看看SVM是干嘛的),那么,了解到这里便足够了,不需上层。而对于那些喜欢深入研究一个东西的同学,甚至究其本质的,咱们则还有很长的一段路要走,万里长征,咱们开始迈第一步吧(深信你能走完)。
1.1、线性分类
OK,在讲SVM之前,咱们必须先弄清楚一个概念:线性分类器。
但即使我已经给出了线性分类器的定义及公式,相信,仍然是有相当一部分读者是不知所谓的超平面(w,b)中w,和b所指是何物的?但本文尽量不留遗漏,以期尽量将有必要了解的技术细节原原本本的和盘托出,如下:
-
上面已经说过,两类问题的分类通常用一个实值函数f:
(R^n 即指n唯平面)按照这样的方式操作:当f(x)>=0,输入想x=(x1,...xn)‘赋给正类,否则赋给负类,考虑当f(x),x属于X是线性 函数的情况,函数可以写为:f(x)=<w,b> b。这个式子的几何解释是,<w,x> b=0所定义的超平面讲输入空间X(各种点)分为两半。也就是说,超平面是维数为n-1的仿射子空间,它将空间分为两部分,这两部分对应输入中两类不同的 点,对应着超平面上面的正区域和超平面下面的负区域,当b的值变化时,超平面平行于自身移动,示意图如下(注意体会途中w,b的几何意义,我们实际应用 SVM的过程中,所谓调参数调的就是这两个参数w和b):
1.2、线性分类的一个例子
OK,来理论可能读者看不懂,咱们来直接举一个例子吧,且举最简单的例子,一个二维平面(一个超平面,在二维空间中的例子就是一条直线),如下图所示,平面上有两种不同的点,分别用两种不同的颜色表示,一种为红颜色的点,另一种则为蓝严肃的点,红颜色的线表示一个可行的超平面。
从上图中我们可以看出,这条红颜色的线把红颜色的点和蓝颜色的点分开来了。而这条红颜色的线就是我们上面所说的超平面,而现在的情况是,这个所谓的超平面的的确确便把这两种不同颜色的点分隔开来,换句话说,事实上,是存在这样一个超平面可以把两类数据分隔开来的,比如,在超平面一边的数据点所对应的
y
全是 -1 ,而在另一边全是 1 。具体来说,我们可以令
f(x)=wTx b
,显然,如果
f(x)=0
,那么
x
是位于超平面上的点。我们不妨要求对于所有满足
f(x)<0
的点,其对应的
y
等于 -1 ,而
f(x)>0
则对应
y=1
的数据点。
- 当然,有些时候(或者说大部分时候)数据并不是线性可分的,这个时候满足这样条件的超平面就根本不存在(不过关于如何处理这样的问题我们后面会讲),这里先从最简单的情形开始推导,就假设数据都是线性可分的,亦即这样的超平面是存在的。
更进一步,我们在进行分类的时候,将数据点
x
代入
f(x)
中,如果得到的结果小于 0 ,则赋予其类别 -1 ,如果大于 0 则赋予类别 1 。如果
f(x)=0
,则很难办了,分到哪一类都不是(后续会说明此种情况)。
1.3、 functional margin与geometrical margin
从几何直观上来说,由于超平面是用于分隔两类数据的,越接近超平面的点越“难”分隔,因为如果超平面稍微转动一下,它们就有可能跑到另一边去。反之,如果是距离超平面很远的点,例如图中的右上角或者左下角的点,则很容易分辩出其类别。
结合上图,我们直接定义 functional margin 为
γˆ=y(wTx b)=yf(x)
,注意前面乘上类别
y
之后可以保证这个 margin 的非负性(因为
f(x)<0
对应于
y=−1
的那些点),而点到超平面的距离定义为 geometrical margin 。
- 对 functional margin 为 γˆ=y(wTx b)=yf(x)的解释:上面直接给出它的定义并没有说明来由,其实这是有来头的。一般来说,我们定义:样例(xi,yi)对应于超平面(w,b)的函数的间隔量为:γˆ=y(wTx b)。注意,γˆ>0意 味着(xi,yi)被正确分类,超平面(w,b)对应于训练集S的函数的间隔分布就是训练集S中样例的间隔分布。有时,所谓间隔分布的最小值指超平面 (w,b)对应于训练集S的函数的间隔。最终,训练集S的间隔是在所有超平面上的最大几何间隔,实现这个最大间隔的超平面称之为最大间隔超平面,对于线性 可分的训练集来说,间隔的值都讲是正值。下图是xi,xj分别到超平面的几个间隔距离γi,γj:
下面不妨来看看functional margin与geometrical margin二者之间的关系。如图所示,对于一个点
x
,令其垂直投影到超平面上的对应的为
x0
,由于
w
是垂直于超平面的一个向量,我们有
x=x0 γw∥w∥
- OK,我来推到下上述式子的代入过程:因为f(x)=w^T b,把x=x0 r*w/||w||代入f(x)得,f(x)=f(x。 r *w / ||w||) = w^T(x0 r* w/ ||w||) b = w^T*x0 w^T*r*w/ ||w|| b = w^T*r*w/||w||=r*||w||,所以γ=f(x)/||w||=(w^T*b)/||w||。证毕。
又由于
x0
是超平面上的点,满足
f(x0)=0
,代入超平面的方程即可算出(别忘了,上面γˆ的定义,γˆ=y(wTx b)=yf(x)):
γ
γ=wTx b∥w∥=f(x)∥w∥
不过,这里的
γ
是带符号的,我们需要的只是它的绝对值,因此类似地,也乘上对应的类别
y
即可,因此实际上我们定义 geometrical margin 为:
γ˜=yγ=γˆ∥w∥
- 因为γˆ=y(wTx b)=yf(x),所以γ˜=yγ=(y*f(x))/||w||=γˆ/||w||。
1.4、最大间隔分类器maximum margin classifier的定义
通过上文,我们已经很明显的看出,functional margin 和 geometrical margin 相差一个
∥w∥
的缩放因子。按照我们前面的分析,对一个数据点进行分类,当它的 margin 越大的时候,分类的 confidence 越大。对于一个包含
n
个点的数据集,我们可以很自然地定义它的 margin 为所有这
n
个点的 margin 值中最小的那个。于是,为了使得分类的 confidence 高,我们希望所选择的 hyper plane 能够最大化这个 margin 值。
不过这里我们有两个 margin 可以选,不过 functional margin 明显是不太适合用来最大化的一个量,因为在 hyper plane 固定以后,我们可以等比例地缩放
w
的长度和
b
的值,这样可以使得
f(x)=wTx b
的值任意大,亦即 functional margin
γˆ
可以在 hyper plane 保持不变的情况下被取得任意大,而 geometrical margin则没有这个问题,因为除上了
∥w∥
这个分母,所以缩放
w
和
b
的时候
γ˜
的值是不会改变的,它只随着 hyper plane 的变动而变动,因此,这是更加合适的一个 margin 。这样一来,我们的 maximum margin classifier 的目标函数即定义为
maxγ˜
当然,还需要满足一些条件,根据 margin 的定义,我们有
yi(wTxi b)=γˆi≥γˆ,i=1,…,n
其中
γˆ=γ˜∥w∥
,根据我们刚才的讨论,即使在超平面固定的情况下,
γˆ
的值也可以随着
∥w∥
的变化而变化。由于我们的目标就是要确定超平面,因此可以把这个无关的变量固定下来,固定的方式有两种:一是固定
∥w∥
,当我们找到最优的
γ˜
时
γˆ
也就可以随之而固定;二是反过来固定
γˆ
,此时
∥w∥
也可以根据最优的
γ˜
得到。处于方便推导和优化的目的,我们选择第二种,令
γˆ=1
,则我们的目标函数化为:
max1∥w∥,s.t.,yi(wTxi b)≥1,i=1,…,n
通过求解这个问题,我们就可以找到一个 margin 最大的 classifier ,如下图所示,中间的红色线条是 Optimal Hyper Plane ,另外两条线到红线的距离都是等于
γ˜
的(
γ˜
便是上文所定义的geometrical margin):
到此,算是完成了 Maximum Margin Classifier 的介绍,通过最大化 margin ,我们使得该分类器对数据进行分类时具有了最大的 confidence 。对于什么是Support Vector Machine ,我们可以先这样理解,如上图所示,我们可以看到 hyper plane 两边的那个 gap 分别对应的两条平行的线(在高维空间中也应该是两个 hyper plane)上有一些点,显然两个 hyper plane 上都会有点存在,否则我们就可以进一步扩大 gap ,也就是增大
γ˜
的值了。这些点呢,就叫做 support vector ,嗯,yeah,this is it。
1.5、到底什么是Support Vector
上节,我们介绍了Maximum Margin Classifier,但并没有具体阐述到底什么是Support Vector,本节,咱们来重点阐述这个概念。咱们不妨先来回忆一下上次最后一张图:
可以看到两个支撑着中间的 gap 的超平面,它们到中间的纯红线 separating hyper plane 的距离相等,即我们所能得到的最大的 geometrical margin
γ˜
。而“支撑”这两个超平面的必定会有一些点,而这些“支撑”的点便叫做支持向量Support Vector。
很显然,由于这些 supporting vector 刚好在边界上,所以它们是满足
y(wTx b)=1
(还记得我们把 functional margin 定为 1 了吗?上节中:“处于方便推导和优化的目的,我们选择第二种,令
γˆ=1
”),而对于所有不是支持向量的点,也就是在“阵地后方”的点,则显然有
y(wTx b)>1
。 事实上,当最优的超平面确定下来之后,这些后方的点就完全成了路人甲了,它们可以在自己的边界后方随便飘来飘去都不会对超平面产生任何影响。这样的特性在 实际中有一个最直接的好处就在于存储和计算上的优越性,例如,如果使用 100 万个点求出一个最优的超平面,其中是 supporting vector 的有 100 个,那么我只需要记住这 100 个点的信息即可,对于后续分类也只需要利用这 100 个点而不是全部 100 万个点来做计算。(当然,通常除了 K-Nearest Neighbor 之类的 Memory-based Learning 算法,通常算法也都不会直接把所有的点记忆下来,并全部用来做后续 inference 中的计算。不过,如果算法使用了 Kernel 方法进行非线性化推广的话,就会遇到这个问题了。Kernel 方法在第三节介绍)。
到此为止,算是了解到了SVM的第一层。
第二层、深入SVM
2.1、从线性可分到线性不可分
当然,除了在上文中所介绍的从几何直观上之外,支持向量的概念也可以从其优化过程的推导中得到。虽然上一节给出了目标函数,却没有讲怎么来求解。现在就让我们来处理这个问题。回忆一下之前得到的目标函数:
max1∥w∥s.t.,yi(wTxi b)≥1,i=1,…,n
这个问题等价于(在这里加上平方,一个系数,显然这两个问题是等价的):
min12∥w∥2s.t.,yi(wTxi b)≥1,i=1,…,n
- 到这个形式以后,就可以很明显地看出来,它是一个凸优化问题,或者更具体地说,它是一个二次优化问题——目标函数是二次的,约束条件是线性的。这个问题可以用任何现成的 QP (Quadratic Programming) 的优化包进行求解。所以,我们的问题到此为止就算全部解决了。
- 虽然这个问题确实是一个标准的 QP 问题,但是它也有它的特殊结构,通过 Lagrange Duality 变 换到对偶变量 (dual variable) 的优化问题之后,可以找到一种更加有效的方法来进行求解——这也是 SVM 盛行的一大原因,通常情况下这种方法比直接使用通用的 QP 优化包进行优化要高效得多。此外,在推导过程中,许多有趣的特征也会被揭露出来,包括刚才提到的 supporting vector 的问题。
至于上述提到,关于什么是Lagrange duality,简单地来说,通过给每一个约束条件加上一个 Lagrange multiplier,我们可以将它们融和到目标函数里去
L(w,b,α)=12∥w∥2−∑i=1nαi(yi(wTxi b)−1)
然后我们令
θ(w)=maxαi≥0L(w,b,α)
、
容易验证,当某个约束条件不满足时,例如
yi(wTxi b)<1
,那么我们显然有
θ(w)=∞
(只要令
αi=∞
即可)。而当所有约束条件都满足时,则有
θ(w)=12∥w∥2
, 亦即我们最初要最小化的量。因此,在要求约束条件得到满足的情况下最小化
12∥w∥2
实际上等价于直接最小化
θ(w)
(当然,这里也有约束条件,就是
αi≥0,i=1,…,n
) ,因为如果约束条件没有得到满足,
θ(w)
会等于无穷大,自然不会是我们所要求的最小值。具体写出来,我们现在的目标函数变成了:
minw,bθ(w)=minw,bmaxαi≥0L(w,b,α)=p∗
这里用
p∗
表示这个问题的最优值,这个问题和我们最初的问题是等价的。不过,现在我们来把最小和最大的位置交换一下:
maxαi≥0minw,bL(w,b,α)=d∗
当然,交换以后的问题不再等价于原问题,这个新问题的最优值用
d∗
来表示。并,我们有
d∗≤p∗
,这在直观上也不难理解,最大值中最小的一个总也比最小值中最大的一个要大吧! 总之,第二个问题的最优值
d∗
在这里提供了一个第一个问题的最优值
p∗
的一个下界,在满足某些条件的情况下,这两者相等,这个时候我们就可以通过求解第二个问题来间接地求解第一个问题。具体来说,就是要满足 KKT 条件,这里暂且先略过不说,直接给结论:我们这里的问题是满足 KKT 条件的,因此现在我们便转化为求解第二个问题。
首先要让
L
关于
w
和
b
最小化,我们分别令
∂L/∂w
和
∂L/∂b
等于零:
∂L∂w=0∂L∂b=0⇒w=∑i=1nαiyixi⇒∑i=1nαiyi=0
带回
L
得到:
L(w,b,α)=12∑i,j=1nαiαjyiyjxTixj−∑i,j=1nαiαjyiyjxTixj−b∑i=1nαiyi ∑i=1nαi=∑i=1nαi−12∑i,j=1nαiαjyiyjxTixj
此时我们得到关于 dual variable
α
的优化问题:
如前面所说,这个问题有更加高效的优化算法,不过具体方法在这里先不介绍,让我们先来看看推导过程中得到的一些有趣的形式。首先就是关于我们的 hyper plane ,对于一个数据点
x
进行分类,实际上是通过把
x
带入到
f(x)=wTx b
算出结果然后根据其正负号来进行类别划分的。而前面的推导中我们得到
w=∑ni=1αiyixi
,
因此
f(x)=(∑i=1nαiyixi)Tx b=∑i=1nαiyi?xi,x? b
这里的形式的有趣之处在于,对于新点 x的预测,只需要计算它与训练数据点的内积即可(这里