作者: July 。致谢: pluskid、白石、J erryLead。支持向量机通俗导论(理解SVM的三层境地)
动笔写这个支持向量机(support vector machine)是费了不少劲和困难的,原因非常简单,一者这个东西本身就并不好懂,要深入学习和研究下去需花费不少时间和精力,二者这个东西也不好讲清楚。尽管网上已经有朋友写得不错了(见文末參考链接),但在描写叙述数学公式的时候还是显得不够。得益于同学白石的数学证明,我还是想尝试写一下。希望本文在兼顾通俗易懂的基础上,真真正正能足以成为一篇完整概括和介绍支持向量机的导论性的文章。
本文在写的过程中。參考了不少资料,包含《支持向量机导论》、《统计学习方法》及网友pluskid的支持向量机系列等等。于此。还是一篇学习笔记。仅仅是增加了自己的理解和总结。有不论什么不妥之处。还望海涵。全文宏观上总体认识支持向量机的概念和用处,微观上深究部分定理的来龙去脉,证明及原理细节,力保逻辑清楚 & 通俗易懂。
同一时候,阅读本文时建议大家尽量使用chrome等浏览器,如此公式才干更好的显示,再者,阅读时可拿张纸和笔出来,把本文全部定理.公式都亲自推导一遍或者直接打印下来(可直接打印网页版或本文文末附的PDF,享受随时随地思考、演算的极致快感)。在文稿上演算。
Ok。还是那句原话,有不论什么问题。欢迎不论什么人随时不吝指正 & 赐教,感谢。
支持向量机,因其英文名为support vector machine,故一般简称SVM,通俗来讲。它是一种二类分类模型。其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化。终于可转化为一个凸二次规划问题的求解。
理解SVM,咱们必须先弄清楚一个概念:线性分类器。
给定一些数据点,它们分别属于两个不同的类,如今要找到一个线性分类器把这些数据分成两类。假设用x表示数据点。用y表示类别(y能够取1或者-1。分别代表两个不同的类),一个线性分类器的学习目标便是要在n维的数据空间中找到一个超平面(hyper plane),这个超平面的方程能够表示为( wT中的T代表转置):
可能有读者对类别取1或-1有疑问,事实上,这个1或-1的分类标准起源于logistic回归。
Logistic回归目的是从特征学习出一个0/1分类模型。而这个模型是将特性的线性组合作为自变量,由于自变量的取值范围是负无穷到正无穷。
因此。使用logistic函数(或称作sigmoid函数)将自变量映射到(0,1)上,映射后的值被觉得是属于y=1的概率。
假设函数
从而,当我们要判别一个新来的特征属于哪个类时,仅仅需求就可以。若大于0.5就是y=1的类。反之属于y=0类。
此外,仅仅和有关,>0,那么,而g(z)仅仅是用来映射,真实的类别决定权还是在于。
再者。当时,=1,反之=0。假设我们仅仅从出发,希望模型达到的目标就是让训练数据中y=1的特征,而是y=0的特征。Logistic回归就是要学习得到,使得正例的特征远大于0。负例的特征远小于0。并且要在全部训练实例上达到这个目标。
接下来,尝试把logistic回归做个变形。首先,将使用的结果标签y = 0和y = 1替换为y = -1,y = 1,然后将()中的替换为b,最后将后面的替换为(即)。如此,则有了。也就是说除了y由y=0变为y=-1外,线性分类函数跟logistic回归的形式化表示没差别。
进一步,能够将假设函数中的g(z)做一个简化。将其简单映射到y=-1和y=1上。映射关系例如以下:
下面举个简单的样例,例如以下图所看到的,如今有一个二维平面,平面上有两种不同的数据,分别用圈和叉表示。由于这些数据是线性可分的,所以能够用一条直线将这两类数据分开,这条直线就相当于一个超平面,超平面一边的数据点所相应的y全是 -1 ,还有一边所相应的y全是1。
这个超平面能够用分类函数表示,当f(x) 等于0的时候。x便是位于超平面上的点。而f(x)大于0的点相应 y=1 的数据点。f(x)小于0的点相应y=-1的点,例如以下图所看到的:
注:有的资料上定义特征到结果的输出函数,与这里定义的 实质是一样的。为什么?由于不管是,还是。不影响终于优化结果。下文你将看到,当我们转化到优化的时候。为了求解方便,会把yf(x)令为1。即yf(x)是y(w^x + b),还是y(w^x - b),对我们要优化的式子max1/||w||已无影响。
(有一朋友飞狗来自Mare_Desiderii。看了上面的定义之后。问道:请教一下SVM functional margin 为=y(wTx+b)=yf(x)中的Y是仅仅取1和-1 吗?y的唯一作用就是确保functional margin的非负性?真是这样的么?当然不是。详情请见本文评论下第43楼)
当然,有些时候,或者说大部分时候数据并非线性可分的,这个时候满足这样条件的超平面就根本不存在(只是关于怎样处理这样的问题我们后面会讲),这里先从最简单的情形開始推导,就假设数据都是线性可分的。亦即这样的超平面是存在的。换言之,在进行分类的时候。遇到一个新的数据点x。将x代入f(x) 中,假设f(x)小于0则将x的类别赋为-1,假设f(x)大于0则将x的类别赋为1。
接下来的问题是,怎样确定这个超平面呢?从直观上而言,这个超平面应该是最适合分开两类数据的直线。而判定“最适合”的标准就是这条直线离直线两边的数据的间隔最大。所以,得寻找有着最大间隔的超平面。
在超平面w*x+b=0确定的情况下,|w*x+b|能够表示点x到距离超平面的远近,而通过观察w*x+b的符号与类标记y的符号是否一致可推断分类是否正确。所以。能够用(y*(w*x+b))的正负性来判定或表示分类的正确性。于此,我们便引出了函数间隔(functional margin)的概念。
定义函数间隔(用表示)为:
而超平面(w。b)关于T中全部样本点(xi,yi)的函数间隔最小值(当中,x是特征,y是结果标签,i表示第i个样本),便为超平面(w, b)关于训练数据集T的函数间隔:
= mini (i=1,...n)
但这样定义的函数间隔有问题。即假设成比例的改变w和b(如将它们改成2w和2b),则函数间隔的值f(x)却变成了原来的2倍(尽管此时超平面没有改变),所以仅仅有函数间隔还远远不够。
事实上,我们能够对法向量w加些约束条件,从而引出真正定义点到超平面的距离--几何间隔(geometrical margin)的概念。
假定对于一个点 x ,令其垂直投影到超平面上的相应点为 x0 。w 是垂直于超平面的一个向量,为样本x到分类间隔的距离。例如以下图所看到的:
又由于
(有的书上会写成把||w|| 分开相除的形式。如本文參考文献及推荐阅读条目11。当中,||w||为w的二阶泛数)
为了得到的绝对值,令乘上相应的类别 y。就可以得出几何间隔(用表示)的定义:
从上述函数间隔和几何间隔的定义能够看出:几何间隔就是函数间隔除以||w||,并且函数间隔y*(wx+b) = y*f(x)实际上就是|f(x)|,仅仅是人为定义的一个间隔度量,而几何间隔|f(x)|/||w||才是直观上的点到超平面的距离。
对一个数据点进行分类,当超平面离数据点的“间隔”越大。分类的确信度(confidence)也越大。
所以,为了使得分类的确信度尽量高,须要让所选择的超平面能够最大化这个“间隔”值。这个间隔例如以下图中的gap / 2所看到的。
通过由前面的分析可知:函数间隔不适合用来最大化间隔值,由于在超平面固定以后,能够等比例地缩放w的长度和b的值。这样能够使得的值随意大,亦即函数间隔能够在超平面保持不变的情况下被取得随意大。但几何间隔由于除上了,使得在缩放w和b的时候几何间隔的值是不会改变的,它仅仅随着超平面的变动而变动,因此,这是更加合适的一个间隔。所以,这里要找的最大间隔分类超平面中的“间隔”指的是几何间隔。
于是最大间隔分类器(maximum margin classifier)的目标函数能够定义为:
同一时候需满足一些条件。依据间隔的定义,有
当中,s.t.,即subject to的意思,它导出的是约束条件。
回想下几何间隔的定义可知:假设令函数间隔等于1(之所以令等于1,是为了方便推导和优化。且这样做对目标函数的优化没有影响,至于为什么,请见本文评论下第42楼回复)。则有 = 1 / ||w||且,从而上述目标函数转化成了
这个目标函数便是在相应的约束条件下,最大化这个1/||w||值,而1/||w||便是几何间隔。
例如以下图所看到的,中间的实线便是寻找到的最优超平面(Optimal Hyper Plane)。其到两条虚线的距离相等,这个距离便是几何间隔。两条虚线之间的距离等于2,而虚线上的点则是支持向量。由于这些支持向量刚好在边界上,所以它们满足(还记得我们把 functional margin 定为 1 了吗?上节中:处于方便推导和优化的目的。我们能够令=1)。而对于全部不是支持向量的点,则显然有。
OK。到此为止,算是了解到了SVM的第一层,对于那些仅仅关心怎么用SVM的朋友便已足够。不必再更进一层深究其更深的原理。
接着考虑之前得到的目标函数:
由于如今的目标函数是二次的,约束条件是线性的。所以它是一个凸二次规划问题。这个问题能够用现成的QP (Quadratic Programming) 优化包进行求解。一言以蔽之:在一定的约束条件下,目标最优,损失最小。
此外,由于这个问题的特殊结构。还能够通过拉格朗日对偶性(Lagrange Duality)变换到对偶变量 (dual variable) 的优化问题,即通过求解与原问题等价的对偶问题(dual problem)得到原始问题的最优解,这就是线性可分条件下支持向量机的对偶算法,这样做的长处在于:一者对偶问题往往更easy求解;二者能够自然的引入核函数。进而推广到非线性分类问题。
那什么是拉格朗日对偶性呢?简单来讲,通过给每个约束条件加上一个拉格朗日乘子(Lagrange multiplier),定义拉格朗日函数(通过拉格朗日函数将约束条件融合到目标函数里去,从而仅仅用一个函数表达式便能清楚的表达出我们的问题):
然后令
easy验证,当某个约束条件不满足时,比如。那么显然有(仅仅要令就可以)。而当全部约束条件都满足时,则最优值为,亦即最初要最小化的量。
因此,在要求约束条件得到满足的情况下最小化,实际上等价于直接最小化(当然,这里也有约束条件,就是
详细写出来,目标函数变成了:
这里用表示这个问题的最优值。且和最初的问题是等价的。
假设直接求解,那么一上来便得面对w和b两个參数,而又是不等式约束,这个求解过程不好做。
最好还是把最小和最大的位置交换一下,变成:
交换以后的新问题是原始问题的对偶问题,这个新问题的最优值用来表示。并且有≤,在满足某些条件的情况下,这两者相等。这个时候就能够通过求解对偶问题来间接地求解原始问题。
换言之,之所以从minmax的原始问题,转化为maxmin的对偶问题。一者由于是的近似解,二者,转化为对偶问题后,更easy求解。
下面能够先求L 对w、b的极小。再求L 对的极大。
上文中提到“≤在满足某些条件的情况下,两者等价”。这所谓的“满足某些条件”就是要满足KKT条件。
一般地。一个最优化数学模型能够表示成下列标准形式:
当中。f(x)是须要最小化的函数。h(x)是等式约束,g(x)是不等式约束。p和q分别为等式约束和不等式约束的数量。
同一时候,得明确下面两点:
而KKT条件就是指上面最优化数学模型的标准形式中的最小点 x* 必须满足下面的条件:
经过论证,我们这里的问题是满足 KKT 条件的(首先已经满足Slater condition,再者f和gi也都是可微的,即L对w和b都可导),因此如今我们便转化为求解第二个问题。
也就是说,原始问题通过满足KKT条件,已经转化成了对偶问题。
而求解这个对偶学习问题,分为3个步骤:首先要让L(w,b,a) 关于 w 和 b 最小化,然后求对的极大,最后利用SMO算法求解对偶问题中的拉格朗日乘子。
(1)、首先固定,要让
将以上结果代入之前的L
得到:
提醒:有读者可能会问上述推导过程怎样而来?说实话。其详细推导过程是比較复杂的,例如以下图所看到的:
最后。得到:
如 jerrylead所说:“倒数第4步”推导到“倒数第3步”使用了线性代数的转置运算,由于ai和yi都是实数,因此转置后与自身一样。
“倒数第3步”推导到“倒数第2步”使用了(a+b+c+…)(a+b+c+…)=aa+ab+ac+ba+bb+bc+…的乘法运算法则。最后一步是上一步的顺序调整。
从上面的最后一个式子。我们能够看出,此时的拉格朗日函数仅仅包含了一个变量。那就是(求出了便能求出w,和b,由此可见,上文第1.2节提出来的核心问题:分类函数也就能够轻而易举的求出来了)。
(2)、求对的极大。即是关于对偶问题的最优化问题。经过上面第一个步骤的求w和b,得到的拉格朗日函数式子已经没有了变量w,b。仅仅有。从上面的式子得到:
这样。求出了,依据。就可以求出w,然后通过,就可以求出b,终于得出分离超平面和分类决策函数。
(3)在求得L(w, b, a) 关于 w 和 b 最小化,以及对的极大之后,最后一步便是利用SMO算法求解对偶问题中的拉格朗日乘子。
要了解这个SMO算法是怎样推导的,请跳到下文第3.5节、SMO算法。
OK。为过渡到下节2.2节所介绍的核函数。让我们再来看看上述推导过程中得到的一些有趣的形式。
首先就是关于我们的 hyper plane ,对于一个数据点
因此分类函数为:
这里的形式的有趣之处在于,对于新点 x的预測,仅仅须要计算它与训练数据点的内积就可以(表示向量内积)。这一点至关重要,是之后使用 Kernel 进行非线性推广的基本前提。
此外,所谓 Supporting Vector 也在这里显示出来——事实上。全部非Supporting Vector 所相应的系数都是等于零的,因此对于新点的内积计算实际上仅仅要针对少量的“支持向量”而不是全部的训练数据就可以。
为什么非支持向量相应的等于零呢?直观上来理解的话。就是这些“后方”的点——正如我们之前分析过的一样。对超平面是没有影响的,由于分类全然有超平面决定。所以这些无关的点并不会參与分类问题的计算,因而也就不会产生不论什么影响了。
回想一下我们2.1.1节中通过 Lagrange multiplier得到的目标函数:
注意到假设
从1.5节到上述全部这些东西,便得到了一个maximum margin hyper plane classifier,这就是所谓的支持向量机(Support Vector Machine)。当然,到眼下为止,我们的 SVM 还比較弱,仅仅能处理线性的情况,只是,在得到了对偶dual 形式之后。通过 Kernel 推广到非线性的情况就变成了一件非常easy的事情了(相信,你还记得本节开头所说的:“通过求解对偶问题得到最优解,这就是线性可分条件下支持向量机的对偶算法。这样做的长处在于:一者对偶问题往往更easy求解;二者能够自然的引入核函数。进而推广到非线性分类问题”)。
咱们首先给出核函数的来头:在上文中,我们已经了解到了SVM处理线性可分的情况,而对于非线性的情况,SVM 的处理方法是选择一个核函数 κ(⋅,⋅) 。通过将数据映射到高维空间。来解决在原始空间中线性不可分的问题。
此外,由于训练样例通常是不会独立出现的,它们总是以成对样例的内积形式出现。而用对偶形式表示学习器的优势在为在该表示中可调參数的个数不依赖输入属性的个数,通过使用恰当的核函数来替代内积,能够隐式得将非线性的训练数据映射到高维空间,而不增加可调參数的个数(当然。前提是核函数能够计算相应着两个输入特征向量的内积)。
在线性不可分的情况下,支持向量机首先在低维空间中完毕计算。然后通过核函数将输入空间映射到高维特征空间,终于在高维特征空间中构造出最优分离超平面,从而把平面上本身不好分的非线性数据分开。如图7-7所看到的,一堆数据在二维空间无法划分。从而映射到三维空间里划分:
来看个核函数的样例。例如以下图所看到的的两类数据,分别分布为两个圆圈的形状。这样的数据本身就是线性不可分的,此时咱们该怎样把这两类数据分开呢(下文将会有一个相应的三维空间图)?
事实上。上图所述的这个数据集。是用两个半径不同的圆圈加上了少量的噪音生成得到的,所以。一个理想的分界应该是一个“圆圈”而不是一条线(超平面)。假设用
注意上面的形式,假设我们构造另外一个五维的空间。当中五个坐标的值分别为
关于新的坐标
再进一步描写叙述 Kernel 的细节之前。最好还是再来看看这个样例映射过后的直观样例。当然,你我可能无法把 5 维空间画出来,只是由于我这里生成数据的时候就是用了特殊的情形,详细来说,我这里的超平面实际的方程是这个样子(圆心在
因此我仅仅须要把它映射到
核函数相当于把原来的分类函数:
映射成:
而当中的能够通过求解例如以下 dual 问题而得到的:
这样一来问题就攻克了吗?似乎是的:拿到非线性数据,就找一个映射
所以就须要 Kernel 出马了。
最好还是还是从最開始的简单样例出发。设两个向量和,而即是到前面说的五维空间的映射。因此映射过后的内积为:
(公式说明:上面的这两个推导过程中。所说的前面的五维空间的映射。这里说的前面便是文中2.2.1节的所述的映射方式,回想下之前的映射规则,再看那第一个推导。事实上就是计算x1,x2各自的内积,然后相乘相加就可以,第二个推导则是直接平方,去掉括号,也非常easy推出来)
另外,我们又注意到:
二者有非常多类似的地方,实际上,我们仅仅要把某几个维度线性缩放一下。然后再加上一个常数维度,详细来说,上面这个式子的计算结果实际上和映射
之后的内积的结果是相等的。那么差别在于什么地方呢?
(公式说明:上面之中,最后的两个式子。第一个算式。是带内积的全然平方式。能够拆开,然后,通过凑一个得到,第二个算式,也是依据第一个算式凑出来的)
回想刚才提到的映射的维度爆炸,在前一种方法已经无法计算的情况下,后一种方法却依然能从容处理,甚至是无穷维度的情况也没有问题。
我们把这里的计算两个向量在隐式映射过后的空间中的内积的函数叫做核函数 (Kernel Function) ,比如,在刚才的样例中,我们的核函数为:
核函数能简化映射空间中的内积运算——刚好“碰巧”的是,在我们的 SVM 里须要计算的地方数据向量总是以内积的形式出现的。对照刚才我们上面写出来的式子,如今我们的分类函数为:
当中
这样一来计算的问题就算攻克了,避开了直接在高维空间中进行计算。而结果却是等价的!当然,由于我们这里的样例非常简单,所以我能够手工构造出相应于的核函数出来,假设对于随意一个映射,想要构造出相应的核函数就非常困难了。
通常人们会从一些经常使用的核函数中选择(依据问题和数据的不同,选择不同的參数。实际上就是得到了不同的核函数),比如:
只是,总的来说,通过调控參数,高斯核实际上具有相当高的灵活性,也是使用最广泛的核函数之中的一个。下图所看到的的样例便是把低维线性不可分的数据通过高斯核函数映射到了高维空间:
在本文第一节最開始讨论支持向量机的时候。我们就假定。数据是线性可分的,亦即我们能够找到一个可行的超平面将数据全然分开。后来为了处理非线性数据,在上文2.2节使用 Kernel 方法对原来的线性 SVM 进行了推广。使得非线性的的情况也能处理。尽管通过映射
比如可能并非由于数据本身是非线性结构的,而仅仅是由于数据有噪音。对于这样的偏离正常位置非常远的数据点,我们称之为 outlier 。在我们原来的 SVM 模型里,outlier 的存在有可能造成非常大的影响,由于超平面本身就是仅仅有少数几个 support vector 组成的。假设这些 support vector 里又存在 outlier 的话。其影响就非常大了。比例如以下图:
用黑圈圈起来的那个蓝点是一个 outlier ,它偏离了自己原本所应该在的那个半空间,假设直接忽略掉它的话。原来的分隔超平面还是挺好的,可是由于这个 outlier 的出现,导致分隔超平面不得不被挤歪了,变成途中黑色虚线所看到的(这仅仅是一个示意图,并没有严格计算精确坐标)。同一时候 margin 也相应变小了。
当然。更严重的情况是,假设这个 outlier 再往右上移动一些距离的话。我们将无法构造出能将数据分开的超平面来。
为了处理这样的情况。SVM 同意数据点在一定程度上偏离一下超平面。
比如上图中,黑色实线所相应的距离,就是该 outlier 偏离的距离,假设把它移动回来,就刚好落在原来的超平面上,而不会使得超平面发生变形了。
插播下一位读者@Copper_PKU的理解:“换言之,在有松弛的情况下outline点也属于支持向量SV。同一时候。对于不同的支持向量,拉格朗日參数的值也不同,如此篇论文《Large Scale Machine Learning》中的下图所看到的:
对于远离分类平面的点值为0;对于边缘上的点值在[0, 1/L]之间,当中,L为训练数据集个数,即数据集大小;对于outline数据和内部的数据值为1/L。
很多其他请參看本文文末參考条目第51条。”
OK,继续回到咱们的问题。我们。原来的约束条件为:
如今考虑到outlier问题,约束条件变成了:
当中称为松弛变量 (slack variable) ,相应数据点同意偏离的 functional margin 的量。当然。假设我们执行随意大的话,那随意的超平面都是符合条件的了。
所以。我们在原来的目标函数后面加上一项,使得这些的总和也要最小:
当中
完整地写出来是这个样子:
分析方法和前面一样,转换为还有一个问题之后,我们先让针对、
将
只是。由于我们得到而又有(作为 Lagrange multiplier 的条件),因此有,所以整个 dual 问题如今写作:
把前后的结果对照一下(错误修正:图中的Dual formulation中的Minimize应为maxmize):
能够看到唯一的差别就是如今 dual variable 多了一个上限
行文至此,能够做个小结,不准确的说。SVM它本质上即是一个分类方法,用w^T+b定义分类函数,于是求w、b。为寻最大间隔,引出1/2||w||^2。继而引入拉格朗日因子,化为对拉格朗日乘子a的求解(求解过程中会涉及到一系列最优化或凸二次规划等问题),如此。求w.b与求a等价。而a的求解能够用一种高速学习算法SMO。至于核函数,是为处理非线性情况,若直接映射到高维计算恐维度爆炸,故在低维计算。等效高维表现。
OK,理解到这第二层,已经能满足绝大部分人一窥SVM原理的好奇心,然对于那些想在证明层面理解SVM的则还非常不够。但进入第三层理解境地之前,你必须要有比較好的数理基础和逻辑证明能力,不然你会跟我一样,吃不少苦头的。
说实话。凡是涉及到要证明的东西.理论,便一般不是怎么好惹的东西。
绝大部分时候,看懂一个东西不难,但证明一个东西则须要点数学功底。进一步。证明一个东西也不是特别难,难的是从零開始发明创造这个东西的时候,则显艰难(由于不论什么时代,大部分人的研究所得都只是是基于前人的研究成果,前人所做的是开创性工作,而这往往是最艰难最有价值的,他们被称为真正的先驱。
牛顿也曾说过。他只是是站在巨人的肩上。
你。我则更是如此)。
正如陈希孺院士在他的著作《数理统计学简史》的第4章、最小二乘法中所讲:在科研上诸多观念的革新和突破是有着非常多的不易的。也许某个定理在某个时期由某个人点破了,如今的我们看来一切都是理所当然,但在一切没有发现之前,可能许很多多的顶级学者毕其功于一役,耗尽一生,努力了几十年终于也是无功而返。
话休絮烦,要证明一个东西先要弄清楚它的根基在哪,即构成它的基础是哪些理论。OK。下面内容基本是上文中未讲到的一些定理的证明。包含其背后的逻辑、来源背景等东西,还是读书笔记。
本部分导述
在本文1.0节有这么一句话“支持向量机(SVM)是90年代中期发展起来的基于统计学习理论的一种机器学习方法,通过寻求结构化风险最小来提高学习机泛化能力,实现经验风险和置信范围的最小化,从而达到在统计样本量较少的情况下,亦能获得良好统计规律的目的。”但初次看到的读者可能并不了解什么是结构化风险,什么又是经验风险。
要了解这两个所谓的“风险”。还得又从监督学习说起。
监督学习实际上就是一个经验风险或者结构风险函数的最优化问题。
风险函数度量平均意义下模型预測的好坏,模型每一次预測的好坏用损失函数来度量。它从假设空间F中选择模型f作为决策函数,对于给定的输入X,由f(X)给出相应的输出Y,这个输出的预測值f(X)与真实值Y可能一致也可能不一致,用一个损失函数来度量预測错误的程度。损失函数记为L(Y, f(X))。
经常使用的损失函数有下面几种(基本引用自《统计学习方法》):
如此,SVM有另外一种理解,即最优化+损失最小。或如@夏粉_百度所说“可从损失函数和优化算法角度看SVM,boosting。LR等算法。可能会有不同收获”。
OK。关于很多其他统计学习方法的问题,请參看此文。
关于损失函数,例如以下文读者评论中所述:能够看看张潼的这篇《Statistical behavior and consistency of classification methods based on convex risk minimization》。各种算法中经常使用的损失函数基本都具有fisher一致性。优化这些损失函数得到的分类器能够看作是后验概率的“代理”。此外。张潼还有另外一篇论文《Statistical analysis of some multi-category large margin classification methods》,在多分类情况下margin loss的分析,这两篇对Boosting和SVM使用的损失函数分析的非常透彻。
既然本节開始之前提到了最小二乘法,那么下面引用《正态分布的前世今生》里的内容略微简单阐述下。
我们口头中经常说:一般来说,平均来说。如平均来说,不吸烟的健康优于吸烟者。之所以要加“平均”二字。是由于凡事皆有例外。总存在某个特别的人他吸烟但由于经常锻炼所以他的健康状况可能会优于他身边不吸烟的朋友。而最小二乘法的一个最简单的样例便是算术平均。
最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。
利用最小二乘法能够简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。用函数表示为:
使误差「所谓误差,当然是观察值与实际真实值的差量」平方和达到最小以寻求预计值的方法,就叫做最小二乘法。用最小二乘法得到的预计。叫做最小二乘预计。当然,取平方和作为目标函数仅仅是众多可取的方法之中的一个。
最小二乘法的一般形式可表示为:
有效的最小二乘法是勒让德在 1805 年发表的。基本思想就是觉得測量中有误差,所以全部方程的累积误差为
我们求解出导致累积误差最小的參数就可以:
勒让德在论文中对最小二乘法的优良性做了几点说明:
对于最后一点。从统计学的角度来看是非常重要的一个性质。推理例如以下:假设真值为
由于算术平均是一个历经考验的方法,而以上的推理说明。算术平均是最小二乘的一个特例。所以从还有一个角度说明了最小二乘方法的优良性,使我们对最小二乘法更加有信心。
最小二乘法发表之后非常快得到了大家的认可接受,并迅速的在数据分析实践中被广泛使用。只是历史上又有人把最小二乘法的发明归功于高斯,这又是怎么一回事呢。高斯在1809年也发表了最小二乘法。并且声称自己已经使用这种方法多年。高斯发明了小行星定位的数学方法。并在数据分析中使用最小二乘方法进行计算。准确的预測了谷神星的位置。
说了这么多,貌似跟本文的主题SVM没啥关系呀,别急,请让我继续阐述。
本质上说。最小二乘法即是一种參数预计方法,说到參数预计,咱们得从一元线性模型说起。
对于平面中的这n个点,能够使用无数条曲线来拟合。要求样本回归函数尽可能好地拟合这组值。
综合起来看,这条直线处于样本数据的中心位置最合理。
有下面三个标准能够选择:
但非常快发现计算“残差和”存在相互抵消的问题。
但绝对值的计算比較麻烦。
OK。很多其他请參看陈希孺院士的《数理统计学简史》的第4章、最小二乘法。
在上文中。我们提到了求解对偶问题的序列最小最优化SMO算法,但并未提到其详细解法。首先看下最后悬而未决的问题:
等价于求解:
1998年。Microsoft Research的John C. Platt在论文《Sequential Minimal Optimization:A Fast Algorithm for Training Support Vector Machines》中提出针对上述问题的解法:SMO算法,它非常快便成为最快的二次规划优化算法,特别是在针对线性SVM和数据稀疏时性能更优。
接下来,咱们便參考John C. Platt的这篇文章来看看SMO的解法是怎样的。
咱们首先来定义特征到结果的输出函数:
注:这个u与我们之前定义的实质是一样的。
接着,又一次定义下咱们原始的优化问题,权当又一次回想,例如以下:
求导得到:
从而终于我们的问题变为:
下面要解决的问题是:在上求上述目标函数的最小值。
为了求解这些乘子,每次从中随意抽取两个乘子和。然后固定和以外的其他乘子。使得目标函数仅仅是关于和的函数。这样,不断的从一堆乘子中随意抽取两个求解,不断的迭代求解子问题。终于达到求解原问题的目的。
而原对偶问题的子问题的目标函数能够表达为:
当中
为了解决这个子问题,首要问题便是每次怎样选取和。实际上。当中一个乘子是违法KKT条件最严重的,另外一个乘子则由还有一个约束条件选取。
依据KKT条件能够得出目标函数中取值的意义:
此外,更新的同一时候还要受到第二个约束条件的限制,即。
当中,是常数。
为了求解,得先确定的取值范围。假设它的上下边界分别为H和L。那么有:
当y1 != y2时,依据可得,所以有,,例如以下图所看到的:
当y1 = y2时,相同依据可得:。所以有。,例如以下图所看到的:
化简下:
知道了怎样更新乘子,那么选取哪些乘子进行更新呢?详细选择方法有下面两个步骤:
综上,SMO算法的基本思想是将Vapnik在1982年提出的Chunking方法推到极致,SMO算法每次迭代仅仅选出两个分量ai和aj进行调整,其他分量则保持固定不变,在得到解ai和aj之后,再用ai和aj改进其他分量。与通常的分解算法比較,尽管它可能须要很多其他的迭代次数,但每次迭代的计算量比較小,所以该算法表现出整理的高速收敛性,且不须要存储核矩阵,也没有矩阵运算。
行文至此,我相信,SVM理解到了一定程度后。是的确能在脑海里从头至尾推导出相关公式的,最初分类函数,最大化分类间隔,max1/||w||。min1/2||w||^2,凸二次规划,拉格朗日函数,转化为对偶问题,SMO算法,都为寻找一个最优解,一个最优分类平面。一步步梳理下来,为什么这样那样,太多东西能够追究。最后实现。
例如以下图所看到的:
至于下文中将阐述的核函数则为是为了更好的处理非线性可分的情况,而松弛变量则是为了纠正或约束少量“不安分”或脱离集体不好归类的因子。
台湾的林智仁教授写了一个封装SVM算法的libsvm库,大家能够看看,此外这里还有一份libsvm的凝视文档。
除了在这篇论文《fast training of support vector machines using sequential minimal optimization》中platt给出了SMO算法的逻辑代码之外,这里也有一份SMO的实现代码,大家能够看下。
也许我们已经听到过,SVM在非常多诸如文本分类,图像分类。生物序列分析和生物数据挖掘,手写字符识别等领域有非常多的应用,但也许你并没强烈的意识到,SVM能够成功应用的领域远远超出如今已经在开发应用了的领域。
一个文本分类系统不仅是一个自然语言处理系统,也是一个典型的模式识别系统,系统的输入是须要进行分类处理的文本,系统的输出则是与文本关联的类别。由于篇幅所限。其他更详细内容本文将不再详述。
OK,本节虽取标题为证明SVM。但聪明的读者们想必早已看出,事实上本部分并无多少证明部分(特此致歉),怎么办呢?能够參阅《支持向量机导论》一书。此书精简而有趣。本节完。
”
各种算法中经常使用的损失函数基本都具有fisher一致性。优化这些损失函数得到的分类器能够看作是后验概率的“代理”。
此外,张潼老师还有另外一篇论文《Statistical analysis of some multi-category large margin classification methods》,在多分类情况下margin loss的分析,这两篇对Boosting和SVM使用的损失函数分析的非常透彻。
核函数也不太用,如今是大数据时代。样本非常大,无法想象一个n^2的核矩阵怎样存储和计算。
并且。如今如今非线性一般靠深度学习了。//@Copper_PKU:请教svm在工业界的应用典型的有哪些?工业界怎样选取核函数,经验的方法?svm的训练过程怎样优化?
有不论什么问题,敬请广大读者随时不吝批评指正。感谢。
本文会一直不断翻新,再者,上述 4 个PDF的阅读体验也还不是最好的,假设有朋友制作了更好的PDF,欢迎分享给我:http://weibo.com/julyweibo,谢谢。
July、2015年4月22日文章N变化(N > 100)。