在很久以前的情人节,大侠要去救他的爱人,但魔鬼和他玩了一个游戏。
魔鬼在桌子上似乎有规律放了两种颜色的球,说:
“你用一根棍分开它们?要求:尽量在放更多球之后,仍然适用。”
于是大侠这样放,干的不错?
然后魔鬼,又在桌上放了更多的球,似乎有一个球站错了阵营。
怎么办??
把分解的小棍儿变粗。
SVM就是试图把棍放在最佳位置,好让在棍的两边有尽可能大的间隙。
现在即使魔鬼放了更多的球,棍仍然是一个好的分界线。
然后,在SVM 工具箱中有另一个更加重要的技巧( trick)。 魔鬼看到大侠已经学会了一个trick,于是魔鬼给了大侠一个新的挑战。
现在,大侠没有棍可以很好帮他分开两种球了,现在怎么办呢?
当然像所有武侠片中一样大侠桌子一拍,球飞到空中。然后,凭借大侠的轻功,大侠抓起一张纸,插到了两种球的中间。
现在,从魔鬼的角度看这些球,这些球看起来像是被一条曲线分开了。
再之后,无聊的大人们,把上面的物体起了别名:
球—— 「data」数据
棍子—— 「classifier」分类
最大间隙——「optimization」最优化
拍桌子——「kernelling」核方法
纸——「hyperplane」超平面
案例来源:http://bytesizebio.net/2014/02/05/support-vector-machines-explained-well/
SVM:SVM全称是supported vector machine(支持向量机),即寻找到一个超平面使样本分成两类,并且间隔最大。
SVM能够执行线性或非线性分类、回归,甚至是异常值检测任务。它是机器学习领域最受欢迎的模型之一。SVM特别适用于中小型复杂数据集的分类。
上左图显示了三种可能的线性分类器的决策边界:
虚线所代表的模型表现非常糟糕,甚至都无法正确实现分类。其余两个模型在这个训练集上表现堪称完美,但是它们的决策边界与实例过于接近,导致在面对新实例时,表现可能不会太好。
右图中的实线代表SVM分类器的决策边界,不仅分离了两个类别,且尽可能远离最近的训练实例。
在上面我们使用超平面进行分割数据的过程中,如果我们严格地让所有实例都不在最大间隔之间,并且位于正确的一边,这就是硬间隔分类。
硬间隔分类有两个问题,首先,它只在数据是线性可分离的时候才有效;其次,它对异常值非常敏感。
当有一个额外异常值的鸢尾花数据:左图的数据根本找不出硬间隔,而右图最终显示的决策边界与我们之前所看到的无异常值时的决策边界也大不相同,可能无法很好地泛化。
要避免这些问题,最好使用更灵活的模型。目标是尽可能在保持最大间隔宽阔和限制间隔违例(即位于最大间隔之上,甚至在错误的一边的实例)之间找到良好的平衡,这就是软间隔分类。
要避免这些问题,最好使用更灵活的模型。目标是尽可能在保持间隔宽阔和限制间隔违例之间找到良好的平衡,这就是软间隔分类。
在Scikit-Learn的SVM类中,可以通过超参数C来控制这个平衡:C值越小,则间隔越宽,但是间隔违例也会越多。上图显示了在一个非线性可分离数据集上,两个软间隔SVM分类器各自的决策边界和间隔。
左边使用了高C值,分类器的错误样本(间隔违例)较少,但是间隔也较小。
右边使用了低C值,间隔大了很多,但是位于间隔上的实例也更多。看起来第二个分类器的泛化效果更好,因为大多数间隔违例实际上都位于决策边界正确的一边,所以即便是在该训练集上,它做出的错误预测也会更少。
>>> from sklearn import svm
>>> X = [[0, 0], [1, 1]]
>>> y = [0, 1]
>>> clf = svm.SVC()
>>> clf.fit(X, y)
SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
decision_function_shape='ovr', degree=3, gamma='scale', kernel='rbf',
max_iter=-1, probability=False, random_state=None, shrinking=True,
tol=0.001, verbose=False)
在拟合后, 这个模型可以用来预测新的值:
>>> clf.predict([[2., 2.]])
array([1])
假设给定一个特征空间上的训练集为:
其中, ( x i , y i ) (x_i,y_i) (xi,yi)称为样本点。
x i x_i xi 为第i个实例(样本),
y i y_i yi为 x i x_i xi 的标记:
至于为什么正负用(-1,1)表示呢?
其实这里没有太多原理,就是一个标记,你也可以用(2,-3)来标记。只是>为了方便, y i / y j = y i ∗ y j y_i/y_j=y_i*y_j yi/yj=yi∗yj 的过程中刚好可以相等,便于之后的计算。)
给定了上面提出的线性可分训练数据集,通过间隔最大化得到分离超平面为 : y ( x ) = w T Φ ( x ) + b y(x)=w^T\Phi(x)+b y(x)=wTΦ(x)+b
相应的分类决策函数为: f ( x ) = s i g n ( w T Φ ( x ) + b ) f(x)=sign(w^T\Phi(x)+b) f(x)=sign(wTΦ(x)+b)
以上决策函数就称为线性可分支持向量机。
这里解释一下 Φ ( x ) \Phi(x) Φ(x)这个东东。
这是某个确定的特征空间转换函数,它的作用是将x映射到更高的维度,它有一个以后我们经常会见到的专有称号”核函数“。
比如我们看到的特征有2个:
x 1 , x 2 x1,x2 x1,x2组成最先见到的线性函数可以是 w 1 x 1 + w 2 x 2 w_1x_1+w_2x_2 w1x1+w2x2.
但也许这两个特征并不能很好地描述数据,于是我们进行维度的转化,变成了 w 1 x 1 + w 2 x 2 + w 3 x 1 x 2 + w 4 x 1 2 + w 5 x 2 2 w_1x_1+w_2x_2+w_3x_1x_2+w_4x_1^2+w_5x_2^2 w1x1+w2x2+w3x1x2+w4x12+w5x22.
于是我们多了三个特征。而这个就是笼统地描述x的映射的。
最简单直接的就是: Φ ( x ) = x \Phi(x)=x Φ(x)=x
以上就是线性可分支持向量机的模型表达式。我们要去求出这样一个模型,或者说这样一个超平面y(x),它能够最优地分离两个集合。
其实也就是我们要去求一组参数(w,b),使其构建的超平面函数能够最优地分离两个集合。
如下就是一个最优超平面:
又比如说这样:
阴影部分是一个“过渡带”,“过渡带”的边界是集合中离超平面最近的样本点落在的地方。
我们知道了支持向量机是个什么东西了。现在我们要去寻找这个支持向量机,也就是寻找一个最优的超平面。
于是我们要建立一个目标函数。那么如何建立呢?
再来看一下我们的超平面表达式: y ( x ) = w T Φ ( x ) + b y(x)=w^T\Phi(x)+b y(x)=wTΦ(x)+b
为了方便我们让: Φ ( x ) = x \Phi(x)=x Φ(x)=x
则在样本空间中,划分超平面可通过如下线性方程来描述: w T x + b = 0 w^Tx+b=0 wTx+b=0
我们知道 w = ( w 1 , w 2 , . . . , w d ) w=(w_1,w_2,...,w_d) w=(w1,w2,...,wd)为法向量,决定了超平面的方向;
b为位移项,决定了超平面和原点之间的距离。
显然,划分超平面可被法向量w和位移b确定,我们把其记为(w,b).
样本空间中任意点x到超平面(w,b)的距离可写成
假设超平面(w, b)能将训练样本正确分类,即对于 ( x i , y i ) ∈ D (x_i, y_i)\in D (xi,yi)∈D,
令
如图所示,距离超平面最近的几个训练样本点使上式等号成立,他们被称为“支持向量",
它被称为“”间隔“”。
欲找到具有最大间隔的划分超平面,也就是要找到能满足下式中约束的参数w和b,使得 γ \gamma γ最大。
即:
显然,为了最大化间隔,仅需要最大化 ∣ ∣ w ∣ ∣ − 1 {||w||}^{-1} ∣∣w∣∣−1,这等价于最小化 ∣ ∣ w ∣ ∣ 2 {||w||}^{2} ∣∣w∣∣2。于是上式可以重写为:
这就是支持向量机的基本型。
到这一步,终于把目标函数给建立起来了。
那么下一步自然是去求目标函数的最优值.
因为目标函数带有一个约束条件,所以我们可以用拉格朗日乘子法求解。
啥是拉格朗日乘子法呢?
拉格朗日乘子法 (Lagrange multipliers)是一种寻找多元函数在一组约束下的极值的方法.
通过引入拉格朗日乘子,可将有 d 个变量与 k 个约束条件的最优化问题转化为具有 d + k 个变量的无约束优化问题求解。
https://blog.csdn.net/lijil168/article/details/69395023
经过朗格朗日乘子法,我们可以把目标函数转换为:
其中,上式后半部分:
走到这一步,这个目标函数还是不能开始求解,现在我们的问题是极小极大值问题
我们要将其转换为对偶问题,变成极大极小值问题:
从 m i n m a x L ( w , b , α ) min maxL(w,b,\alpha) minmaxL(w,b,α)变为: m a x m i n L ( w , b , α ) max min L(w,b,\alpha) maxminL(w,b,α)
如何获取对偶函数?
首先我们对原目标函数的w和b分别求导:
这个对偶函数其实求的是: m a x m i n L ( w , b , α ) max min L(w,b,\alpha) maxminL(w,b,α)中的 m i n L ( w , b ) minL(w,b) minL(w,b)部分(因为对w,b求了偏导)。
于是现在要求的是这个函数的极大值max(a),写成公式就是:
从而求出w.
将w代入超平面的表达式,计算b值;
现在的w,b就是我们要寻找的最优超平面的参数。
我们用数学表达式来说明上面的过程:
注意有两个约束条件。
对目标函数添加符号,转换成求极小值:
2)计算上面式子的极值求出 α ∗ \alpha^* α∗ ;
3)将 α ∗ \alpha^* α∗ 代入,计算w,b
4)求得超平面:
5)求得分类决策函数:
给定3个数据点:正例点 x 1 = ( 3 , 3 ) , x 2 = ( 4 , 3 ) x1=(3,3),x2=(4,3) x1=(3,3),x2=(4,3),负例点 x 3 = ( 1 , 1 ) x3=(1,1) x3=(1,1),求线性可分支持向量机。 三个点画出来:
把数据代入:
对 α 1 , α 2 \alpha_1,\alpha_2 α1,α2求偏导并令其为0,易知 s ( α 1 , α 2 ) s(\alpha_1,\alpha_2) s(α1,α2)在点(1.5, -1)处取极值。
而该点不满足条件 α 2 > = 0 {\alpha}_2 >= 0 α2>=0 ,所以,最小值在边界上达到。
于是, s ( α 1 , α 2 ) s(\alpha_1,\alpha_2) s(α1,α2)在 α 1 = 0 \alpha_1=0 α1=0, α 2 = 0 \alpha_2=0 α2=0时达到最小,此时:
0.5 x 1 + 0.5 x 2 − 2 = 0 0.5x_1+0.5x_2-2=0 0.5x1+0.5x2−2=0
f ( x ) = s i g n ( 0.5 x 1 + 0.5 x 2 − 2 ) f(x)=sign(0.5x_1+0.5x_2-2) f(x)=sign(0.5x1+0.5x2−2)
在SVM中,我们主要讨论三种损失函数:
绿色:0/1损失
蓝色:SVM Hinge损失函数
红色:Logistic损失函数
了解常见的核函数
【SVM + 核函数】 具有极大威力。
核函数并不是SVM特有的,核函数可以和其他算法也进行结合,只是核函数与SVM结合的优势非常大。
核函数,是将原始输入空间映射到新的特征空间,从而,使得原本线性不可分的样本可能在核空间可分。
下图所示的两类数据,分别分布为两个圆圈的形状,这样的数据本身就是线性不可分的,此时该如何把这两类数据分开呢?
若x,z是X空间中的点,函数k(x,z)满足下述条件,那么都成立,则称k为核函数,而ϕ为映射函数:
经过上面公式,具体变换过过程为:
(前后轴为x轴,左右轴为y轴,上下轴为z轴)
绿色的平面可以完美地分割红色和紫色,两类数据在三维空间中变成线性可分的了。
三维中的这个判决边界,再映射回二维空间中:是一条双曲线,它不是线性的。
核函数的作用就是一个从低维空间到高维空间的映射,而这个映射可以把低维空间中线性不可分的两类点变成线性可分的。
1.多项核中,d=1时,退化为线性核;
2.高斯核亦称为RBF核。
线性核和多项式核:
RBF核:
Sigmoid核:
总之,都是在定义距离,大于该距离,判为正,小于该距离,判为负。至于选择哪一种核函数,要根据具体的样本分布情况来确定。
一般有如下指导规则:
1) 如果Feature的数量很大,甚至和样本数量差不多时,往往线性可分,这时选用LR或者线性核Linear;
2) 如果Feature的数量很小,样本数量正常,不算多也不算少,这时选用RBF核;
3) 如果Feature的数量很小,而样本的数量很大,这时手动添加一些Feature,使得线性可分,然后选用LR或者线性核Linear;
4) 多项式核一般很少使用,效率不高,结果也不优于RBF;
5) Linear核参数少,速度快;RBF核参数多,分类结果非常依赖于参数,需要交叉验证或网格搜索最佳参数,比较耗时;
6)应用最广的应该就是RBF核,无论是小样本还是大样本,高维还是低维等情况,RBF核函数均适用。
SVM回归是让尽可能多的实例位于预测线上,同时限制间隔违例(也就是不在预测线距上的实例)。
线距的宽度由超参数ε控制。
使用SVM作为模型时,通常采用如下流程:
sklearn中支持向量分类主要有三种方法:SVC、NuSVC、LinearSVC,扩展为三个支持向量回归方法:SVR、NuSVR、LinearSVR。
class sklearn.svm.SVC(C=1.0, kernel='rbf', degree=3,coef0=0.0,random_state=None)
class sklearn.svm.NuSVC(nu=0.5)
class sklearn.svm.LinearSVC(penalty='l2', loss='squared_hinge', dual=True, C=1.0)
SVM是一种二类分类模型。
它的基本模型是在特征空间中寻找间隔最大化的分离超平面的线性分类器。
SVM的优点:
SVM的缺点: