SVM支持向量机系列理论(七) 线性支持向量机与L2正则化 Platt模型

7.1 软间隔SVM等价于最小化L2正则的合页损失

上一篇 说到, ξi ξ i 表示偏离边界的度量,若样本点 (xi,yi) ( x i , y i ) 满足约束时,则 ξi=0 ξ i = 0 , 当不满足约束时, ξi=1yi(wxi+b) ξ i = 1 − y i ( w ⋅ x i + b ) ,表示偏离margin的度量。

则把上面的合起来:

ξi=max(0,1yi(wxi+b)) ξ i = m a x ( 0 , 1 − y i ( w ⋅ x i + b ) )
那么优化目标函数可以写为:

min w,b  12||w||2+CNi=1max(0,1yi(wxi+b))        (1) m i n   w , b     1 2 | | w | | 2 + C ∑ i = 1 N m a x ( 0 , 1 − y i ( w ⋅ x i + b ) )                 ( 1 )

其中,我们把式子中的
Lhinge=max( 1z , 0) L h i n g e = m a x (   1 − z   ,   0 ) 称为hinge合页损失函数

我们可以看到 L2 正则化的合页损失函数可以等价于软间隔SVM。
但是,软间隔SVM的优势在于:

  • 是一个二次规划问题(QP),可以利用核技巧
  • max(0,1-z)不是可微的,难以解决,无法用梯度下降。

7.2 软间隔SVM与L2正则的0-1损失

软间隔允许某些样本不满足约束
   yi(wxi+b)1;       y i ( w ⋅ x i + b ) ≥ 1 ; ,而且我们希望在最大化间隔时,不满足约束的样本尽可能少。

那么优化目标函数可以写为:

min w,b  12||w||2+CNi=1L0/1(yi(wxi+b)1)        (2) m i n   w , b     1 2 | | w | | 2 + C ∑ i = 1 N L 0 / 1 ( y i ( w ⋅ x i + b ) − 1 )                 ( 2 )

C 为无穷大时,迫使所有样本满足约束,C为有限值时,允许一些样本不满足约束。

其中, L0/1 L 0 / 1 是0-1损失函数,代表当不满足约束时,记为 1. 但是,0-1损失函数是非凸非连续函数,数学性质不好,通常使用凸函数且是0-1损失函数的上界来代替损失函数:

  • hinge合页损失函数:
    Lhinge=max( 1z , 0) L h i n g e = m a x (   1 − z   ,   0 )
  • 指数算损失:
    Lexpz=ez L e x p z = e − z
  • 对率损失: Llogz=log2(1+ez) L l o g z = l o g 2 ( 1 + e − z )

7.3 软间隔SVM和L2正则的损失函数的对应关系

使用

  • 最大间隔对应L2正则化项
  • 一个大的C对应一个小的 λ λ
  • 软间隔对应特殊的损失

那么,软间隔SVM可以视为一个加L2正则化的模型。


7.4 逻辑回归模型和线性支持向量机的关系

针对(2),如果将0-1损失函数 L0/1 L 0 / 1 替换成对数损失函数 Llog L l o g (也就是极大似然函数),那么就几乎得到了逻辑回归模型(周志华《机器学习》P57)。

实际上,支持向量机和逻辑回归的优化目标相近,性能也相当

逻辑回归的优势

  • 有自然的概率意义,在给出预测标记的同时给出概率。
  • 能应用于多分类任务。

SVM的优势

  • 支持向量机的解只依赖于支持向量,逻辑回归的解依赖于更多的训练样本,预测开销比较大。

7.5 Platt模型:SVM的概率模型

  1. run SVM on D .得到 (bsvm,wsvm) ( b s v m , w s v m ) , 并 把D转换到 z=wTsvmϕ(x)+bsvm z = w s v m T ϕ ( x ) + b s v m
  2. 把{ (zi,yi)N1 ( z i , y i ) 1 N }代入逻辑回归模型得出A,B
  3. return g(x)=LogReg(Az+B) g ( x ) = L o g R e g ( A ⋅ z + B )

这样就能把SVM的结果转化成概率。

你可能感兴趣的:(SVM支持向量机系列理论)