机器学习---对偶问题

本文参考整理了Coursera上由NTU的林轩田讲授的《机器学习技法》课程的第二章的内容,主要介绍了Hard Margin SVM Dual的基本概念和求解方法、支撑向量的几何含义等,文中的图片都是截取自在线课程的讲义。
欢迎到我的博客跟踪最新的内容变化。
如果有任何错误或者建议,欢迎指出,感激不尽!


对偶问题的动机

原来的SVM如果要进行非线性变换,需要在转换后的Z空间(假设为d~维度)内进行linear SVM的求解,则在Z空间里的线性分类对应到原来的X空间可能就是一个non-linear的复杂边界。

问题:Z空间的QP问题有d+1个变量、N个约束。如果d非常大甚至无穷大,就很难甚至不可能求解。

目标:让SVM模型的求解不再依赖转换后的空间维度d~,以能够使用非常多的、非常复杂的特征转换。

将original问题转换为dual(对偶)问题,该问题与原问题等价即可。

基本工具: Lagrange Multipliers

将Lagrange Multipliers当做变量求解,SVM中的每一个条件都会对应一个Lagrange Multiplier,所以共有N个变量。

注意:在SVM的文献中通常把Lagrange Multipliers的λ叫做α。

出发点

将有约束优化问题转换为无约束的优化问题。

原始问题:

定义Lagrange Function:

则原始问题等价于

如何证明两个问题的解一样?

考虑两种情况:

  • 如果某个(b,W)不满足原始问题的N个条件之一,即某个1-yn(W’Zn+b)>0,则内部的Max操作会将αn推向无穷大,在min操作中会被淘汰。
  • 如果某个(b,W)满足原始问题的所有约束,则内部Max将所有的αi都推向0,即内部的max结果就是目标的1/2W’W的值,在外部的min操作中就会取得满足条件的(b,W)中目标函数最小的组合,和原始问题一样。
本质上就是把条件藏在了max操作里面,不满足条件的(b,W)一定不会被选择。

现在我们有了新的问题,它有哪些性质呢?

对于任何确定的α'【满足每一个元素α'n>=0】,则有

因为对于某一个(b,W),内部的max(L)始终大于等于L,则左边的最低点也一定大于等于右边的最低点。
简单地说,因为max>=any。

因为对于任何α'都有上式成立,所以

因为最大的是任意的α'中的某一个。

观察发现,只不过是把min和max操作交换了顺序,称该问题为Lagrange对偶问题。

只要我们解决了Lagrange Dual Problem,就得到了original problem的一个下限。

对偶性的强弱

  • '>=':弱对偶性(weak duality)
  • '=': 强对偶性(strong duality)

由最优化理论可得:
对于QP问题,如果满足:

  1. 原始问题是凸型的 convex primal
  2. 原始问题是有解的(如果Φ转换后数据点是线性可分的,则成立) feasible primal
  3. 线性约束条件
    称为 '条件资格' (constraint qualification)。

则对偶问题是强对偶问题,即存在原始-对偶最优解(b,W,α)在两侧都能最优。

化简对偶问题

inner problem:里面的问题,即min操作,是没有条件约束的,因此在最优点上,满足:

因此,加上该条件的最优解不变。

加上该条件,可以把变量b消去。

同理,对W进行类似的处理:

把最优解的条件加在对偶问题上:

求解b和W

现在最佳化问题只有变量α了,其他变量b和W根据和α的关系被α所表示。
求得α后,再根据这些关系求出b和W。

这些关系,我们一般叫做KKT最优条件(KKT Optimality Conditions)
KKT是三个做最优化的研究者的名字首字母(Karush-Kuhn-Tucker)。

如果原始-对偶最优解(b,W,α):

其中第4个条件,一般称为互补松弛条件(complementary slackness)

以上的推导说明KKT条件是最优解的必要条件[necessary],但也可以证明对于我们的问题来说,它也是充分的[sufficient]。

因此我们可以利用KKT条件根据最优的α来求解(b,W)。

Standard Hard-Margin SVM dual

再做一些微小的改写:

该问题称为“标准硬边界SVM的对偶问题”。

该问题仍然是一个QP凸问题,有N个变量(α1..N),N+1个条件(一个=0,N个>=0)。

仍然使用QP Solver求解。

QP系数

注意:很多QP程序可以很方便的直接特殊处理等式(A>=、A<=)或者边界类条件(an>=0),这样可以保证它们的数值稳定性

Q矩阵中的元素q(n,m)一般非0,是稠密矩阵(dense),且N大时,Q矩阵很大。

因此需要特殊的求解QP的程序(专门为SVM设计的),不存储整个Q矩阵,或者利用SVM的一些特殊条件来加速求解。

因此在实践中,我们通常最好使用特别为SVM设计的QP求解算法。

获得b和W

利用KKT条件:

得到W:

得到b:

和b有关的约束


只能告诉我们一个b的范围

如果某个αn>0 ==> (1 - yn(W’Zn + b)) = 0
两边都乘上yn,得
(yn - (W’Zn + b)) = 0

b = yn - W’Zn

上式告诉我们 yn(W’Zn + b) = 1,说明该点在胖胖的边界上,即是一个支撑向量(Support Vector)。

支撑向量的确切定义

我们把αn>0的点(Zn,yn)叫做support vectors,即支撑向量。

它一定在胖胖的边界上,但不是所有在胖胖的边界上的点都是SV,它们都是support vectors candidate。

SV的性质

计算W和b时,只需要用到支撑向量SV的点。

所以SVM是一种利用求解对偶问题的最优解,找出支撑向量来学习出最胖的分隔超平面的过程。

最胖分隔超平面的表示形式

即W是ynZn的线性组合。

这对于当W0=0时,使用GD/SGD的LogReg或者LinReg也成立。

称作 W 能够被 数据点 所表示(represented)。

SVM: 只需要SV就可以线性表示出W。

PLA: 只需要犯错的点就可以线性表示W。

Hard-Margin SVM的两种形式

两者最终都是得到最优的假设函数:

我们真的做到脱离d~了吗?

其实没有,计算Q矩阵时,每个q(n,m)都需要计算Zn'Zm,这是一个在R(d)空间中的两个向量的内积,需要时间至少为O(d)。

因此我们要想办法避开计算转换后的高维空间中向量的内积。

这部分内容需要利用kernel function的威力,我们在下一讲进行探讨。


Mind Map Summary


你可能感兴趣的:(机器学习)