SVM- Lagrange duality(三)
Reference:
Pluskid系列博客,Liqizhou
《Pattern recognition and machine learning》CM Bishop - 2006
《convex optimization》SP Boyd, L Vandenberghe – 2004
说明:本系列纯粹是pluskid博客的狗尾续貂之作,写下了只是想让自己踏踏实实学点东西,如果看完pluskid的博客后已经了然于心,那就直接Pass,如果有不清楚的地方,说不定我的博客里面会给你一些启发。
后面部分的粗体完全乱了……以后再完善
对偶性普遍存在各个领域,这里抄袭下最优化中的Lagrange duality
Priminal problem:
将其转化为无约束问题:
Lagrange function:
Dual function:
Dual problem:
Weak duality
下界性质:对于可行域内的,是原问题的下界,即:设为原问题的最优解,
证明思路:方向,从形式和符号上由复杂的一边向简单的一边化简;策略,对于不等式问题一般都是标准的数学语言。
设
即对于可行域内的恒有。若存在
为原问题的最优解,则
,进而
弱对偶性质:设对偶问题的最优解为,最大值,原问题的最优解为最小值为。显然对最优解
也满足
。
Figure 1
Strong duality
弱对偶性质,只能得到原问题最小值的下限,并不能得到原问题的最优解,但是可以用来估计,即随便找一对代入
得到的都是原问题的一个下界。若原问题和对偶问题分别存在最优解
,若满足
,则称为强对偶性质。则求原问题的最小值,就完全可以转换为求对偶问题的最大值。
什么条件能使得原问题和对偶问题满足强对偶性质呢?我们先反推,看看满足强对偶的情况下有什么性质,这样可以找到必要条件,必要条件再补充些条件就肯定可以升级为充要条件。
必要条件:
令上式左右相等得到:
而为可行域内的解则:
因此上式(1.8)右边为0,所以左边必须也等于0,而,故要使得左边非正项的和为0,则每一项都必须为0。从而
将这些条件综合起来:
这就是大名鼎鼎的KKT(Karush–Kuhn–Tucker)条件。前两个条件是因为有解则必定在可行域内,称为原问题可行性。
称为对偶可行性。
称为互补松弛条件(complementary slackness)条件,显然,如果则
必定为0。
不一定能推出
。后面会探讨这个问题。
充要条件:若原问题为凸问题,而且均为可微的凸函数,为仿射函数(形如),则可以推出
即满足强对偶性质。
KKT条件本为最优值的必要条件,当均为可微的凸函数,为仿射函数时,KKT条件升级为充要条件,所以为原问题的最优解,对应的
为。我们直接将代入
看看能得到什么
而由KKT的最后一个式子,可以推出是
的一个极值点,因为
是凸函数,所以该极值点必定是唯一的最小值点。因而:
就是
的解,从而有:
由弱对偶性质,而
恰好等于
,所以
为
的最大值,因此
就是的最优解,对应的
为
,其值与原问题的最优值
相等,所以满足强对偶性质,而且有意思的是,二者的解都是
,即所谓的KKT点。
原问题和对偶问题解的存在性探讨:如果原问题不存在最小值,即最小值为,则由弱对偶性质,对偶问题得到的最大值必定也是,亦无解。若对偶问题存在最小值,
总结:原问题和对偶问题满足弱对偶性质,进一步强化为强对偶性质,则原问题就可以转化为对偶问题的求解。KKT条件为强对偶的必要条件,若原问题是凸问题,为凸函数,为仿射函数,KKT条件升级强对偶的充要条件。