–
首先要明白为什么要引入对偶问题,或者说为什么要将求解原问题转化为其求解对偶问题。
答:这是因为有些优化问题的原问题很难求解或者是原问题无法用现有的优化方法求解,但其对偶优化问题容易求解。所以在讲到SVM(Support Vector Machines),必定要提到Lagrange Dual问题,而且转化为对偶问题后能引入Kernel Fuction,也就是所谓的核函数。
对偶问题在SVM优化中的地位如此重要,而强弱对偶定理在对偶优化问题又占有重要的地位。一般的机器学习在讲到SVM部分时一般只讲如何将最大间隙问题化为其对偶问题,而对对偶问题中的强弱对偶定理一般只给出结论,比如Andrew NG的机器学习公开课讲义。笔者在最优化方法课程中恰好也学到了对偶理论,一般教科书对强对偶定理的初等证明又晦涩难懂,所以想写一下关于此定理相对通俗易懂的证明,也顺便梳理一下自己对强定理证明的理解。
一般带约束优化问题如下:
在进入正题之前,先证明几个重要的引理和推论。
设 x⃗ 和 w⃗ 为原问题和对偶问题的可行解,则
左边对 w⃗ 和v⃗ 取上确界 sup ,右边对可行解 x⃗ 取下确界 inf .得证.
如果 f(x⃗ ∗)≤θ(w⃗ ∗,v⃗ ∗) ,那么 x⃗ ∗和w⃗ ∗,v⃗ ∗ 分别为原问题和对偶问题的最优解。
Remark: 本文只讨论原问题和其对偶问题都有界的情况。
若原问题最优解为 fmin ,对偶问题最优解为 θmax(w⃗ ,v⃗ ) ,有
Andrew Ng 在机器学习note3中提到:
d∗≤p∗ 取等号就是下面要讲到的强对偶定理。
Remark:d∗≤p∗ 还能引出所谓的鞍点条件。
讲义中对强对偶定理描述如下:
Proof:
在给出强对偶定理严格证明之前,我们首先从几何直观上先来看看定理中的条件,如 图1 和 图2 。假设原优化问题可行域为非空凸集合,也就是 图1 和 图2 左上角绿色区域,先不考虑等式约束 hj(x)=0,j=1...k 。不等式约束和目标函数将可行域隐射到另一个坐标上,如 图1 和 图2 。我们可以清楚的看到,如果不等式约束和目标函数都是凸函数,那么对偶间隙是不存在的。等式约束 hj(x)=0,j=1...k 可以写成 hj(x)≤0,−hj(x)≤0,j=1...k , hj(x),−hj(x) 为凸函数,几何直观上可以将 hj(x) 是一条直线,自然能想到 hj(x) 是一个仿射函数。这个定理的几何直观性显而易见,如果只想会用这个定理的话,这就够了。