华电北风吹
天津大学认知计算与应用重点实验室
日期:2015/10/23
本文基于斯坦福Andrew NG讲义和李航统计学习方法。
一、拉格朗日乘数法
考虑如下等式约束优化问题。
minw f(w)
s.t. hi(w)=0,i=1,2,...,l.
在运筹学中有很多这样的例子划归到动态规划中。在数学分析中,一般是采用拉格朗日乘数法求解。
L(w,β)=f(w)+∑li=1βihi(w)
其中 βi 叫做拉格朗日乘数。
这里通过求解如下方程组得到 w,β
∂L∂wi=0
∂L∂βi=0
二、广义拉格朗日乘数法
考虑如下带不等式的约束优化问题。
minw f(w)
s.t. gi(w)≤0,i=1,2,...,k.
hi(w)=0,i=1,2,...,l.
(1)
对于符合上述标准形式的约束优化问题可以采用广义拉格朗日乘数法求解。
L(w,α,β)=f(w)+∑ki=1αigi(w)+∑li=1βihi(w)(2)
注:在这里我们主要为了导出他的对偶问题以及在什么情况下可以用通过它的对偶问题来对元问题进行求解,因此这里我们不做偏导求解。
在这里为了得到和公式(1)等价的问题,我们定义
θp(w)=maxα,β:αi≥0L(w,α,β)(3)
θp(w)=maxα,β:αi≥0f(w)+∑ki=1αigi(w)+∑li=1βihi(w)(3)
这里下标p表示这是原问题的表述。在这里可以验证如果w违反公式(1)的任何一个约束就会有 θp(w)=∞ 。
因此有
θp(w)={f(w)∞}{w满足公式(1)里面的约束otherwise}(4)
因此公式1可以化为最小化问题
minwθp(w)
即 minwθp(w)=minwmaxα,β:αi≥0L(w,α,β)(5)
不难理解公式(5)是公式(1)的另一种描述,很显然它们也应该具有相同的解。
三、 maxmin和minmax对偶问题
在引入对偶问题前我们先来考虑这样一个问题
假设 f(x,y)是定义在x1≤x≤x2,y1≤y≤y2 上的任意一个函数。
我们来比较 maxyminxf(x,y) 和 minxmaxyf(x,y) 的大小
假设
F1(x)=maxyf(x,y)
F2(y)=minxf(x,y)
很容易得到对定义域内的任意x,y有
F2(y)≤f(x,y)≤F1(x)
所以对定义域内的任意x,y有
maxyF2(y)≤minxF1(x)
即 maxyminxf(x,y)≤minxmaxyf(x,y)(6)
四、对偶问题的定义
公式(6)给出了原问题和对偶问题的最优解之间的关系。在接下来的KKT条件部分,我们将会看到在什么情况下他们之间具有相同的最优值和最优解。在这一部分我们先说一些关于对偶问题的定义。
我们用符号
θD(α,β)=minwL(w,α,β)(7)
这样公式(5)的对偶问题即可描述为
maxα,β:αi≥0θD(w)=maxα,β:αi≥0minwL(w,α,β)(8)
令 p∗ 为原问题的最优解, d∗ 为对偶问题的最优解,即
p∗=minwθp(w)=minwmaxα,β:αi≥0L(w,α,β)
d∗=maxα,β:αi≥0θD(w)=maxα,β:αi≥0minwL(w,α,β)
根据公式(6)有 d∗≤p∗
五、KKT条件
对于公式(1):
KKT条件前提:
1. f(w),gi(w) 是凸函数(Hessian矩阵半正定)
2. hi(w) 是仿射函数(线性函数)
3. 存在w是的对所有的 gi(w) 严格的小于0(Slater’ s condition 强对偶充分条件)
KKT条件结论:
1. 一定存在 w∗,α∗,β∗ 使得 w∗ 是原问题的解 α∗,β∗ 是对偶问题的解。并且有 d∗=p∗
2. w∗,α∗,β∗ 满足下面5个等式
∂L(w∗,α∗,β∗)∂wi=0,i=1,2,...,n(k-1)
∂L(w∗,α∗,β∗)∂βi=0,i=1,2,...,l(k-2)
α∗igi(w∗)=0,i=1,2,...,k(k-3)
gi(w∗)≤0,i=1,2,...,k(k-4)
α∗≥0,i=1,2,...,k(k-5)
同时,反过来若存在 w∗,α∗,β∗ 满足KKT条件的5个式子(k-1,2,…,5),那么他们也是原问题和对偶问题的最优解。