拉格朗日乘子法和KKT条件

拉格朗日乘子法(Lagrange Multiplier)和KKT(Karush-Kuhn-Tucker)条件是求解约束优化问题的重要方法,在有等式约束时使用拉格朗日乘子法,在有不等约束时使用KKT条件。前提是:只有当目标函数为凸函数时,使用这两种方法才保证求得的是最优解。

对于无约束最优化问题,有很多经典的求

拉格朗日乘子法(Lagrange Multiplier)和KKT(Karush-Kuhn-Tucker)条件是求解约束优化问题的重要方法,在有等式约束时使用拉格朗日乘子法,在有不等约束时使用KKT条件。前提是:只有当目标函数为凸函数时,使用这两种方法才保证求得的是最优解。

对于无约束最优化问题,有很多经典的求解方法,参见无约束最优化方法。

拉格朗日乘子法

先来看拉格朗日乘子法是什么,再讲为什么。

minf(x)s.t.hi(x)=0i=1,2...,n minf(x)s.t.hi(x)=0i=1,2...,n

这个问题转换为

min[f(x)+i=1nλihi(x)](1) (1)min[f(x)+∑i=1nλihi(x)]

其中 λi0 λi≠0,称为拉格朗日乘子。

下面看一下wikipedia上是如何解释拉格朗日乘子法的合理性的。

现有一个二维的优化问题:

minf(x,y)s.t.g(x,y)=c(2) (2)minf(x,y)s.t.g(x,y)=c

我们可以画图来辅助思考。

绿线标出的是约束 g(x,y)=c g(x,y)=c的点的轨迹。蓝线是 f(x,y) f(x,y)的等高线。箭头表示斜率,和等高线的法线平行。

从图上可以直观地看到在最优解处,f和g的法线方向刚好相反(或者说叫梯度共线),即

[f(x,y)+λ(g(x,y)c)]=0λ0(3) (3)▽[f(x,y)+λ(g(x,y)−c)]=0λ≠0

而满足 3 3的点同时又是 4 4的解。

min F(x,y)=f(x,y)+λ(g(x,y)c)(4) (4)min F(x,y)=f(x,y)+λ(g(x,y)−c)

所以 2 2 4 4等价。

新方程 F(x,y) F(x,y)在达到极值时与 f(x,y) f(x,y)相等,因为 F(x,y) F(x,y)达到极值时 g(x,y)c g(x,y)−c总等于零。

KKT条件

先看KKT条件是什么,再讲为什么。

letL(x,μ)=f(x)+k=1qμkgk(x)(5) (5)letL(x,μ)=f(x)+∑k=1qμkgk(x)

其中 μk0,gk(x)0 μk≥0,gk(x)≤0

μk0gk(x)0} ∵μk≥0gk(x)≤0}=> μg(x)0 μg(x)≤0

maxμL(x,μ)=f(x)(6) (6)maxμL(x,μ)=f(x)

minxf(x)=minxmaxμL(x,μ)(7) (7)minxf(x)=minxmaxμL(x,μ)

上面的推导到此中断一下,我们看另外一个式子。

maxμminxL(x,μ)=maxμ[minxf(x)+minxμg(x)]=maxμminxf(x)+maxμminxμg(x)=minxf(x)+maxμminxμg(x) maxμminxL(x,μ)=maxμ[minxf(x)+minxμg(x)]=maxμminxf(x)+maxμminxμg(x)=minxf(x)+maxμminxμg(x)

这里的 u u g g都就向量,所以去掉了下标 k k。另外一些博友不明白上式中 maxμminxf(x)=minxf(x) maxμminxf(x)=minxf(x)是怎么推出来的,其实很简单,因为 f(x) f(x)与变量 u u无关,所以这个等式就是成立的。

μk0gk(x)0} ∵μk≥0gk(x)≤0}=> minxμg(x)={0ifμ=0org(x)=0ifμ>0andg(x)<0 minxμg(x)={0ifμ=0org(x)=0−∞ifμ>0andg(x)<0

maxμminxμg(x)=0 ∴maxμminxμg(x)=0此时 μ=0org(x)=0 μ=0org(x)=0

maxμminxL(x,μ)=minxf(x)+maxμminxμg(x)=minxf(x)(8) (8)∴maxμminxL(x,μ)=minxf(x)+maxμminxμg(x)=minxf(x)
此时 μ=0org(x)=0 μ=0org(x)=0

联合 (7) (7), (8) (8)我们得到 minxmaxμL(x,μ)=maxμminxL(x,μ) minxmaxμL(x,μ)=maxμminxL(x,μ)

亦即 L(x,μ)=f(x)+qk=1μkgk(x)μk0gk(x)0 L(x,μ)=f(x)+∑k=1qμkgk(x)μk≥0gk(x)≤0}=> minxmaxμL(x,μ)=maxμminxL(x,μ)=minxf(x) minxmaxμL(x,μ)=maxμminxL(x,μ)=minxf(x)

我们把 maxμminxL(x,μ) maxμminxL(x,μ)称为原问题 minxmaxμL(x,μ) minxmaxμL(x,μ)的对偶问题,上式表明当满足一定条件时原问题、对偶的解、以及 minxf(x) minxf(x)是相同的,且在最优解 x x∗ μ=0org(x)=0 μ=0org(x∗)=0。把 x x∗代入 (6) (6) maxμL(x,μ)=f(x) maxμL(x∗,μ)=f(x∗),由 (8) (8) maxμminxL(x,μ)=f(x) maxμminxL(x,μ)=f(x∗),所以 L(x,μ)=minxL(x,μ) L(x∗,μ)=minxL(x,μ),这说明 x x∗也是 L(x,μ) L(x,μ)的极值点,即 L(x,μ)x|x=x=0 ∂L(x,μ)∂x|x=x∗=0

最后总结一下:

L(x,μ)=f(x)+qk=1μkgk(x)μk0gk(x)0 L(x,μ)=f(x)+∑k=1qμkgk(x)μk≥0gk(x)≤0}=> minxmaxμL(x,μ)=maxμminxL(x,μ)=minxf(x)=f(x)μkgk(x)=0L(x,μ)x|x=x=0 {minxmaxμL(x,μ)=maxμminxL(x,μ)=minxf(x)=f(x∗)μkgk(x∗)=0∂L(x,μ)∂x|x=x∗=0

KKT条件是拉格朗日乘子法的泛化,如果我们把等式约束和不等式约束一并纳入进来则表现为:

L(x,λ,μ)=f(x)+ni=1λihi(x)+qk=1μkgk(x)λi0hi(x)=0μk0gk(x)0 L(x,λ,μ)=f(x)+∑i=1nλihi(x)+∑k=1qμkgk(x)λi≠0hi(x)=0μk≥0gk(x)≤0}=> minxmaxμL(x,λ,μ)=maxμminxL(x,λ,μ)=minxf(x)=f(x)μkgk(x)=0L(x,λ,μ)x|x=x=0 {minxmaxμL(x,λ,μ)=maxμminxL(x,λ,μ)=minxf(x)=f(x∗)μkgk(x∗)=0∂L(x,λ,μ)∂x|x=x∗=0

注: x,λ,μ x,λ,μ都是向量。

L(x,λ,μ)x|x=x=0 ∂L(x,λ,μ)∂x|x=x∗=0表明 f(x) f(x)在极值点 x x∗处的梯度是各个 hi(x) hi(x∗) gk(x) gk(x∗)梯度的线性组合。

原文来自:博客园(华夏35度)http://www.cnblogs.com/zhangchaoyang 作者:Orisun
解方法,参见 无约束最优化方法。

拉格朗日乘子法

先来看拉格朗日乘子法是什么,再讲为什么。

minf(x)s.t.hi(x)=0i=1,2...,n minf(x)s.t.hi(x)=0i=1,2...,n

这个问题转换为

min[f(x)+i=1nλihi(x)](1) (1)min[f(x)+∑i=1nλihi(x)]

其中 λi0 λi≠0,称为拉格朗日乘子。

下面看一下wikipedia上是如何解释拉格朗日乘子法的合理性的。

现有一个二维的优化问题:

minf(x,y)s.t.g(x,y)=c(2) (2)minf(x,y)s.t.g(x,y)=c

我们可以画图来辅助思考。

绿线标出的是约束 g(x,y)=c g(x,y)=c的点的轨迹。蓝线是 f(x,y) f(x,y)的等高线。箭头表示斜率,和等高线的法线平行。

从图上可以直观地看到在最优解处,f和g的法线方向刚好相反(或者说叫梯度共线),即

[f(x,y)+λ(g(x,y)c)]=0λ0(3) (3)▽[f(x,y)+λ(g(x,y)−c)]=0λ≠0

而满足 3 3的点同时又是 4 4的解。

min F(x,y)=f(x,y)+λ(g(x,y)c)(4) (4)min F(x,y)=f(x,y)+λ(g(x,y)−c)

所以 2 2 4 4等价。

新方程 F(x,y) F(x,y)在达到极值时与 f(x,y) f(x,y)相等,因为 F(x,y) F(x,y)达到极值时 g(x,y)c g(x,y)−c总等于零。

KKT条件

先看KKT条件是什么,再讲为什么。

letL(x,μ)=f(x)+k=1qμkgk(x)(5) (5)letL(x,μ)=f(x)+∑k=1qμkgk(x)

其中 μk0,gk(x)0 μk≥0,gk(x)≤0

μk0gk(x)0} ∵μk≥0gk(x)≤0}=> μg(x)0 μg(x)≤0

maxμL(x,μ)=f(x)(6) (6)maxμL(x,μ)=f(x)

minxf(x)=minxmaxμL(x,μ)(7) (7)minxf(x)=minxmaxμL(x,μ)

上面的推导到此中断一下,我们看另外一个式子。

maxμminxL(x,μ)=maxμ[minxf(x)+minxμg(x)]=maxμminxf(x)+maxμminxμg(x)=minxf(x)+maxμminxμg(x) maxμminxL(x,μ)=maxμ[minxf(x)+minxμg(x)]=maxμminxf(x)+maxμminxμg(x)=minxf(x)+maxμminxμg(x)

这里的 u u g g都就向量,所以去掉了下标 k k。另外一些博友不明白上式中 maxμminxf(x)=minxf(x) maxμminxf(x)=minxf(x)是怎么推出来的,其实很简单,因为 f(x) f(x)与变量 u u无关,所以这个等式就是成立的。

μk0gk(x)0} ∵μk≥0gk(x)≤0}=> minxμg(x)={0ifμ=0org(x)=0ifμ>0andg(x)<0 minxμg(x)={0ifμ=0org(x)=0−∞ifμ>0andg(x)<0

maxμminxμg(x)=0 ∴maxμminxμg(x)=0此时 μ=0org(x)=0 μ=0org(x)=0

maxμminxL(x,μ)=minxf(x)+maxμminxμg(x)=minxf(x)(8) (8)∴maxμminxL(x,μ)=minxf(x)+maxμminxμg(x)=minxf(x)
此时 μ=0org(x)=0 μ=0org(x)=0

联合 (7) (7), (8) (8)我们得到 minxmaxμL(x,μ)=maxμminxL(x,μ) minxmaxμL(x,μ)=maxμminxL(x,μ)

亦即 L(x,μ)=f(x)+qk=1μkgk(x)μk0gk(x)0 L(x,μ)=f(x)+∑k=1qμkgk(x)μk≥0gk(x)≤0}=> minxmaxμL(x,μ)=maxμminxL(x,μ)=minxf(x) minxmaxμL(x,μ)=maxμminxL(x,μ)=minxf(x)

我们把 maxμminxL(x,μ) maxμminxL(x,μ)称为原问题 minxmaxμL(x,μ) minxmaxμL(x,μ)的对偶问题,上式表明当满足一定条件时原问题、对偶的解、以及 minxf(x) minxf(x)是相同的,且在最优解 x x∗ μ=0org(x)=0 μ=0org(x∗)=0。把 x x∗代入 (6) (6) maxμL(x,μ)=f(x) maxμL(x∗,μ)=f(x∗),由 (8) (8) maxμminxL(x,μ)=f(x) maxμminxL(x,μ)=f(x∗),所以 L(x,μ)=minxL(x,μ) L(x∗,μ)=minxL(x,μ),这说明 x x∗也是 L(x,μ) L(x,μ)的极值点,即 L(x,μ)x|x=x=0 ∂L(x,μ)∂x|x=x∗=0

最后总结一下:

L(x,μ)=f(x)+qk=1μkgk(x)μk0gk(x)0 L(x,μ)=f(x)+∑k=1qμkgk(x)μk≥0gk(x)≤0}=> minxmaxμL(x,μ)=maxμminxL(x,μ)=minxf(x)=f(x)μkgk(x)=0L(x,μ)x|x=x=0 {minxmaxμL(x,μ)=maxμminxL(x,μ)=minxf(x)=f(x∗)μkgk(x∗)=0∂L(x,μ)∂x|x=x∗=0

KKT条件是拉格朗日乘子法的泛化,如果我们把等式约束和不等式约束一并纳入进来则表现为:

L(x,λ,μ)=f(x)+ni=1λihi(x)+qk=1μkgk(x)λi0hi(x)=0μk0gk(x)0 L(x,λ,μ)=f(x)+∑i=1nλihi(x)+∑k=1qμkgk(x)λi≠0hi(x)=0μk≥0gk(x)≤0}=>

你可能感兴趣的:(综合资源)