当使用前面介绍的罚函数法求解约束问题时,为获得足够好的近似解,罚参数需取足够大的值,这将导致增广目标函数的黑森矩阵出现病态,从而导致数值计算上的困难。因此提出拉格朗日乘子法。
学高数的时候我们就学过等式约束条件下的拉格朗日乘子法。延续前一节中对约束最优化问题的定义,则拉格朗日函数为 L ( x , μ ) = f ( x ) − ∑ j ∈ E μ j h j ( x ) L(x,\mu)=f(x)-\displaystyle\sum_{j\in E}\mu_jh_j(x) L(x,μ)=f(x)−j∈E∑μjhj(x)。局部最优解的条件是对x求梯度及对所有 μ \mu μ求导均为0。
下面来讨论不等式和等式同时约束条件下的拉格朗日乘子法。拉格朗日函数为 L ( x , μ ) = f ( x ) − ∑ i ∈ I λ i g i ( x ) − ∑ j ∈ E μ j h j ( x ) L(x,\mu)=f(x)-\displaystyle\sum_{i\in I}\lambda_ig_i(x)-\displaystyle\sum_{j\in E}\mu_jh_j(x) L(x,μ)=f(x)−i∈I∑λigi(x)−j∈E∑μjhj(x)。对 λ \lambda λ的情况需要讨论:
可见,无论最优解在何处,都有 λ i ∗ g i ( x ∗ ) = 0 , i ∈ I \lambda_i^*g_i(x^*)=0,i\in I λi∗gi(x∗)=0,i∈I,这个条件被称为互补松弛条件。
因此针对不等式和等式同时约束条件下的拉格朗日乘子法,局部最优解的条件可以用如下的KKT条件表示:
{ ∇ x L ( x ∗ , λ ∗ , μ ∗ ) = ∇ f ( x ∗ ) − ∑ i ∈ I λ i ∗ ∇ g i ( x ∗ ) − ∑ j ∈ E μ j ∗ ∇ h j ( x ∗ ) = 0 h j ( x ∗ ) = 0 , j ∈ E g i ( x ∗ ) ≥ 0 , λ i ∗ ≥ 0 , λ i ∗ g i ( x ∗ ) = 0 , i ∈ I \begin{cases}\nabla_xL(x^*,\lambda^*,\mu^*)=\nabla f(x^*)-\displaystyle\sum_{i\in I}\lambda_i^*\nabla g_i(x^*)-\sum_{j\in E}\mu_j^*\nabla h_j(x^*)=0\\h_j(x^*)=0,j\in E\\g_i(x^*)\geq0,\lambda_i^*\geq0,\lambda_i^*g_i(x^*)=0,i\in I\end{cases} ⎩⎪⎪⎪⎨⎪⎪⎪⎧∇xL(x∗,λ∗,μ∗)=∇f(x∗)−i∈I∑λi∗∇gi(x∗)−j∈E∑μj∗∇hj(x∗)=0hj(x∗)=0,j∈Egi(x∗)≥0,λi∗≥0,λi∗gi(x∗)=0,i∈I
满足KKT条件的点被称为KKT点。
将外点罚函数法的思想引入拉格朗日函数的最优化问题。设 S ( x ) = ∑ i ∈ E h i 2 ( x ) S(x)=\displaystyle\sum_{i\in E}h_i^2(x) S(x)=i∈E∑hi2(x),构造辅助函数 L μ ( x , λ ) = L ( x , λ ) + 1 2 μ S ( x ) = f ( x ) − ∑ i ∈ E λ i h i ( x ) + 1 2 μ ∑ i ∈ E h i 2 ( x ) L_\mu(x,\lambda)=L(x,\lambda)+\frac{1}{2}\mu S(x)=f(x)-\displaystyle\sum_{i\in E}\lambda_ih_i(x)+\frac{1}{2}\mu\sum_{i\in E}h_i^2(x) Lμ(x,λ)=L(x,λ)+21μS(x)=f(x)−i∈E∑λihi(x)+21μi∈E∑hi2(x)
求驻点,令 ∇ x L μ ( x , λ ) = ∇ f ( x ) − ∑ i ∈ E λ i ∇ h i ( x ) + μ ∑ i ∈ E h i ( x ) ∇ h i ( x ) = 0 \nabla_xL_\mu(x,\lambda)=\nabla f(x)-\displaystyle\sum_{i\in E}\lambda_i\nabla h_i(x)+\mu\sum_{i\in E}h_i(x)\nabla h_i(x)=0 ∇xLμ(x,λ)=∇f(x)−i∈E∑λi∇hi(x)+μi∈E∑hi(x)∇hi(x)=0
根据KKT条件有 ∇ f ( x ∗ ) − ∑ i ∈ E λ i ∗ ∇ h i ( x ∗ ) = 0 \nabla f(x^*)-\displaystyle\sum_{i\in E}\lambda_i^*\nabla h_i(x^*)=0 ∇f(x∗)−i∈E∑λi∗∇hi(x∗)=0
若 ∇ x L μ k ( x k , λ k ) = ∇ f ( x k ) − ∑ i ∈ E λ i ( k ) ∇ h i ( x k ) + μ k ∑ i ∈ E h i ( x k ) ∇ h i ( x k ) = 0 \nabla_xL_{\mu_k}(x_k,\lambda_k)=\nabla f(x_k)-\displaystyle\sum_{i\in E}\lambda_i^{(k)}\nabla h_i(x_k)+\mu_k\sum_{i\in E}h_i(x_k)\nabla h_i(x_k)=0 ∇xLμk(xk,λk)=∇f(xk)−i∈E∑λi(k)∇hi(xk)+μki∈E∑hi(xk)∇hi(xk)=0
则 ∇ f ( x k ) − ∑ i ∈ E [ λ i ( k ) − μ k h i ( x k ) ] ∇ h i ( x k ) = 0 \nabla f(x_k)-\displaystyle\sum_{i\in E}[\lambda_i^{(k)}-\mu_kh_i(x_k)]\nabla h_i(x_k)=0 ∇f(xk)−i∈E∑[λi(k)−μkhi(xk)]∇hi(xk)=0
由此得到等式约束问题乘子法的步骤:
引入松弛变量z将不等式问题化为等价的等式约束问题: g i ( x ) ≥ 0 , i ∈ I ⇒ g i ( x ) − z i 2 = 0 , i ∈ I g_i(x)\geq 0,i\in I\Rightarrow g_i(x)-z_i^2=0,i\in I gi(x)≥0,i∈I⇒gi(x)−zi2=0,i∈I
构造增广拉格朗日函数: L μ ‾ ( x , z , λ ) = f ( x ) − ∑ i ∈ I λ i [ g i ( x ) − z i 2 ] + μ 2 ∑ i ∈ I [ g i ( x ) − z i 2 ] 2 \overline{L_\mu}(x,z,\lambda)=f(x)-\displaystyle\sum_{i\in I}\lambda_i[g_i(x)-z_i^2]+\frac{\mu}{2}\sum_{i\in I}[g_i(x)-z_i^2]^2 Lμ(x,z,λ)=f(x)−i∈I∑λi[gi(x)−zi2]+2μi∈I∑[gi(x)−zi2]2
配方后可得: L μ ‾ ( x , z , λ ) = f ( x ) − ∑ i ∈ I { μ 2 [ z i 2 − 1 μ ( μ g i ( x ) − λ i ) ] 2 − λ i 2 2 μ } \overline{L_\mu}(x,z,\lambda)=f(x)-\displaystyle\sum_{i\in I}\{\frac{\mu}{2}[z_i^2-\frac{1}{\mu}(\mu g_i(x)-\lambda_i)]^2-\frac{\lambda^2_i}{2\mu}\} Lμ(x,z,λ)=f(x)−i∈I∑{ 2μ[zi2−μ1(μgi(x)−λi)]2−2μλi2}
将该式对 z i z_i zi求偏导,令偏导为0,有 2 z i { λ i − μ [ g i ( x ) − z i 2 ] } = 0 2z_i\{\lambda_i-\mu[g_i(x)-z_i^2]\}=0 2zi{ λi−μ[gi(x)−zi2]}=0
因此 z i 2 = 1 μ m a x { 0 , μ g i ( x ) − λ i } z_i^2=\frac{1}{\mu}max\{0,\mu g_i(x)-\lambda_i\} zi2=μ1max{ 0,μgi(x)−λi},代入消去z得 L μ ( x , λ ) = f ( x ) + 1 2 μ ∑ i ∈ I ( m a x 2 { 0 , λ i − μ g i ( x ) } − λ i 2 ) L_\mu(x,\lambda)=f(x)+\frac{1}{2\mu}\displaystyle\sum_{i\in I}(max^2\{0,\lambda_i-\mu g_i(x)\}-\lambda_i^2) Lμ(x,λ)=f(x)+2μ1i∈I∑(max2{ 0,λi−μgi(x)}−λi2)
则 ∇ x L ( x , λ ) = ∇ f ( x ) − ∑ i ∈ I ( m a x { 0 , λ i − μ g i ( x ) } ) ∇ g i ( x ) \nabla_xL(x,\lambda)=\nabla f(x)-\displaystyle\sum_{i\in I}(max\{0,\lambda_i-\mu g_i(x)\})\nabla g_i(x) ∇xL(x,λ)=∇f(x)−i∈I∑(max{ 0,λi−μgi(x)})∇gi(x)
根据KKT条件有 ∇ f ( x ∗ ) − ∑ i ∈ E λ i ∗ ∇ g i ( x ∗ ) = 0 \nabla f(x^*)-\displaystyle\sum_{i\in E}\lambda_i^*\nabla g_i(x^*)=0 ∇f(x∗)−i∈E∑λi∗∇gi(x∗)=0
为了使得 λ \lambda λ收敛向 λ ∗ \lambda^* λ∗,根据KKT条件,有 λ i ( k + 1 ) = m a x { λ i ( k ) − μ g i ( x k ) , 0 } , i ∈ E \lambda_i^{(k+1)}=max\{\lambda_i^{(k)}-\mu g_i(x_k),0\},i\in E λi(k+1)=max{ λi(k)−μgi(xk),0},i∈E
可以得到一般约束条件下的增广目标函数和 λ \lambda λ的递推公式:
L μ ( x , λ ) = f ( x ) + 1 2 μ ∑ i ∈ I ( m a x 2 { 0 , λ i − μ g i ( x ) } − λ i 2 ) − ∑ j ∈ E λ j h j ( x ) + 1 2 μ ∑ j ∈ E h j 2 ( x ) L_\mu(x,\lambda)=f(x)+\frac{1}{2\mu}\displaystyle\sum_{i\in I}(max^2\{0,\lambda_i-\mu g_i(x)\}-\lambda_i^2)-\displaystyle\sum_{j\in E}\lambda_jh_j(x)+\frac{1}{2}\mu\sum_{j\in E}h_j^2(x) Lμ(x,λ)=f(x)+2μ1i∈I∑(max2{ 0,λi−μgi(x)}−λi2)−j∈E∑λjhj(x)+21μj∈E∑hj2(x)
{ λ i ( k + 1 ) = m a x { λ i ( k ) − μ g i ( x k ) , 0 } , i ∈ I λ j ( k + 1 ) = λ j ( k ) − μ h j ( x k ) , j ∈ E \begin{cases}\lambda_i^{(k+1)}=max\{\lambda_i^{(k)}-\mu g_i(x_k),0\},i\in I\\\lambda_j^{(k+1)}=\lambda_j^{(k)}-\mu h_j(x_k),j\in E\end{cases} { λi(k+1)=max{ λi(k)−μgi(xk),0},i∈Iλj(k+1)=λj(k)−μhj(xk),j∈E
由此得到一般约束问题乘子法的步骤:
对于本节中提出的约束最优化问题, x 1 , x 2 , x 3 x_1,x_2,x_3 x1,x2,x3的初值均在 [ 0 , 4 ] [0,4] [0,4]的范围内随机生成,总共生成100组起点。统计迭代成功(在1000步内得到最优解且单次步长搜索迭代次数不超过1000次)的样本的平均迭代步数、平均迭代时间和得到的最优解及开销函数最小值。
迭代步数 | 迭代时间 | 最优解 | 函数最小值 |
---|---|---|---|
17 | 24.3729s | x 1 = 1.1051 x 2 = 1.1969 x 3 = 1.5352 x_1=1.1051~x_2=1.1969~x_3=1.5352 x1=1.1051 x2=1.1969 x3=1.5352 | 0.03257 0.03257 0.03257 |
使用共轭梯度PRP+法的拉格朗日乘子法
import numpy as np
from Function import Function #定义法求导工具
from lagb import * #线性代数工具库
from scipy import linalg
n=3 #x的长度
mu=2
lj=np.ones(1) #λj初值,长度等于等式限制条件个数
li=np.ones(6) #λi初值,长度等于不等式限制条件个数
def func(x):
return #函数
def hj(x):
#构造数组h,第j位是第j+1个等式限制条件计算的值
return h
def gi(x):
#构造数组g,第i位是第i+1个等式限制条件计算的值
return g
def myFunc(x):
return func(x)+\
1/(2*mu)*np.sum(np.power(np.where(li-mu*gi(x)>0,li-mu*gi(x),0),2)-np.power(li,2))-\
np.sum(lj*hj(x))+0.5*mu*np.sum(np.power(hj(x),2))
def cdt(x):
return np.sqrt(np.sum(np.power(hj(x),2)))+np.sqrt(np.sum(np.power(np.where(gi(x)>0,0,gi(x)),2)))
sigma2=1.5 #放大因子
e2=0.001
beta=0.5
x=np.array([2.0,2.0,2.0]) #初值点
k1=0
while cdt(x)>=e2:
e=0.001
beta1=1
sigma=0.4
rho=0.55
tar=Function(myFunc)
k=0
d=-tar.grad(x)
x1=x
while tar.norm(x)>e:
a=1
if not (tar.value(x+a*d)<=tar.value(x)+rho*a*dot(turn(tar.grad(x)),d) and \
np.abs(dot(turn(tar.grad(x+a*d)),d))>=sigma*dot(turn(tar.grad(x)),d)):
a=beta1
while tar.value(x+a*d)>tar.value(x)+rho*a*dot(turn(tar.grad(x)),d):
a*=rho
while np.abs(dot(turn(tar.grad(x+a*d)),d))<sigma*dot(turn(tar.grad(x)),d):
a1=a/rho
da=a1-a
while tar.value(x+(a+da)*d)>tar.value(x)+rho*(a+da)*dot(turn(tar.grad(x)),d):
da*=rho
a+=da
lx=x
x=x+a*d
beta=np.max((dot(turn(tar.grad(x)),tar.grad(x)-tar.grad(lx))/(tar.norm(lx)**2),0)) #PRP+
d=-tar.grad(x)+beta*d
k+=1
print(k1,k)
if cdt(x)/cdt(x1)>beta:
mu*=sigma2
k1+=1
print(x)