拉格朗日乘数法和对偶线性规划问题的联系
拉格朗日乘数法解题的基本思想
下面以一个二元函数为例子解释拉格朗日乘数法用于求解条件极值问题的思想。
我们给定一个二元函数\(z\):
\[z=f(x,y) \]
和一个约束条件:
\[\varphi(x,y)=0 \]
为了求解\(z=f(x,y)\)在附加条件下的极值,我们先作出拉格朗日函数\(L(x,y,\lambda)\),其定义如下:
\[L(x,y,\lambda)=f(x,y)+\lambda\varphi(x,y) \]
然后令\(L(x,y,\lambda)\)关于\(x,y,\lambda\)的 一阶偏导数分别等于0:
\[\begin{aligned} \frac{\partial L}{\partial x}&=\frac{\partial f}{\partial x}+\lambda \frac{\partial \varphi}{\partial x}=0\\ \frac{\partial L}{\partial y}&=\frac{\partial f}{\partial y}+\lambda \frac{\partial \varphi}{\partial y}=0\\ \frac{\partial L}{\partial \lambda}&=\varphi (x,y)=0 \end{aligned} \]
求解满足上述方程组的\(x,y,\lambda\),得到的驻点\((x,y)\),是\(z=f(x,y)\)在约束条件\(\varphi(x,y)=0\)限制下的可能的极值点。
对偶线性规划问题与拉格朗日乘数法
在这里我们给定一个一般的线性规划问题\(P\):
\[\min z=c^TX\quad\\\begin{aligned}{\rm s.t.}\quad AX&\ge b\\X&\ge 0\end{aligned} \]
设:
\[X=\left[\begin{matrix}x_1\\x_2\\ \vdots \\x_n\end{matrix}\right]\quad b=\left[\begin{matrix}b_1\\b_2\\ \vdots \\b_m\end{matrix}\right]\quad Y=\left[\begin{matrix}y_1\\y_2\\ \vdots \\y_m\end{matrix}\right]\Lambda=\left[\begin{matrix}\lambda_1\\\lambda_2\\ \vdots \\\lambda_n\end{matrix}\right] \]
再令:
\[\overline{A}=\left[\begin{matrix}A\\I_{n}\end{matrix}\right]\quad\overline{b}=\left[\begin{matrix}b\\0\end{matrix}\right]\quad \overline{Y}=\left[\begin{matrix}Y\\\Lambda\end{matrix}\right] \]
我们可以作出它的拉格朗日函数:
\[L(X,\overline Y)=c^TX-\overline Y^T(\overline AX-\overline b)=(c-\overline A^T\overline Y)^TX+\overline b^T\overline Y \]
这里的乘子\(Y\ge 0,\Lambda\ge0\),其梯度为:
\[\nabla_XL(X,\overline Y)=c-\overline A^T\overline Y \]
极值点的梯度一定为零,根据拉格朗日乘数法的求解思路,此时直接令梯度等于零,然后求解相应的变量值。接下来我们求解问题\(D\):
\[\max \ \ (c-\overline A^T\overline Y)^TX+\overline b^T\overline Y\\{\rm s.t.}\quad c-\overline A^T\overline Y=0 \]
由于我们已经令\(c-\overline A^T\overline Y=0\),那么问题\(D\)可以化简为:
\[\max \ \ \overline b^T\overline Y\\\begin{aligned}{\rm s.t.}\quad c&=\overline A^T\overline Y\\\overline Y&\ge 0\end{aligned} \]
又因为:
\[\overline{A}=\left[\begin{matrix}A\\I_{n}\end{matrix}\right]\quad\overline{b}=\left[\begin{matrix}b\\0\end{matrix}\right]\quad \overline{Y}=\left[\begin{matrix}Y\\\Lambda\end{matrix}\right] \]
所以:
\[\overline b^T\overline Y=\left[\begin{matrix}b^T &0^T\end{matrix}\right]\left[\begin{matrix}Y\\\Lambda\end{matrix}\right]=b^TY\\\overline A^T\overline Y=\left[\begin{matrix}A^T &I_n\end{matrix}\right]\left[\begin{matrix}Y\\\Lambda\end{matrix}\right]=A^TY+\Lambda \]
由于\(\Lambda\ge0\),结合上式,问题\(D\)还可以进一步化简为:
\[\max \ \ b^TY\\\begin{aligned}{\rm s.t.}\quad A^TY\le c\\Y\ge0\end{aligned} \]
这样的问题\(D\)就称为原始线性规划问题\(P\)的对偶问题。
对偶线性规划的性质
定理1
设\(X\)是原始规划\(P\)的可行解,\(Y\)是对偶规划\(D\)的可行解,则恒有:
\[c^TX\le b^TY \]
证明:
\[c^TX\le (A^TY)^TX=Y^T(AX)\le Y^Tb=b^TY \]
定理2
如果\(X\)和\(Y\)分别是原始规划和对偶规划的可行解,且\(c^TX=b^TY\),则\(X,Y\)分别是它们的最优解。
证明是显然的,由定理1直接得到。
定理3
如果原始规划有最优解,则对偶规划也有最优解,且它们最优值相等,反之亦然。
证明:
充分性:先引入松弛变量\(U\),将\(P\)写成:
\[\max \ \ c^TX\\\begin{aligned}{\rm s.t.}\quad AX+I_mU&=b\\X\ge0,u&\ge 0\end{aligned} \]
设最优解的基为\(B\),基变量\(X_B=B^{-1}b\),检验数\(\Lambda\le 0\).其中\(\Lambda\)分为两部分,对应\(X\)的\(\Lambda_1\)和对应\(U\)的\(\Lambda_2\).故
\[\Lambda_1^T=c^T-c_B^TB^{-1}A\le0\\\Lambda_2^T=-c^T_BB^{-1}E=-c_B^TB^{-1}\le0 \]
令\(Y^T=c_B^TB^{-1}\),则有\(Y\ge 0\),\(A^TY\ge c\),从而\(Y\)是\(D\)的可行解,又由:
\[w=b^TY=Y^Tb=c_B^TB^{-1}b=c_B^TX=z \]
从而\(Y\)是\(D\)的最优解。充分性得证。
必要性:因为对偶规划的对偶问题是原始规划,由上述充分性可直接得出必要性。