简单来说,引入拉格朗日乘子是为了强制要求所有的约束条件必须被满足,当 x x x违反约束条件时, L ( x , α , β ) → + ∞ L(x,\alpha,\beta) \rightarrow +\infty L(x,α,β)→+∞, 当 x x x满足约束条件时, L ( x , α , β ) = f ( x ) L(x,\alpha,\beta) = f(x) L(x,α,β)=f(x)。
假设 f ( x ) , c i ( x ) , h j ( x ) f(x),c_i(x),h_j(x) f(x),ci(x),hj(x)是定义在 R n R^n Rn上的连续可微函数。考虑约束最优化问题(极大化问题可以简单地转换为极小化问题,这里仅讨论极小化问题):
min x ∈ R n f ( x ) s . t . m i ( x ) ≤ 0 , i = 1 , 2 , ⋯ , k n j ( x ) = 0 , j = 1 , 2 , ⋯ , l \begin{aligned} \min_{x \in R^n} \hspace{1em} & f(x)\\ s.t. \hspace{1em} & m_i(x) \le 0, \hspace{1em} i=1,2,\cdots,k\\ & n_j(x) = 0, \hspace{1em} j=1,2,\cdots,l \end{aligned} x∈Rnmins.t.f(x)mi(x)≤0,i=1,2,⋯,knj(x)=0,j=1,2,⋯,l
引入拉格朗日乘子后,得到拉格朗日函数
L ( x , α , β ) = f ( x ) + ∑ i = 1 k α i c i ( x ) + ∑ j = 1 l β j h j ( x ) L(x,\alpha,\beta) = f(x) + \sum_{i=1}^k \alpha_i c_i (x) + \sum_{j=1}^l \beta_j h_j (x) L(x,α,β)=f(x)+i=1∑kαici(x)+j=1∑lβjhj(x)
如果 x x x违反 m i ( x ) m_{i}(x) mi(x)约束,即 m i ( x ) > 0 m_{i}(x)>0 mi(x)>0,那么 max λ L → + ∞ \mathop{\text{max }}\limits_{\lambda}L \to +\infty λmax L→+∞
如果 x x x符合 m i ( x ) m_{i}(x) mi(x)约束,即 m i ( x ) ≤ 0 m_{i}(x)\leq 0 mi(x)≤0,那么 max λ L ≠ + ∞ \mathop{\text{max }}\limits_{\lambda}L \ne +\infty λmax L=+∞
因此有
min x max λ L = min x { max L ⏟ 符合约束 , + ∞ ⏟ 违反约束 } = min x max λ L \mathop{\text{min }}\limits_{x}\mathop{\text{max }}\limits_{\lambda}L=\mathop{\text{min }}\limits_{x}\left\{\underbrace{\max L}_{符合约束},\underbrace{+\infty}_{违反约束}\right\}=\mathop{\text{min }}\limits_{x}\mathop{\text{max }}\limits_{\lambda}L xmin λmax L=xmin {符合约束 maxL,违反约束 +∞}=xmin λmax L
如果 x x x违反 n j ( x ) n_{j}(x) nj(x)约束,即 n j ( x ) ≠ 0 n_{j}(x)\ne 0 nj(x)=0,那么 max β L → + ∞ \mathop{\text{max }}\limits_{\beta}L \to +\infty βmax L→+∞
如果 x x x符合 n j ( x ) n_{j}(x) nj(x)约束,即 n j ( x ) = 0 n_{j}(x)=0 nj(x)=0,那么 max β L ≠ + ∞ \mathop{\text{max }}\limits_{\beta}L \ne +\infty βmax L=+∞
因此有
min x max λ L = min x { max L , + ∞ } = min x max λ L \mathop{\text{min }}\limits_{x}\mathop{\text{max }}\limits_{\lambda}L=\mathop{\text{min }}\limits_{x}\left\{\max L,+\infty\right\}=\mathop{\text{min }}\limits_{x}\mathop{\text{max }}\limits_{\lambda}L xmin λmax L=xmin {maxL,+∞}=xmin λmax L
所谓弱对偶性,指的是对偶问题 ≤ \leq ≤原问题,即:
min max f ≥ max min f \min \max f \geq \max \min f minmaxf≥maxminf
对于 L ( x , λ , η ) L(x,\lambda,\eta ) L(x,λ,η)这个函数,我们知道下面这个不等式一定成立
min x L ( x , λ , η ) ≤ L ( x , λ , η ) ≤ max λ , η L ( x , λ , η ) \mathop{\text{min }}\limits_{x}L(x,\lambda,\eta )\leq L(x,\lambda,\eta )\leq \mathop{\text{max }}\limits_{\lambda,\eta }L(x,\lambda,\eta ) xmin L(x,λ,η)≤L(x,λ,η)≤λ,ηmax L(x,λ,η)
中间 L ( x , λ , η ) L(x,\lambda,\eta ) L(x,λ,η)我们可以理解为 L L L的值域,值域里面的任何一个数,必然是大于等于它对 x x x的最小值,小于等于它对 λ , η \lambda,\eta λ,η的最大值。
令
A ( λ , η ) = min x L , B ( x ) = max λ , η L A(\lambda,\eta )=\mathop{\text{min }}\limits_{x}L,B(x)=\mathop{\text{max }}\limits_{\lambda,\eta }L A(λ,η)=xmin L,B(x)=λ,ηmax L
因此有
A ( λ , η ) ≤ B ( x ) A ( λ , η ) ≤ min B ( x ) max A ( λ , η ) ≤ min B ( x ) \begin{aligned} A(\lambda,\eta )&\leq B(x)\\ A(\lambda,\eta )&\leq \min B(x)\\ \max A(\lambda,\eta )&\leq \min B(x) \end{aligned} A(λ,η)A(λ,η)maxA(λ,η)≤B(x)≤minB(x)≤minB(x)
因此
max min L ≤ min max L \max \min L \leq \min \max L maxminL≤minmaxL
后面还有对偶关系之几何解释、对偶关系之slater condition、对偶关系之KKT条件,以后会补上的
CSDN话题挑战赛第2期
参赛话题:学习笔记