陈宝林《最优化理论与算法》超详细学习笔记 (五)————最优性条件 之 KKT条件

陈宝林《最优化理论与算法》超详细学习笔记 (五)————最优性条件 之 KKT条件

  • Lagrange对偶问题
    • 原问题
    • Lagrange函数
    • Lagrange对偶函数
    • 强/弱对偶性
      • 弱对偶性
      • 强对偶性
  • 最优性条件
    • 互补松弛性
    • KTT条件(Karush-Kuhn-Tucker)

Lagrange对偶问题

原问题

对于一个最优化问题:
min ⁡ f 0 ( x ) s.t. f i ( x ) ≤ 0 , i = 1 , ⋯   , m h i ( x ) = 0 , i = 1 , ⋯   , p \begin{array}{ll}\min & f_{0}(x) \\ \text {s.t.} & f_{i}(x) \leq 0, \quad i=1, \cdots, m \\ & h_{i}(x)=0, \quad i=1, \cdots, p\end{array} mins.t.f0(x)fi(x)0,i=1,,mhi(x)=0,i=1,,p
f 0 ( x ) f_{0}(x) f0(x)为目标函数, f i ( x ) ≤ 0 f_{i}(x)\leq0 fi(x)0为不等式约束, h i ( x ) = 0 h_{i}(x)=0 hi(x)=0为等式约束.

Lagrange函数

通过引入不等式约束和等式约束的lagranage乘子 λ i \lambda_i λi v i v_i vi,得到原问题的Lagrange函数为:
L ( x , λ , v ) = f 0 ( x ) + ∑ i = 1 m λ i f i ( x ) + ∑ i = 1 p v i h i ( x ) L(x, \lambda, v)=f_{0}(x)+\sum_{i=1}^{m} \lambda_{i} f_{i}(x)+\sum_{i=1}^{p} v_{i} h_{i}(x) L(x,λ,v)=f0(x)+i=1mλifi(x)+i=1pvihi(x)

Lagrange对偶函数

定义Lagrange对偶函数为Lagrange 函数对 x x x求最小值,
g ( λ , v ) = inf ⁡ x L ( x , λ , v ) = inf ⁡ x ( f 0 ( x ) + ∑ i = 1 m λ i f i ( x ) + ∑ i = 1 p v i h i ( x ) ) g(\lambda, v)=\inf _{x } L(x, \lambda, v)=\inf _{x}\left(f_{0}(x)+\sum_{i=1}^{m} \lambda_{i} f_{i}(x)+\sum_{i=1}^{p} v_{i} h_{i}(x)\right) g(λ,v)=xinfL(x,λ,v)=xinf(f0(x)+i=1mλifi(x)+i=1pvihi(x))

根据对偶问题的性质,Lagrange对偶函数构成了原问题最优值 p ∗ p^* p的下界,即:
g ( λ , v ) ≤ p ∗ g(\lambda, v)\leq p^* g(λ,v)p
于是,我们再对Lagrange对偶函数求上界,便构成了Lagrange对偶问题:
max ⁡ g ( λ , v ) s.t. λ i ≥ 0 , i = 1 , 2 , ⋯   , q \begin{array}{ll}\max & g(\lambda,v) \\ \text {s.t.} & \lambda_i \geq 0,i=1,2,\cdots,q\end{array} maxs.t.g(λ,v)λi0,i=1,2,,q

强/弱对偶性

弱对偶性

我们用 d "表示 Lagrange 对偶问题的最优解,则有
d ∗ ≤ p ∗ d^{*} \leq p^{*} dp
即使原问题不是凸优化问题,这个不等式也成立。这个性质称作弱对偶性。

强对偶性

d ∗ = p ∗ d^{*} = p^{*} d=p成立,则成强对偶性成立。
若原问题为凸优化问题,则强对偶性通常成立。

最优性条件

互补松弛性

当强对偶性成立时, KaTeX parse error: Expected '\right', got 'EOF' at end of input: \left.x^{*}是原问题的最优解, λ ∗ , v ∗ \lambda^{*}, v^{*} λ,v 是对偶问题的最优解的一个必要条件是互补松他性条件:
∑ i = 1 m λ i ∗ f i ( x ∗ ) = 0 \sum_{i=1}^{m} \lambda_{i}^{*} f_{i}\left(x^{*}\right)=0 i=1mλifi(x)=0
因为每一项都非正,因此有
λ i ∗ f i ( x ∗ ) = 0 , i = 1 , ⋯   , m \lambda_{i}^{*} f_{i}\left(x^{*}\right)=0, \quad i=1, \cdots, m λifi(x)=0,i=1,,m

KTT条件(Karush-Kuhn-Tucker)

当强对偶性成立时, x ∗ x^{*} x ( λ ∗ , v ∗ ) \left(\lambda^{*}, v^{*}\right) (λ,v) 分别是原问题和对偶问题的最优
解,则其必须满足 KKT 条件:
f i ( x ∗ ) ≤ 0 , i = 1 , ⋯   , m h i ( x ∗ ) = 0 , i = 1 , ⋯   , p λ i ∗ ≥ 0 , i = 1 , ⋯   , m λ i ∗ f i ( x ∗ ) = 0 , i = 1 , ⋯   , m ∇ f 0 ( x ∗ ) + ∑ i = 1 m λ i ∗ ∇ f i ( x ∗ ) + ∑ i = 1 p v i ∗ ∇ h i ( x ∗ ) = 0 \begin{array}{l} f_{i}\left(x^{*}\right) \leq 0, \quad i=1, \cdots, m \\ h_{i}\left(x^{*}\right)=0, \quad i=1, \cdots, p \\ \lambda_{i}^{*} \geq 0, \quad \quad\quad i=1, \cdots, m \\ \lambda_{i}^{*} f_{i}\left(x^{*}\right)=0, \quad i=1, \cdots, m \\ \nabla f_{0}\left(x^{*}\right)+\sum_{i=1}^{m} \lambda_{i}^{*} \nabla f_{i}\left(x^{*}\right)+\sum_{i=1}^{p} v_{i}^{*} \nabla h_{i}\left(x^{*}\right)=0 \end{array} fi(x)0,i=1,,mhi(x)=0,i=1,,pλi0,i=1,,mλifi(x)=0,i=1,,mf0(x)+i=1mλifi(x)+i=1pvihi(x)=0
当原问题是凸优化问题时,满足KKT条件的点也是原、对偶问题的最优解。(证明后补)

你可能感兴趣的:(最优化理论与算法)