陈宝林《最优化理论与算法》超详细学习笔记 (八)————最优性条件

陈宝林《最优化理论与算法》超详细学习笔记 (八)————最优性条件

  • 无约束问题的极值条件
    • 必要条件
    • 二阶充分条件
    • 充要条件
  • 约束极值问题的最优性条件
    • 不等式约束的一阶最优性条件

无约束问题的极值条件

考虑非线性规划问题
m i n f ( x ) , x ∈ E n min f(x), x\in E^n minf(x),xEn
其中 f ( x ) f(x) f(x)是定义在 E n E^n En上的实值函数,这就是一个无约束极值问题(UNLP)。

必要条件

Th7.1.1(非极小点的充分条件) 设f(x)在点x处可微, 若存在方向 d ( ≠ 0 ) ∈ R n , d (\neq 0) \in R^{n}, d(=0)Rn, 使得 ∇ f ( x ∗ ) ′ d < 0 , \nabla f\left(x^{*}\right)^{\prime} d<0, f(x)d<0, 则存在 δ > 0 , \delta>0, δ>0,
使得对任意 λ ∈ ( 0 , δ ) , \lambda \in(0, \delta), λ(0,δ), f ( x ∗ + λ d ) < f ( x ∗ ) . f\left(x^{*}+\lambda d\right)f(x+λd)<f(x). 此时,我们称
d d d 为f(x)在x
的一个下降方向

证明根据一阶Taylor展式移项后除以 λ \lambda λ证明。
由此,我们可以得到极小值点的必要条件
Th7.1.2-3.设x*处是问题(UNLP)的局部极小点.
(1)当 f ( x ) f(\boldsymbol{x}) f(x) x ∗ x^{*} x 可微时,则梯度 ∇ f ( x ∗ ) = 0 \nabla f\left(x^{*}\right)=0 f(x)=0
(2) 当 f ( x ) f(x) f(x) x ∗ x^{*} x 二次可微时. 则 ∇ f ( x ∗ ) = 0 \nabla f\left(x^{*}\right)=0 f(x)=0 且 Hessian 矩阵 H ( x ∗ ) \mathrm{H}\left(x^{*}\right) H(x) 是半正定的.
证明(1)根据定理7.1.1即可证明;
证明(2)根据二阶Taylor展式移项后除以 λ 2 \lambda^2 λ2证明。

二阶充分条件

Th7.1.4 (二阶充分条件). 假设 f ( x ) f(x) f(x) x ∗ x^{*} x 点二次可微, 若 ∇ f ( x ∗ ) = 0 \nabla f\left(x^{*}\right)=0 f(x)=0 且. Hessian 矩阵 H ( x ∗ ) \boldsymbol{H}\left(\boldsymbol{x}^{*}\right) H(x) 是正定的, 则 x ∗ x^{*} x 是(UNLP) 的一个(严格)局部极小点

充要条件

Th7.1.5 (充要条件). 假设 f ( x ) : R n → R f(x): R^{n} \rightarrow R f(x):RnR 是 可微的凸函 数, 则 x ∗ x^{*} x 是(UNLP)的全局最小点当且仅当 ∇ f ( x ∗ ) = 0 \nabla f\left(x^{*}\right)=0 f(x)=0.
证明必要性根据Th7.1.2,证明充分性根据 ∇ f ( x ∗ ) ( x − x ∗ ) = 0 \nabla f\left(x^{*}\right)(x-x^*)=0 f(x)(xx)=0和凸函数的定义即可证明.

约束极值问题的最优性条件

可行方向:
x ∈ c l S , d ∈ R n . x \in \mathrm{c} lS, d \in R^{n} . xclS,dRn. ヨ δ > 0 , ヨ\delta>0, δ>0, 使得 ∀ λ ∈ [ 0 , δ ] , x + λ d ∈ S \forall \lambda \in[0, \delta], x+\lambda d \in S λ[0,δ],x+λdS
则称d为集合S在点x的一个可行方向.集合S在x点的所有可
行方向集合称为S在x点的可行方向雉, 记为D(或FD(x,S))
D = { d ∣ d ≠ 0 , x ∈ c l S , ∃ δ > 0 , \boldsymbol{D}=\{\boldsymbol{d} \mid \boldsymbol{d} \neq 0, \boldsymbol{x} \in \boldsymbol{c} \boldsymbol{l} \boldsymbol{S}, \exists \delta>0, D={dd=0,xclS,δ>0, 使得对 ∀ λ ∈ ( 0 , δ ) , \forall \lambda \in(0, \delta), λ(0,δ), x + λ d ∈ S } x+\lambda d \in S\} x+λdS}

可行方向定义和下降方向知, 从点 x ∗ , x^{*}, x, 沿可行方向 d ∈ D ( x ∗ ) d \in D\left(x^{*}\right) dD(x) 作一个很小的移动还是可行点. 进一步,由 Th 7.1.1, 若 ∇ f ( x ∗ ) d < 0 , \nabla f\left(x^{*}\right) d<0, f(x)d<0, 则d 是f在 x ∗ x^{*} x 的下降方向。下面定理将说明 若
x ∗ x^{*} x 是局部最优且 ∇ f ( x ∗ ) d < 0 , \nabla f\left(x^{*}\right) d<0, f(x)d<0, d ∉ D ( x ∗ ) . d \notin D\left(x^{*}\right) . d/D(x). 即不是可行方向。
Th7.2.1. (必要条件) 考虑极小化问题::
min ⁡ f ( x ) , \min f(\boldsymbol{x}), minf(x), subject to x ∈ S \boldsymbol{x} \in \boldsymbol{S} xS
其中 S S S R n R^{n} Rn 中非空集合, \quad f ( x ) f(x) f(x) x ∗ x^{*} x 可微。 若 x ∗ x^{*} x 是局部极 小点, \quad F 0 ( x ∗ ) ∩ D = ∅ , F_{0}\left(x^{*}\right) \cap D=\varnothing, F0(x)D=, 其中 F 0 ( x ∗ ) = { d ∣ ∇ f ( x ∗ ) d < 0 } , D F_{0}\left(x^{*}\right)=\left\{d \mid \nabla f\left(x^{*}\right) d<0\right\}, D F0(x)={df(x)d<0},D S S S
x ∗ x^{*} x 的可行方向锥。
利用反证法与局部极小矛盾即可证明。

不等式约束的一阶最优性条件

考察非线性规划
min ⁡ f ( x ) \min f(x) minf(x)
s , t g i ( x ) ≥ 0 , i = 1 , 2 , … , m s, t \quad g_{i}(x) \geq 0, \quad i=1,2, \ldots, m s,tgi(x)0,i=1,2,,m
可行域 S = { x ∣ g i ( x ) ≥ 0 , i = 1 , 2 , . . , m } S =\left\{x \mid g_{i}(x) \geq 0, i=1,2, . ., m\right\} S={xgi(x)0,i=1,2,..,m}
Th7.2.2. (必要条件) 老虑极小化问题
min ⁡ f ( x ) \min f(x) minf(x) subject to g i ( x ) ≥ 0 , i = 1 , … , m , x ∈ S g_{i}(x) \geq 0, \quad i=1, \ldots, m, \quad x \in S gi(x)0,i=1,,m,xS
其中 S S S R n R^{n} Rn 中的非空开集。 \quad x ∗ x^{*} x 为可行点, I = { i ∣ g i ( x ∗ ) = 0 } \quad I=\left\{i \mid g_{i}\left(x^{*}\right)=0\right\} I={igi(x)=0} 进一步假设, f ( x ) \quad f(x) f(x) g i ( x ) ( i ∈ I ) g_{i}(x) \quad(i \in I) gi(x)(iI) x ∗ x^{*} x 可微 , g i ( i ∉ I ) , g_{i} \quad(i \notin I) \quad ,gi(i/I) x ∗ x^{*} x 连续. 若 x ∗ x^{*} x 是局部最优解, 则 F 0 ( x ∗ ) ∩ G 0 ( x ∗ ) = ∅ \quad F_{0}\left(x^{*}\right) \cap G_{0}\left(x^{*}\right)=\varnothing F0(x)G0(x)= 圭中 F 0 ( x ∗ ) = { d ∣ ∇ f ( x ∗ ) d < 0 } , G 0 ( x ∗ ) = { d ∣ ∇ g i ( x ∗ ) d > 0 , i ∈ I } F_{0}\left(x^{*}\right)=\left\{d \mid \nabla f\left(x^{*}\right) d<0\right\}, \quad G_{0}\left(x^{*}\right)=\left\{d \mid \nabla g_{i}\left(x^{*}\right) d>0, \quad i \in I\right\} F0(x)={df(x)d<0},G0(x)={dgi(x)d>0,iI}
7。最优性条件
Th7.2.3. (Fritz John Condition, 1948)考虑极小化问题 min ⁡ f ( x ) \min f(x) minf(x) subject to g i ( x ) ≥ 0 , i = 1 , … , m , x ∈ S , g_{i}(x) \geq 0, \quad i=1, \ldots, m, \quad x \in S, gi(x)0,i=1,,m,xS,
其中 S S S E n . E^{n} . En. 中非空开集. 设 x ∗ x^{*} x 为可行点, I = { i ∣ g i ( x ∗ ) = 0 } . I=\left\{i \mid g_{i}\left(x^{*}\right)=0\right\} . I={igi(x)=0}. 进一 步假设 f ( x ) f(x) f(x) g i ( x ) ( i ∈ I ) g i(x)(i \in I) gi(x)(iI) x ∗ x^{*} x 可微, g i ( i ∉ I ) g_{i}(i \notin I) gi(i/I) x ∗ x^{*} x 连续. 若 x ∗ x^{*} x 是局部最优解:则存在一组非负数 u 0 , u i ( i ∈ I ) u_{0}, u_{i}(i \in I) u0,ui(iI) 使得
u 0 ∇ f ( x ∗ ) − ∑ u i ∇ g i ( x ∗ ) = 0 , u 0 , u i ≥ 0  for  i ∈ I  and  ( u 0 , u I ) ≠ 0 u_{0} \nabla f\left(x^{*}\right)-\sum u_{i} \nabla g_{i}\left(x^{*}\right)=0, u_{0}, u_{i} \geq 0 \text { for } i \in I \text { and }\left(u_{0}, u_{I}\right) \neq 0 u0f(x)uigi(x)=0,u0,ui0 for iI and (u0,uI)=0
进一步, 若 g i ( x ) ( i ∉ I ) g_{i}(x)(i \notin I) gi(x)(i/I) x ∗ x^{*} x 也可微, \quad
u 0 ∇ f ( x ∗ ) − ∑ i = 1 i = m u i ∇ g i ( x ∗ ) = 0 u i g i ( x ∗ ) = 0 , u 0 , u i (  所有  i ) ,  且  ( u 0 , u ) ≠ 0 \begin{array}{c} u_{0} \nabla f\left(\boldsymbol{x}^{*}\right)-\sum_{i=1}^{i=m} u_{i} \nabla g_{i}\left(\boldsymbol{x}^{*}\right)=0 \\ u_{i} g_{i}\left(\boldsymbol{x}^{*}\right)=0, u_{0}, u_{i}(\text { 所有 } i), \text { 且 }\left(u_{0}, \boldsymbol{u}\right) \neq 0 \end{array} u0f(x)i=1i=muigi(x)=0uigi(x)=0,u0,ui( 所有 i),  (u0,u)=0
若 Lagrangian 乘子 u 0 = 0 u_0 =0 u0=0, 则 Fritz John 条件 不包含 f ( x ) f(x) f(x)的任何信息,它仅仅是表明可以把起作用约束的梯度作一个非负的 非平凡的线性组合而成为零向量。从而对我们的最优解没有多 少实用价值。
为保证 u 0 > 0 u_0>0 u0>0,可以对约束强加某种限制,这种限制条件叫做约 束规格或约束品性( constraint qualifications).已有很多的约束 规格,特别的, Karush [1939, MS Thesis, Dept of Math, Univ of Chicago] , Kuhn 和 Tucker [1951] 独立给出的最优性必要条件 恰是 Fritz John 条件加上 u 0 > 0 u_0>0 u0>0.
Th7.2.4. (Karush-Kuhn-Tucker 必要条件)考虑极小化问题 min ⁡ f ( x ) \min f(x) minf(x) subject to g i ( x ) ≥ 0 , i = 1 , … , m , x ∈ S , g_{i}(x) \geq 0, \quad i=1, \ldots, m, x \in S, gi(x)0,i=1,,m,xS,
其中 S S S E n E^{n} En.中非空开集. 设 x ∗ x^{*} x 为可行点, I = { i ∣ g i ( x ∗ ) = 0 } . I=\left\{i \mid g_{i}\left(x^{*}\right)=0\right\} . I={igi(x)=0}. 进一 步假设 f ( x ) f(x) f(x) g i ( x ) ( i ∈ I ) g_{i}(x)(i \in I) gi(x)(iI) x ∗ x^{*} x 可微, g i ( i ∉ I ) g_{i}(i \notin I) gi(i/I) x ∗ x^{*} x 连续. ∇ g i f o r i ∈ I \nabla g_{i} for i\in I giforiI 线性独立.若 x ∗ x^{*} x 是局部最优解.则存在一组非负数 u i ( i ∈ I ) u_{i}(i \in I) ui(iI) 使 得
∇ f ( x ∗ ) − ∑ i ∑ l u i ∇ g i ( x ∗ ) = 0 , u i ≥ 0 ( i ∈ I ) \nabla f\left(\boldsymbol{x}^{*}\right)-\sum_{i} \sum_{l} u_{i} \nabla g i\left(\boldsymbol{x}^{*}\right)=\mathbf{0}, u_{i} \geq 0(i \in \boldsymbol{I}) f(x)iluigi(x)=0,ui0(iI)
若还有 g i ( i ∉ I ) g_{i}(i \notin I) gi(i/I) x ∗ x^{*} x 可微, 则
∇ f ( x ∗ ) − ∑ i = 1 i = m u i ∇ g i ( x ∗ ) = 0 u i g i ( x ∗ ) = 0 , u i ≥ 0 , i = 1 , … , m \begin{array}{l} \nabla f\left(\boldsymbol{x}^{*}\right)-\sum_{i=1}^{i=m} u_{i} \nabla g_{i}\left(\boldsymbol{x}^{*}\right)=\mathbf{0} \\ u_{i} g_{i}\left(\boldsymbol{x}^{*}\right)=0, u_{i} \geq 0, \quad i=1, \ldots, m \end{array} f(x)i=1i=muigi(x)=0uigi(x)=0,ui0,i=1,,m
Karush-Kuhn-Tucker 条件可写成向量形式 ∇ f ( x ∗ ) − u ∇ g ( x ∗ ) = 0 \nabla f\left(\boldsymbol{x}^{*}\right)-\boldsymbol{u} \nabla \boldsymbol{g}\left(\boldsymbol{x}^{*}\right)=\boldsymbol{0} f(x)ug(x)=0
u g ( x ∗ ) = 0 u g\left(x^{*}\right)=0 ug(x)=0

u > 0 u>0 u>0

你可能感兴趣的:(最优化理论与算法,算法导论,算法)