考虑非线性规划问题
m i n f ( x ) , x ∈ E n min f(x), x\in E^n minf(x),x∈En
其中 f ( x ) f(x) f(x)是定义在 E n E^n En上的实值函数,这就是一个无约束极值问题(UNLP)。
Th7.1.1(非极小点的充分条件) 设f(x)在点x处可微, 若存在方向 d ( ≠ 0 ) ∈ R n , d (\neq 0) \in R^{n}, d(=0)∈Rn, 使得 ∇ f ( x ∗ ) ′ d < 0 , \nabla f\left(x^{*}\right)^{\prime} d<0, ∇f(x∗)′d<0, 则存在 δ > 0 , \delta>0, δ>0,
使得对任意 λ ∈ ( 0 , δ ) , \lambda \in(0, \delta), λ∈(0,δ),有 f ( x ∗ + λ d ) < f ( x ∗ ) . f\left(x^{*}+\lambda d\right)
d d d 为f(x)在x的一个下降方向。
证明根据一阶Taylor展式移项后除以 λ \lambda λ证明。
由此,我们可以得到极小值点的必要条件:
Th7.1.2-3.设x*处是问题(UNLP)的局部极小点.
(1)当 f ( x ) f(\boldsymbol{x}) f(x) 在 x ∗ x^{*} x∗ 可微时,则梯度 ∇ f ( x ∗ ) = 0 \nabla f\left(x^{*}\right)=0 ∇f(x∗)=0;
(2) 当 f ( x ) f(x) f(x) 在 x ∗ x^{*} x∗ 二次可微时. 则 ∇ f ( x ∗ ) = 0 \nabla f\left(x^{*}\right)=0 ∇f(x∗)=0 且 Hessian 矩阵 H ( x ∗ ) \mathrm{H}\left(x^{*}\right) H(x∗) 是半正定的.
证明(1)根据定理7.1.1即可证明;
证明(2)根据二阶Taylor展式移项后除以 λ 2 \lambda^2 λ2证明。
Th7.1.4 (二阶充分条件). 假设 f ( x ) f(x) f(x) 在 x ∗ x^{*} x∗ 点二次可微, 若 ∇ f ( x ∗ ) = 0 \nabla f\left(x^{*}\right)=0 ∇f(x∗)=0 且. Hessian 矩阵 H ( x ∗ ) \boldsymbol{H}\left(\boldsymbol{x}^{*}\right) H(x∗) 是正定的, 则 x ∗ x^{*} x∗ 是(UNLP) 的一个(严格)局部极小点
Th7.1.5 (充要条件). 假设 f ( x ) : R n → R f(x): R^{n} \rightarrow R f(x):Rn→R 是 可微的凸函 数, 则 x ∗ x^{*} x∗ 是(UNLP)的全局最小点当且仅当 ∇ f ( x ∗ ) = 0 \nabla f\left(x^{*}\right)=0 ∇f(x∗)=0.
证明必要性根据Th7.1.2,证明充分性根据 ∇ f ( x ∗ ) ( x − x ∗ ) = 0 \nabla f\left(x^{*}\right)(x-x^*)=0 ∇f(x∗)(x−x∗)=0和凸函数的定义即可证明.
可行方向:
设 x ∈ c l S , d ∈ R n . x \in \mathrm{c} lS, d \in R^{n} . x∈clS,d∈Rn. 若 ヨ δ > 0 , ヨ\delta>0, ヨδ>0, 使得 ∀ λ ∈ [ 0 , δ ] , x + λ d ∈ S \forall \lambda \in[0, \delta], x+\lambda d \in S ∀λ∈[0,δ],x+λd∈S
则称d为集合S在点x的一个可行方向.集合S在x点的所有可
行方向集合称为S在x点的可行方向雉, 记为D(或FD(x,S))
D = { d ∣ d ≠ 0 , x ∈ c l S , ∃ δ > 0 , \boldsymbol{D}=\{\boldsymbol{d} \mid \boldsymbol{d} \neq 0, \boldsymbol{x} \in \boldsymbol{c} \boldsymbol{l} \boldsymbol{S}, \exists \delta>0, D={d∣d=0,x∈clS,∃δ>0, 使得对 ∀ λ ∈ ( 0 , δ ) , \forall \lambda \in(0, \delta), ∀λ∈(0,δ), 有 x + λ d ∈ S } x+\lambda d \in S\} x+λd∈S}
由可行方向定义和下降方向知, 从点 x ∗ , x^{*}, x∗, 沿可行方向 d ∈ D ( x ∗ ) d \in D\left(x^{*}\right) d∈D(x∗) 作一个很小的移动还是可行点. 进一步,由 Th 7.1.1, 若 ∇ f ( x ∗ ) d < 0 , \nabla f\left(x^{*}\right) d<0, ∇f(x∗)d<0, 则d 是f在 x ∗ x^{*} x∗ 的下降方向。下面定理将说明 若
x ∗ x^{*} x∗ 是局部最优且 ∇ f ( x ∗ ) d < 0 , \nabla f\left(x^{*}\right) d<0, ∇f(x∗)d<0, 则 d ∉ D ( x ∗ ) . d \notin D\left(x^{*}\right) . d∈/D(x∗). 即不是可行方向。
Th7.2.1. (必要条件) 考虑极小化问题::
min f ( x ) , \min f(\boldsymbol{x}), minf(x), subject to x ∈ S \boldsymbol{x} \in \boldsymbol{S} x∈S
其中 S S S 是 R n R^{n} Rn 中非空集合, \quad 设 f ( x ) f(x) f(x) 在 x ∗ x^{*} x∗ 可微。 若 x ∗ x^{*} x∗ 是局部极 小点, \quad 则 F 0 ( x ∗ ) ∩ D = ∅ , F_{0}\left(x^{*}\right) \cap D=\varnothing, F0(x∗)∩D=∅, 其中 F 0 ( x ∗ ) = { d ∣ ∇ f ( x ∗ ) d < 0 } , D F_{0}\left(x^{*}\right)=\left\{d \mid \nabla f\left(x^{*}\right) d<0\right\}, D F0(x∗)={d∣∇f(x∗)d<0},D 是 S S S
在 x ∗ x^{*} x∗ 的可行方向锥。
利用反证法与局部极小矛盾即可证明。
考察非线性规划
min f ( x ) \min f(x) minf(x)
s , t g i ( x ) ≥ 0 , i = 1 , 2 , … , m s, t \quad g_{i}(x) \geq 0, \quad i=1,2, \ldots, m s,tgi(x)≥0,i=1,2,…,m
可行域 S = { x ∣ g i ( x ) ≥ 0 , i = 1 , 2 , . . , m } S =\left\{x \mid g_{i}(x) \geq 0, i=1,2, . ., m\right\} S={x∣gi(x)≥0,i=1,2,..,m}
Th7.2.2. (必要条件) 老虑极小化问题
min f ( x ) \min f(x) minf(x) subject to g i ( x ) ≥ 0 , i = 1 , … , m , x ∈ S g_{i}(x) \geq 0, \quad i=1, \ldots, m, \quad x \in S gi(x)≥0,i=1,…,m,x∈S
其中 S S S 是 R n R^{n} Rn 中的非空开集。 \quad 设 x ∗ x^{*} x∗ 为可行点, I = { i ∣ g i ( x ∗ ) = 0 } \quad I=\left\{i \mid g_{i}\left(x^{*}\right)=0\right\} I={i∣gi(x∗)=0} 进一步假设, f ( x ) \quad f(x) f(x) 和 g i ( x ) ( i ∈ I ) g_{i}(x) \quad(i \in I) gi(x)(i∈I) 在 x ∗ x^{*} x∗ 可微 , g i ( i ∉ I ) , g_{i} \quad(i \notin I) \quad ,gi(i∈/I) 在 x ∗ x^{*} x∗ 连续. 若 x ∗ x^{*} x∗ 是局部最优解, 则 F 0 ( x ∗ ) ∩ G 0 ( x ∗ ) = ∅ \quad F_{0}\left(x^{*}\right) \cap G_{0}\left(x^{*}\right)=\varnothing F0(x∗)∩G0(x∗)=∅ 圭中 F 0 ( x ∗ ) = { d ∣ ∇ f ( x ∗ ) d < 0 } , G 0 ( x ∗ ) = { d ∣ ∇ g i ( x ∗ ) d > 0 , i ∈ I } F_{0}\left(x^{*}\right)=\left\{d \mid \nabla f\left(x^{*}\right) d<0\right\}, \quad G_{0}\left(x^{*}\right)=\left\{d \mid \nabla g_{i}\left(x^{*}\right) d>0, \quad i \in I\right\} F0(x∗)={d∣∇f(x∗)d<0},G0(x∗)={d∣∇gi(x∗)d>0,i∈I}
7。最优性条件
Th7.2.3. (Fritz John Condition, 1948)考虑极小化问题 min f ( x ) \min f(x) minf(x) subject to g i ( x ) ≥ 0 , i = 1 , … , m , x ∈ S , g_{i}(x) \geq 0, \quad i=1, \ldots, m, \quad x \in S, gi(x)≥0,i=1,…,m,x∈S,
其中 S S S 是 E n . E^{n} . En. 中非空开集. 设 x ∗ x^{*} x∗ 为可行点, I = { i ∣ g i ( x ∗ ) = 0 } . I=\left\{i \mid g_{i}\left(x^{*}\right)=0\right\} . I={i∣gi(x∗)=0}. 进一 步假设 f ( x ) f(x) f(x) 和 g i ( x ) ( i ∈ I ) g i(x)(i \in I) gi(x)(i∈I) 在 x ∗ x^{*} x∗ 可微, g i ( i ∉ I ) g_{i}(i \notin I) gi(i∈/I) 在 x ∗ x^{*} x∗ 连续. 若 x ∗ x^{*} x∗ 是局部最优解:则存在一组非负数 u 0 , u i ( i ∈ I ) u_{0}, u_{i}(i \in I) u0,ui(i∈I) 使得
u 0 ∇ f ( x ∗ ) − ∑ u i ∇ g i ( x ∗ ) = 0 , u 0 , u i ≥ 0 for i ∈ I and ( u 0 , u I ) ≠ 0 u_{0} \nabla f\left(x^{*}\right)-\sum u_{i} \nabla g_{i}\left(x^{*}\right)=0, u_{0}, u_{i} \geq 0 \text { for } i \in I \text { and }\left(u_{0}, u_{I}\right) \neq 0 u0∇f(x∗)−∑ui∇gi(x∗)=0,u0,ui≥0 for i∈I and (u0,uI)=0
进一步, 若 g i ( x ) ( i ∉ I ) g_{i}(x)(i \notin I) gi(x)(i∈/I) 在 x ∗ x^{*} x∗ 也可微, \quad 则
u 0 ∇ f ( x ∗ ) − ∑ i = 1 i = m u i ∇ g i ( x ∗ ) = 0 u i g i ( x ∗ ) = 0 , u 0 , u i ( 所有 i ) , 且 ( u 0 , u ) ≠ 0 \begin{array}{c} u_{0} \nabla f\left(\boldsymbol{x}^{*}\right)-\sum_{i=1}^{i=m} u_{i} \nabla g_{i}\left(\boldsymbol{x}^{*}\right)=0 \\ u_{i} g_{i}\left(\boldsymbol{x}^{*}\right)=0, u_{0}, u_{i}(\text { 所有 } i), \text { 且 }\left(u_{0}, \boldsymbol{u}\right) \neq 0 \end{array} u0∇f(x∗)−∑i=1i=mui∇gi(x∗)=0uigi(x∗)=0,u0,ui( 所有 i), 且 (u0,u)=0
若 Lagrangian 乘子 u 0 = 0 u_0 =0 u0=0, 则 Fritz John 条件 不包含 f ( x ) f(x) f(x)的任何信息,它仅仅是表明可以把起作用约束的梯度作一个非负的 非平凡的线性组合而成为零向量。从而对我们的最优解没有多 少实用价值。
为保证 u 0 > 0 u_0>0 u0>0,可以对约束强加某种限制,这种限制条件叫做约 束规格或约束品性( constraint qualifications).已有很多的约束 规格,特别的, Karush [1939, MS Thesis, Dept of Math, Univ of Chicago] , Kuhn 和 Tucker [1951] 独立给出的最优性必要条件 恰是 Fritz John 条件加上 u 0 > 0 u_0>0 u0>0.
Th7.2.4. (Karush-Kuhn-Tucker 必要条件)考虑极小化问题 min f ( x ) \min f(x) minf(x) subject to g i ( x ) ≥ 0 , i = 1 , … , m , x ∈ S , g_{i}(x) \geq 0, \quad i=1, \ldots, m, x \in S, gi(x)≥0,i=1,…,m,x∈S,
其中 S S S 是 E n E^{n} En.中非空开集. 设 x ∗ x^{*} x∗ 为可行点, I = { i ∣ g i ( x ∗ ) = 0 } . I=\left\{i \mid g_{i}\left(x^{*}\right)=0\right\} . I={i∣gi(x∗)=0}. 进一 步假设 f ( x ) f(x) f(x) 和 g i ( x ) ( i ∈ I ) g_{i}(x)(i \in I) gi(x)(i∈I) 在 x ∗ x^{*} x∗ 可微, g i ( i ∉ I ) g_{i}(i \notin I) gi(i∈/I) 在 x ∗ x^{*} x∗ 连续. ∇ g i f o r i ∈ I \nabla g_{i} for i\in I ∇gifori∈I 线性独立.若 x ∗ x^{*} x∗ 是局部最优解.则存在一组非负数 u i ( i ∈ I ) u_{i}(i \in I) ui(i∈I) 使 得
∇ f ( x ∗ ) − ∑ i ∑ l u i ∇ g i ( x ∗ ) = 0 , u i ≥ 0 ( i ∈ I ) \nabla f\left(\boldsymbol{x}^{*}\right)-\sum_{i} \sum_{l} u_{i} \nabla g i\left(\boldsymbol{x}^{*}\right)=\mathbf{0}, u_{i} \geq 0(i \in \boldsymbol{I}) ∇f(x∗)−i∑l∑ui∇gi(x∗)=0,ui≥0(i∈I)
若还有 g i ( i ∉ I ) g_{i}(i \notin I) gi(i∈/I) 在 x ∗ x^{*} x∗ 可微, 则
∇ f ( x ∗ ) − ∑ i = 1 i = m u i ∇ g i ( x ∗ ) = 0 u i g i ( x ∗ ) = 0 , u i ≥ 0 , i = 1 , … , m \begin{array}{l} \nabla f\left(\boldsymbol{x}^{*}\right)-\sum_{i=1}^{i=m} u_{i} \nabla g_{i}\left(\boldsymbol{x}^{*}\right)=\mathbf{0} \\ u_{i} g_{i}\left(\boldsymbol{x}^{*}\right)=0, u_{i} \geq 0, \quad i=1, \ldots, m \end{array} ∇f(x∗)−∑i=1i=mui∇gi(x∗)=0uigi(x∗)=0,ui≥0,i=1,…,m
Karush-Kuhn-Tucker 条件可写成向量形式 ∇ f ( x ∗ ) − u ∇ g ( x ∗ ) = 0 \nabla f\left(\boldsymbol{x}^{*}\right)-\boldsymbol{u} \nabla \boldsymbol{g}\left(\boldsymbol{x}^{*}\right)=\boldsymbol{0} ∇f(x∗)−u∇g(x∗)=0
u g ( x ∗ ) = 0 u g\left(x^{*}\right)=0 ug(x∗)=0
u > 0 u>0 u>0