我们把一元方程推广到 n n n 维无约束极小化问题,得到解无约束优化问题
min x ∈ R n f ( x ) \min_{x\in\mathbf{R}^n}f(x) x∈Rnminf(x)
设 f ( x ) f(x) f(x) 为定义在空间 R n \mathbf{R}^n Rn 上的连续函数,点 x ˉ ∈ R n \bar{x}\in\mathbf{R}^n xˉ∈Rn,若对于方向 s ∈ R n s\in\mathbf{R}^n s∈Rn 存在数 δ > 0 \delta>0 δ>0 使成立
f ( x ˉ + α s ) < f ( x ˉ ) , ∀ α ∈ ( 0 , δ ) , f(\bar{x}+\alpha s)
则称 s 为 f ( x ) f(x) f(x) 在 x ˉ \bar x xˉ 处的一个下降方向,在点 x ˉ \bar x xˉ 处的所有下降方向的全体记为 D ( x ˉ ) . \mathcal{D}(\bar{x}). D(xˉ).
设函数 f ( x ) f(x) f(x) 在点 x ˉ \bar x xˉ 处连续可微,如存在非零向量 s ∈ R n s \in R^n s∈Rn 使成立
∇ f ( x ˉ ) T s < 0 \nabla f(\bar x)^T s < 0 ∇f(xˉ)Ts<0
则称向量 s s s 为 f ( x ) f(x) f(x) 在 x ˉ \bar x xˉ 处的一个下降方向。
证明:对于充分小的 α > 0 \alpha > 0 α>0,将 f ( x ˉ + α s ) f(\bar x + \alpha s) f(xˉ+αs) 在点 x ˉ \bar x xˉ 处作 Taylor
展开,有
f ( x ˉ + α s ) = f ( x ˉ ) + α ∇ f ( x ˉ ) T s + o ( ∣ ∣ α s ∣ ∣ ) f(\bar x + \alpha s) = f(\bar x) + \alpha \nabla f(\bar x)^Ts + o(||\alpha s||) f(xˉ+αs)=f(xˉ)+α∇f(xˉ)Ts+o(∣∣αs∣∣)
由 α > 0 \alpha>0 α>0 以及 ∇ f ( x ˉ ) T s < 0 \nabla f(\bar{x})^{\mathrm{T}} s<0 ∇f(xˉ)Ts<0 知存在 δ > 0 \delta>0 δ>0, 使对任意 α ∈ ( 0 , δ ) \alpha \in(0, \delta) α∈(0,δ) 有
α ∇ f ( x ˉ ) T s + o ( ∥ α s ∥ ) < 0. \alpha \nabla f(\bar{x})^{\mathrm{T}} s+o(\|\alpha s\|)<0 . α∇f(xˉ)Ts+o(∥αs∥)<0.
结合这两式有
f ( x ˉ + α s ) < f ( x ˉ ) , ∀ α ∈ ( 0 , δ ) , f(\bar{x}+\alpha s)
这就证明了 s s s 是 f ( x ) f(x) f(x) 在点 x ˉ \bar{x} xˉ 处的下降方向.
D ( x ˉ ) = { s ∣ ∇ f ( x ˉ ) T s < 0 } \mathcal{D}(\bar{x})=\left\{s \mid \nabla f(\bar{x})^{\mathrm{T}} s<0\right\} D(xˉ)={s∣∇f(xˉ)Ts<0}
记号:
g ( x ) = ∇ f ( x ) G ( x ) = ∇ 2 f ( x ) g(x) = \nabla f(x) ~~~~~ G(x) = \nabla^2 f(x) g(x)=∇f(x) G(x)=∇2f(x)
求函数偏导数
f ( x , y ) = { x y x 2 + y 2 ( x , y ) ≠ ( 0 , 0 ) 0 ( x , y ) = ( 0 , 0 ) f(x,y) = \begin{cases} \large{\frac{xy}{x^2+y^2}} & (x,y)≠(0,0) \\\\ 0 & (x,y)=(0,0) \end{cases} f(x,y)=⎩ ⎨ ⎧x2+y2xy0(x,y)=(0,0)(x,y)=(0,0)
先求函数对 x x x 的偏导数 f x f_x fx :
f x = y ( x 2 + y 2 ) − 2 x ⋅ x y ( x 2 + y 2 ) 2 = y ( y 2 − x 2 ) ( x 2 + y 2 ) 2 x ≠ 0 f x = f ( x , 0 ) − f ( 0 , 0 ) x = 0 x → 0 , y = 0 f_x = \frac{y(x^2+y^2)-2x·xy}{(x^2+y^2)^2} = \frac{y(y^2-x^2)}{(x^2+y^2)^2} \quad \quad x ≠ 0 \\ f_x = \frac{f(x,0)-f(0,0)}{x} = 0 \quad \quad \quad \quad x \rightarrow 0,y = 0 \\ fx=(x2+y2)2y(x2+y2)−2x⋅xy=(x2+y2)2y(y2−x2)x=0fx=xf(x,0)−f(0,0)=0x→0,y=0
同理求 f y f_y fy :
f y = x ( x 2 + y 2 ) − 2 y ⋅ x y ( x 2 + y 2 ) 2 = x ( x 2 − y 2 ) ( x 2 + y 2 ) 2 y ≠ 0 f y = f ( 0 , y ) − f ( 0 , 0 ) y = 0 y → 0 , x = 0 f_y = \frac{x(x^2+y^2)-2y·xy}{(x^2+y^2)^2} = \frac{x(x^2-y^2)}{(x^2+y^2)^2} \quad \quad y ≠ 0 \\ f_y = \frac{f(0,y)-f(0,0)}{y} = 0 \quad \quad \quad \quad y \rightarrow 0,x = 0 \\ fy=(x2+y2)2x(x2+y2)−2y⋅xy=(x2+y2)2x(x2−y2)y=0fy=yf(0,y)−f(0,0)=0y→0,x=0
故:
f x = { y ( y 2 − x 2 ) ( x 2 + y 2 ) 2 x ≠ 0 0 x = 0 f y = { x ( x 2 − y 2 ) ( x 2 + y 2 ) 2 y ≠ 0 0 y = 0 f_x = \begin{cases} \large \frac{y(y^2-x^2)}{(x^2+y^2)^2} & x ≠ 0 \\ 0 & x = 0 \\ \end{cases} \quad \quad f_y = \begin{cases} \large \frac{x(x^2-y^2)}{(x^2+y^2)^2} & y ≠ 0 \\ 0 & y = 0 \\ \end{cases} fx=⎩ ⎨ ⎧(x2+y2)2y(y2−x2)0x=0x=0fy=⎩ ⎨ ⎧(x2+y2)2x(x2−y2)0y=0y=0
求函数 f ( x , y ) = x 2 − x y + y 2 f(x,y)=x^2-xy+y^2 f(x,y)=x2−xy+y2 在点 ( 1 , 1 ) (1, 1) (1,1) 沿于 x x x 轴方向夹角为 α \alpha α 的方向射线 l ⃗ \vec{l} l 的方向导数,并问在怎样的方向上此方向导数有:(1)最大值;(2)最小值;(3)等于零?
解:
∂ f ∂ l = f x ( 1 , 1 ) ⋅ c o s α + f y ( 1 , 1 ) ⋅ s i n α = ( 2 x − y ) ∣ ( 1 , 1 ) ⋅ c o s α + ( 2 y − x ) ∣ ( 1 , 1 ) ⋅ s i n α = c o s α + s i n α = 2 s i n ( α + π 4 ) \begin{aligned} \frac{\partial f}{\partial l} & = f_x(1,1)·cos\alpha +f_y(1,1)·sin\alpha \\ & = (2x-y)|_{(1,1)}·cos\alpha +(2y-x)|_{(1,1)}·sin\alpha \\ & = cos\alpha + sin\alpha = \sqrt2sin(\alpha + \frac{\pi}{4}) \end{aligned} ∂l∂f=fx(1,1)⋅cosα+fy(1,1)⋅sinα=(2x−y)∣(1,1)⋅cosα+(2y−x)∣(1,1)⋅sinα=cosα+sinα=2sin(α+4π)
故:
(1)当 α = π 4 \alpha = \frac{\pi}{4} α=4π 时,方向导数达到最大值 2 \sqrt 2 2 ;
(2)当 α = 5 π 4 \alpha = \frac{5\pi}{4} α=45π 时,方向导数达到最小值 − 2 -\sqrt 2 −2 ;
(3)当 α = 3 π 4 \alpha = \frac{3\pi}{4} α=43π 和 α = 7 π 4 \alpha = \frac{7\pi}{4} α=47π 时,方向导数等于 0 0 0 ;
求函数 u = x 2 + 2 y 2 + 3 z 2 + 3 x − 2 y u = x^2 + 2y^2 + 3z^2 + 3x - 2y u=x2+2y2+3z2+3x−2y 在点 ( 1 , 1 , 2 ) (1,1,2) (1,1,2) 处的梯度,并在哪些点处梯度为零?
解:
f x = 2 x + 3 , f y = 4 y − 2 , f z = 6 z f_x = 2x+3,f_y=4y-2,f_z=6z fx=2x+3,fy=4y−2,fz=6z ∇ u ( x , y , z ) = ∂ u ∂ x i ⃗ + ∂ u ∂ y j ⃗ + ∂ u ∂ z k ⃗ = ( 2 x + 3 ) i ⃗ + ( 4 y − 2 ) j ⃗ + ( 6 z ) k ⃗ \nabla u(x,y,z) = \frac{\partial u}{\partial x} \vec{i} + \frac{\partial u}{\partial y} \vec{j} + \frac{\partial u}{\partial z} \vec{k} = (2x+3)\vec{i} + (4y-2)\vec{j} + (6z)\vec{k} ∇u(x,y,z)=∂x∂ui+∂y∂uj+∂z∂uk=(2x+3)i+(4y−2)j+(6z)k ∇ u ( 1 , 1 , 2 ) = ( 2 × 1 + 3 ) i ⃗ + ( 4 × 1 − 2 ) j ⃗ + ( 6 × 2 ) k ⃗ = 5 i ⃗ + 2 j ⃗ + 12 k ⃗ \nabla u(1,1,2) = (2×1+3)\vec{i} + (4×1-2)\vec{j} + (6×2)\vec{k} = 5\vec{i} + 2\vec{j} + 12\vec{k} ∇u(1,1,2)=(2×1+3)i+(4×1−2)j+(6×2)k=5i+2j+12k
故函数在点 ( 1 , 1 , 2 ) (1,1,2) (1,1,2) 处的梯度为 5 i ⃗ + 2 j ⃗ + 12 k ⃗ 5\vec{i} + 2\vec{j} + 12\vec{k} 5i+2j+12k.
令 f x = f y = f z = 0 f_x=f_y=f_z=0 fx=fy=fz=0, 得 x = − 3 2 , y = 1 2 , z = 0 x=-\frac{3}{2},y=\frac{1}{2},z=0 x=−23,y=21,z=0,因此函数在点 P 0 ( − 3 2 , 1 2 , 0 ) P_0(-\frac{3}{2},\frac{1}{2},0) P0(−23,21,0) 处梯度为零.
确定线性函数 f ( x ) = 2 x 1 − x 2 + 3 x 3 f(x) = 2x_1 − x_2 + 3x_3 f(x)=2x1−x2+3x3 的所有下降方向。请问这样的下降方向是否同所在点的位置有关?
函数 f ( x ) f(x) f(x) 的梯度为:
∇ f ( x ) = [ ∂ f ∂ x 1 ∂ f ∂ x 2 ∂ f ∂ x 3 ] T = [ 2 − 1 3 ] T \nabla f(x) = {\large \begin{bmatrix} \frac{\partial f}{\partial x_1} & \frac{\partial f}{\partial x_2} & \frac{\partial f}{\partial x_3} \end{bmatrix}}^T= \begin{bmatrix} 2 & -1 &3 \end{bmatrix} ^T ∇f(x)=[∂x1∂f∂x2∂f∂x3∂f]T=[2−13]T
一个下降方向 s s s,满足 ∇ f ( x ˉ ) T s < 0 \nabla f(\bar x)^T s < 0 ∇f(xˉ)Ts<0,所以我们找到向量 s s s 使得
[ 2 − 1 3 ] [ s 1 s 2 s 3 ] < 0 \begin{bmatrix} 2 & -1 & 3 \end{bmatrix} \begin{bmatrix} s_1 \\ s_2 \\ s_3 \end{bmatrix} < 0 [2−13] s1s2s3 <0
满足的条件是 s = [ s 1 s 2 s 3 ] s = \begin{bmatrix} s_1 \\ s_2 \\ s_3 \end{bmatrix} s= s1s2s3 满足 2 s 1 − s 2 + 3 s 3 < 0 2s_1 - s_2 + 3s_3 < 0 2s1−s2+3s3<0 ,
故满足条件的所有向量 s s s 为线性函数 f ( x ) = 2 x 1 − x 2 + 3 x 3 f(x) = 2x_1 − x_2 + 3x_3 f(x)=2x1−x2+3x3 的所有下降方向。
并且,下降方向同所在点的位置无关。
下述所有条件使用 Taylor
展开即可证明
设 f : D ⊂ R n → R 1 f:D\subset\mathbf{R}^n\to\mathbf{R}^1 f:D⊂Rn→R1 在开集 D D D 上连续可微, 若 x ∗ ∈ D x^*\in D x∗∈D 是 f f f 的局部极小点,则
g ( x ∗ ) = 0 g(x^{*})=0 g(x∗)=0
称满足一阶必要条件 g ( x ∗ ) = 0 g(x^*) = 0 g(x∗)=0 的点为稳定点(也称为驻点);
稳定点分为三种类型:极大值点、极小值点、鞍点。
设 f : D ⊂ R n → R 1 f:D\subset\mathbf{R}^n\to\mathbf{R}^1 f:D⊂Rn→R1 在开集 D D D 上二阶连续可徽,若 x ∗ ∈ D x^*\in D x∗∈D 是 f f f 的局部极小点,则 g ( x ∗ ) = 0 g(x^{*})=0 g(x∗)=0 且 G ( x ∗ ) ⩾ 0 G(x^{*})\geqslant0 G(x∗)⩾0 为半正定矩阵。
设 f : D ⊂ R n → R 1 f:D\subset\mathbf{R}^n\to\mathbf{R}^1 f:D⊂Rn→R1 在开集 D D D 上二阶连续可微,则 x ∗ ∈ D x^*\in D x∗∈D 是 f f f 的一个严格局部极小点的充分条件是 g ( x ∗ ) = 0 g(x^*)=0 g(x∗)=0 且 G ( x ∗ ) G(x^*) G(x∗) 是正定矩阵
设 f : D ⊂ R n → R 1 f:D\subset\mathbf{R}^n\to\mathbf{R}^1 f:D⊂Rn→R1 在开集 D D D 上连续可微, 则 x ∗ ∈ D x^*\in D x∗∈D 是 f f f 的全局极小点 ⇔ g ( x ∗ ) = 0 \Leftrightarrow g(x^{*})=0 ⇔g(x∗)=0