自然语言处理学习笔记-lecture2-数学基础1-微积分

微积分

函数

设数集 D ⊂ R D \subset \mathbb{R} DR,则称映射 f : D ⊂ R f : D \subset \mathbb{R} f:DR为定义在 D D D上的函数,通常记为 y = f ( x ) , x ∈ D y = f(x), x ∈ D y=f(x),xD,其中 x x x称为自变量, y y y称为因变量, D D D称为定义域,记作 D f D_f Df,即 D f = D D_f = D Df=D
对于每个 x ∈ D x ∈ D xD,按对应法则 f f f,总有唯一的值 y y y与之相对应,这个值称为函数 f f f x x x处的函数值,记作 f ( x ) f(x) f(x),即 y = f ( x ) y = f(x) y=f(x)。函数值 f ( x ) f(x) f(x)的全体所构成的集合称为函数f的值域,记作 R f R_f Rf f ( D ) f (D) f(D),即
R f = f ( D ) = { y ∣ y = f ( x ) , x ∈ D } R_f =f(D)=\{y|y=f(x),x∈D\} Rf=f(D)={yy=f(x),xD}
例如, f ( x ) = 3 x + 2 f(x) = 3x + 2 f(x)=3x+2是一个函数,定义域是 R R R,值域是 R R R,自变量和因变量之间存在一一映射。表示函数的记号可以任意选取,除了常用的 f f f以 外,还可以用其他的英文字母或希腊字母,如 g g g F F F ϕ \phi ϕ

复合函数

给定两个函数 f f f g g g,复合函数定义为:
( f ∘ g ) ( x ) = f ( g ( x ) ) ( f \circ g)(x) = f(g(x)) (fg)(x)=f(g(x))
两个函数 f f f g g g能构成复合函数 f ∘ g f \circ g fg的条件是:函数 g g g的值域 R g R_g Rg必须是函数 f f f 的定义域 D f D_f Df的子集,即 R g ⊆ D f R_g \subseteq D_f RgDf
例如, y = f ( u ) = 3 u + 2 y = f(u) = 3u + 2 y=f(u)=3u+2的定义域为 R \mathbb{R} R,而 u = g ( x ) = x 2 − 2 u = g(x) = x2 − 2 u=g(x)=x22的定义域为 R \mathbb{R} R。由于 g ( R ) ⊆ R g(R) \subseteq R g(R)R,因此 f f f g g g可以构成复合函数

导数

设函数 y = f ( x ) y = f(x) y=f(x)在点 x 0 x_0 x0的某个邻域内有定义,当自变量 x x x x 0 x_0 x0处有增量 Δ x \Delta x Δx, 而且 x 0 + Δ x x_0 + \Delta x x0+Δx也在该邻域内时,函数取得增量 Δ y = f ( x 0 + Δ x ) − f ( x 0 ) \Delta y = f(x_0 + \Delta x) − f(x_0) Δy=f(x0+Δx)f(x0)。如 果 Δ y \Delta y Δy Δ x \Delta x Δx之比当 Δ x → 0 \Delta x → 0 Δx0时极限存在,则称函数 y = f ( x ) y = f(x) y=f(x)在点 x 0 x_0 x0处可导, 并称这个极限为函数 y = f ( x ) y = f(x) y=f(x)在点 x 0 x_0 x0处的导数,记作:
f ′ ( x 0 ) = lim ⁡ Δ x → 0 f ( x 0 + Δ x ) − f ( x 0 ) Δ x f'(x_0) = \lim_{\Delta x \rightarrow 0} \frac{f(x_0 + \Delta x) − f(x_0)}{\Delta x} f(x0)=Δx0limΔxf(x0+Δx)f(x0)

导函数

如果函数 y = f ( x ) y = f(x) y=f(x)在开区间内每一点都可导,则称函数 f ( x ) f(x) f(x)在区间内可导。这时函数 y = f ( x ) y = f(x) y=f(x)对于区间内的每一个确定的 x x x值,都对应着一个确定的导数值,这就构成一个新的函数。我们将该函数称之为原来函数的导函数,记作 y ′ y′ y f ′ ( x ) f′(x) f(x) d f ( x ) / d x df(x)/dx df(x)/dx,简称导数。
自然语言处理学习笔记-lecture2-数学基础1-微积分_第1张图片

导数的四则运算

对于可导函数 f f f g g g,导数的四则运算规则如下:

  • 加法: ( f + g ) ′ = f ′ + g ′ (f + g)' = f' + g' (f+g)=f+g
  • 减法: ( f − g ) ′ = f ′ − g ′ (f − g)' = f' − g' (fg)=fg
  • 乘法: ( f g ) ′ = f ′ g + f g ′ (fg)′ = f'g + fg' (fg)=fg+fg
  • 除法: ( f / g ) ′ = ( f ′ g − f g ′ ) / g 2 (f/g)' = (f'g − fg')/g^2 (f/g)=(fgfg)/g2

复合函数的导数

对于复合函数 ( f ∘ g ) ( x ) (f \circ g)(x) (fg)(x),通常使用链式法则计算其导数:
( f ∘ g ) ′ ( x ) = f ′ ( g ( x ) ) g ′ ( x ) ( f \circ g)'(x) = f'(g(x))g'(x) (fg)(x)=f(g(x))g(x)
u = g ( x ) u = g(x) u=g(x),则链式法则的另一种表述方式为:
d f ( g ( x ) ) d x = d f ( u ) d u × d u d x \frac{df(g(x))}{dx} = \frac{df(u)}{du} \times \frac{du}{dx} dxdf(g(x))=dudf(u)×dxdu

二阶导数

一般而言,函数 y = f ( x ) y = f(x) y=f(x)的导数 y ′ = f ′ ( x ) y′ = f′(x) y=f(x)仍然是 x x x的函数,可以进一步求 导。二阶导数是原函数导数的导数,即对原函数进行二次求导,记作:
y ′ ′ = ( y ′ ) ′ y'' = (y')' y′′=(y)
二阶导数的另一种常见的表示方法为
y ′ ′ = d 2 y d x 2 y'' = \frac{d^2y}{dx^2} y′′=dx2d2y
例如, y = x 2 y = x^2 y=x2的一阶导数为 y ′ = 2 x y' = 2x y=2x,而二阶导数则是一阶导数 y ′ = 2 x y' = 2x y=2x的导数y′′ = 2。
二阶导数反映了一阶导数的变化率。我们通常使用二阶导数来判断函数的凹凸性并计算极值。类似地,在条件允许的情况下,还可以计算函数的三阶导数、四阶导数或高阶导数。

函数的单调性

设函数 f ( x ) f(x) f(x)的定义域为 D D D,区间 I ⊂ D I \subset D ID。如果对于区间 I I I上任意两点 x 1 x_1 x1 x 2 x_2 x2, 当 x 1 < x 2 x_1 < x_2 x1<x2时,恒有 f ( x 1 ) < f ( x 2 ) f(x_1) < f(x_2) f(x1)<f(x2),则称函数 f ( x ) f(x) f(x)在区间 I I I上单调递增。
反之,如果对于区间 I I I 上任意两点 x 1 x_1 x1 x 2 x_2 x2 ,当 x 1 < x 2 x_1 x1<x2 时,恒有 f ( x 1 ) > f ( x 2 ) f(x_1) > f(x_2) f(x1)>f(x2),则称函数 f ( x ) f(x) f(x)在区间 I I I上单调递减。

凹函数

给定函数 f : R → R f : \mathbb{R} → \mathbb{R} f:RR,对于任意两个点 x 1 x_1 x1 x 2 x_2 x2,如果满足下列条件:
f ( x 1 + x 2 2 ) ≤ f ( x 1 ) + f ( x 2 ) 2 f\left(\frac{x_1+x_2}{2} \right) \leq \frac{f(x_1) + f(x_2)}{2} f(2x1+x2)2f(x1)+f(x2)

凸函数

给定函数 f : R → R f : \mathbb{R} → \mathbb{R} f:RR,对于任意两个点 x 1 x_1 x1 x 2 x_2 x2,如果满足下列条件:
f ( x 1 + x 2 2 ) ≥ f ( x 1 ) + f ( x 2 ) 2 f\left(\frac{x_1+x_2}{2} \right) \geq \frac{f(x_1) + f(x_2)}{2} f(2x1+x2)2f(x1)+f(x2)

函数的极值

设函数 f ( x ) f(x) f(x)在点 x = x 0 x = x_0 x=x0及其附近有定义。如果对于 x 0 x_0 x0附近的所有点都有 f ( x ) < f ( x 0 ) f(x) < f(x_0) f(x)<f(x0),则 f ( x 0 ) f(x_0) f(x0)是函数 f ( x ) f(x) f(x)的一个极大值, x 0 x_0 x0是函数 f ( x ) f(x) f(x)的一个极大值点。如果对于 x 0 x_0 x0附近的所有点都有 f ( x ) > f ( x 0 ) f(x) > f(x_0) f(x)>f(x0),则 f ( x 0 ) f(x_0) f(x0)是函数 f ( x ) f(x) f(x)的一个 极小值, x 0 x_0 x0是函数 f ( x ) f (x) f(x)的一个极小值点。

函数的最值

函数在整个定义域内可能有许多极大值或极小值,而且某个极大值不一 定大于某个极小值。函数f(x)在整个定义域内的最小函数值 f ( x 0 ) f(x_0) f(x0)称为函数 f ( x ) f(x) f(x)的最小值, x 0 x_0 x0称为最小值点。类似地,函数 f ( x ) f(x) f(x)在整个定义域内的最大函数值 f ( x 0 ) f (x_0) f(x0)称为函数 f ( x ) f (x) f(x)的最大值, x 0 x_0 x0称为最大值点。
如果函数 f ( x ) f(x) f(x)在闭区间 [ a , b ] [a, b] [a,b]上连续,则 f ( x ) f(x) f(x) [ a , b ] [a, b] [a,b]上必有最大值和最小值。在开区间 ( a , b ) (a, b) (a,b)上连续的函数 f ( x ) f(x) f(x)不一定有最大值和最小值,如函数 f ( x ) = 1 / x f(x) = 1/x f(x)=1/x。函数的最值点必在函数的极值点或者区间的端点处获得。函数的极值可能有多个,但是最值最多只有一个。
如果函数 f ( x ) f(x) f(x)在闭区间 [ a , b ] [a, b] [a,b]上有定义,在开区间 ( a , b ) (a, b) (a,b)内有导数,则求函数f(x)在闭区间 [ a , b ] [a, b] [a,b]上的最大值和最小值的步骤如下:

  • 求函数 f ( x ) f(x) f(x)在开区间 ( a , b ) (a,b) (a,b)的导数 f ′ ( x ) f'(x) f(x);
  • 求方程 f ′ ( x ) = 0 f'(x) = 0 f(x)=0 ( a , b ) (a, b) (a,b)内的解;
  • 求在 ( a , b ) (a,b) (a,b)内使 f ′ ( x ) = 0 f'(x)=0 f(x)=0的所有点的函数值和 f ( x ) f(x) f(x)在闭区间端点处的函数值 f ( a ) f (a) f(a) f ( b ) f (b) f(b);
  • 比较上面所求的所有值,其中最大值为函数 f ( x ) f(x) f(x)在闭区间 [ a , b ] [a, b] [a,b]上的最大值,最小值为函数 f ( x ) f(x) f(x)在闭区间 [ a , b ] [a, b] [a,b]上的最小值。

例如,可以使用上述方法计算函数 f ( x ) = x 2 − 2 x + 1 f(x) = x^2 − 2x + 1 f(x)=x22x+1在区间 [ − 2 , 2 ] [−2,2] [2,2]上的最大值和最小值,得到函数的最小值点是1,最大值点是−2。

不定积分

函数 f ( x ) f(x) f(x)的不定积分是一个导数等于 f ( x ) f(x) f(x)的函数 F F F,即 F ′ ( x ) = f ( x ) F'(x) = f(x) F(x)=f(x)。相应地,函数 F ( x ) F(x) F(x)称为 f ( x ) f(x) f(x)的原函数。一个函数通常有多个原函数。例如,函数 f ( x ) = 2 x f(x) = 2x f(x)=2x的原函数可以是 F ( x ) = x 2 + 1 F(x) = x^2 + 1 F(x)=x2+1,也可以是 F ( x ) = x 2 + 2 F(x) = x^2 + 2 F(x)=x2+2。因此,我们通常将原函数写成以下的形式:
∫ f ( x ) d x = F ( x ) + C \int f(x)dx = F(x) + C f(x)dx=F(x)+C
其中, C C C表示任意常数。常见的积分公式如下:
自然语言处理学习笔记-lecture2-数学基础1-微积分_第2张图片

定积分

设函数 f ( x ) f(x) f(x)在区间 [ a , b ] [a, b] [a,b]上连续,将区间 [ a , b ] [a, b] [a,b]分成 n n n个长度相等的子区间,则 函数 f ( x ) f(x) f(x)在区间 [ a , b ] [a, b] [a,b]上的定积分定义为:
∫ a b f ( x ) d x = lim ⁡ n → + ∞ f ( a + i n ( b − a ) ) b − a n \int_a^b f(x)dx = \lim_{n \rightarrow +\infty}f(a + \frac{i}{n}(b-a))\frac{b-a}{n} abf(x)dx=n+limf(a+ni(ba))nba
其中, a a a称为积分下限, b b b称为积分上限, [ a , b ] [a, b] [a,b]称为积分区间, x x x称为积分变 量, f ( x ) f (x) f(x)称为被积函数。从直观上理解,定积分计算的是包围区域的面积。

多元函数

D D D是一个非空的 n n n元有序数组的集合, f f f为某一确定的对应法则,如果对于每一个有限数组 ( x 1 , x 2 , . . . , x n ) ∈ D (x_1, x_2, ..., x_n) \in D (x1,x2,...,xn)D, 通过对应法则 f f f,都有唯一确定的实数 y y y与之对应,则称对应法则 f f f为定义在 D D D上的多元函数,记为:
y = f ( x 1 , x 2 , ⋯   , x n ) y = f(x_1,x_2,\cdots,x_n) y=f(x1,x2,,xn)
其中 x 1 , x 2 , . . . , x n x_1, x_2, ..., x_n x1,x2,...,xn称为自变量, y y y称为因变量。

偏导数

设函数 z = f ( x , y ) z = f(x, y) z=f(x,y)在点 ( x 0 , y 0 ) (x_0, y_0) (x0,y0)的某一邻域内有定义,当 y y y固定在 y 0 y_0 y0 x x x x 0 x_0 x0处 有增量 Δ x \Delta x Δx时,相应地函数值有增量 f ( x 0 + Δ x , y 0 ) − f ( x 0 , y 0 ) f(x_0 + \Delta x, y_0) − f(x_0, y_0) f(x0+Δx,y0)f(x0,y0)。如果极限
lim ⁡ Δ x → 0 f ( x 0 + Δ x , y 0 ) − f ( x 0 , y 0 ) Δ x \lim_{\Delta x \rightarrow 0}\frac{f(x_0 + \Delta x,y_0)-f(x_0,y_0)}{\Delta x} Δx0limΔxf(x0+Δx,y0)f(x0,y0)
存在,则称此极限为函数 z = f ( x , y ) z = f(x, y) z=f(x,y)在点 ( x 0 , y 0 ) (x_0, y_0) (x0,y0)处对 x x x的偏导数,记为:
∂ z ∂ x ∣ x = x 0 , y = y 0 = lim ⁡ Δ x → 0 f ( x 0 + Δ x , y 0 ) − f ( x 0 , y 0 ) Δ x \frac{\partial z}{\partial x} | _{x = x_0,y=y_0} = \lim_{\Delta x \rightarrow 0}\frac{f(x_0 + \Delta x,y_0)-f(x_0,y_0)}{\Delta x} xzx=x0,y=y0=Δx0limΔxf(x0+Δx,y0)f(x0,y0)
另一种形式是 f x ( x 0 , y 0 ) f_x(x_0, y_0) fx(x0,y0)。同理可以定义函数在点 ( x 0 , y 0 ) (x_0, y_0) (x0,y0)处对y的偏导数。如果函数 z = f ( x , y ) z = f(x, y) z=f(x,y)在区域 D D D内任意一点 ( x , y ) (x, y) (x,y)处对 x x x的偏导数都存在,那么这个偏导数是 x x x y y y的函数,成为函数 z = f ( x , y ) z = f(x, y) z=f(x,y)对自变量 x x x的偏导数,记为 ∂ z / ∂ x \partial z/\partial x z/x

多元函数求导

f ( x , y ) = x 2 + 3 x y + y − 1 f(x, y) = x^2 + 3xy + y − 1 f(x,y)=x2+3xy+y1,求该函数对 x x x y y y的偏导在点 ( 4 , − 5 ) (4, − 5) (4,5)处的取值。求解方法如下。首先计算函数对 x x x的偏导。在计算过程中,我们可以将 y y y看作常量,然后对 x x x求导:
∂ f ∂ x = ∂ ∂ x ( x 2 + 3 x y + y − 1 ) = 2 x + 3 y \frac{\partial f}{\partial x} = \frac{\partial}{\partial x}(x^2 + 3xy + y − 1) = 2x + 3y xf=x(x2+3xy+y1)=2x+3y
因此, ∂ f / ∂ x \partial f/\partial x f/x ( 4 , − 5 ) (4, − 5) (4,5)处的值为 2 × 4 + 3 × ( − 5 ) = − 7 2 \times 4 + 3 \times (−5) = − 7 2×4+3×(5)=7
接下来计算函数对 y y y的偏导,将 x x x看作常量:
∂ f ∂ y = ∂ ∂ y ( x 2 + 3 x y + y − 1 ) = 3 x + 1 \frac{\partial f}{\partial y} = \frac{\partial}{\partial y}(x^2 + 3xy + y − 1) = 3x + 1 yf=y(x2+3xy+y1)=3x+1
因此, ∂ f / ∂ y \partial f/\partial y f/y ( 4 , − 5 ) (4, − 5) (4,5)处的值为 3 × 4 + 1 = 13 3 \times 4 + 1 = 13 3×4+1=13

多元复合函数求导

首先来考虑一元函数与多元函数复合的情况。若函数 u = ϕ ( x ) u = \phi(x) u=ϕ(x)和函数 v = ψ ( x ) v = \psi(x) v=ψ(x)都在点 x x x可导,函数 z = f ( u , v ) z = f(u, v) z=f(u,v)在对应点 ( u , v ) (u, v) (u,v)具有连续偏导数,那 么复合函数 z = f ( ϕ ( x ) , ψ ( x ) ) z = f(\phi(x), \psi(x)) z=f(ϕ(x),ψ(x))在点 x x x可导,其导数为:
d z d x = ∂ z ∂ u d u d x + ∂ z ∂ v d v d x \frac{dz}{dx} = \frac{\partial z}{\partial u}\frac{du}{dx} + \frac{\partial z}{\partial v}\frac{dv}{dx} dxdz=uzdxdu+vzdxdv
例如,令 z = f ( u , v ) = u 2 − v 2 z = f(u, v) = u^2 − v^2 z=f(u,v)=u2v2 u = ϕ ( x ) = x 2 − 1 u = \phi(x) = x^2 − 1 u=ϕ(x)=x21 v = ψ ( x ) = 3 x + 2 v = \psi(x) = 3x + 2 v=ψ(x)=3x+2,则 复合函数 z z z x x x的导数可计算为:
d z d x = ∂ z ∂ u d u d x + ∂ z ∂ v d v d x = 2 u × 2 x + ( − 2 v ) × 3 = 4 x 3 − 10 x − 12 \begin{aligned} \frac{dz}{dx} &= \frac{\partial z}{\partial u}\frac{du}{dx} + \frac{\partial z}{\partial v}\frac{dv}{dx} \\ &= 2u \times 2x + (-2v) \times 3 \\ &= 4x^3 - 10x -12 \end{aligned} dxdz=uzdxdu+vzdxdv=2u×2x+(2v)×3=4x310x12
然后考虑多元函数与多元函数复合的情况。如果函数 u = ϕ ( x , y ) u = \phi(x, y) u=ϕ(x,y)与函数 v = ψ ( x , y ) v = \psi(x, y) v=ψ(x,y)具有对 x x x y y y的偏导数,函数 z = f ( u , v ) z = f(u, v) z=f(u,v)在对应点 ( u , v ) (u, v) (u,v)具有连续偏导数,那么复合函数 z = f ( ϕ ( x , y ) , ψ ( x , y ) ) z = f(\phi(x, y), \psi(x, y)) z=f(ϕ(x,y),ψ(x,y))在点 ( x , y ) (x, y) (x,y)的两个偏导数存在:
∂ z ∂ x = ∂ z ∂ u ∂ u ∂ x + ∂ z ∂ v ∂ v ∂ x ∂ z ∂ y = ∂ z ∂ u ∂ u ∂ y + ∂ z ∂ v ∂ v ∂ y \frac{\partial z}{\partial x} = \frac{\partial z}{\partial u}\frac{\partial u}{\partial x} + \frac{\partial z}{\partial v}\frac{\partial v}{\partial x} \\ \frac{\partial z}{\partial y} = \frac{\partial z}{\partial u}\frac{\partial u}{\partial y} + \frac{\partial z}{\partial v}\frac{\partial v}{\partial y} xz=uzxu+vzxvyz=uzyu+vzyv
例如,令 z = f ( u , v ) = u + v z = f(u, v) = u + v z=f(u,v)=u+v u = ϕ ( x , y ) = x y , v = ψ ( x , y ) = x + y u = \phi(x, y) = xy,v = \psi(x, y) = x + y u=ϕ(x,y)=xyv=ψ(x,y)=x+y,则复合函数 z z z x x x y y y的偏导数分别是:
∂ z ∂ x = y + 1 ∂ z ∂ y = x + 1 \frac{\partial z}{\partial x} = y + 1 \\ \frac{\partial z}{\partial y} = x + 1 xz=y+1yz=x+1

梯度

设二元函数 z = f ( x , y ) z = f(x, y) z=f(x,y)在平面区域 D D D上具有一阶连续偏导数,则对于每一 个点 ( x , y ) (x, y) (x,y)可以定义一个向量,称为函数 z = f ( x , y ) z = f(x, y) z=f(x,y)在点 ( x , y ) (x, y) (x,y)的梯度,记作:
∇ f ( x , y ) = ( ∂ f ∂ x , ∂ f ∂ y ) \nabla f(x,y) = \left(\frac{\partial f}{\partial x},\frac{\partial f}{\partial y}\right) f(x,y)=(xf,yf)
例如,令 z = f ( x , y ) = x 2 − y 3 z = f(x, y) = x^2 − y^3 z=f(x,y)=x2y3,则 x x x y y y的偏导函数为:
∂ f ∂ x = 2 x , ∂ f ∂ y = 3 y 2 \frac{\partial f}{\partial x} = 2x,\frac{\partial f}{\partial y} = 3y^2 xf=2x,yf=3y2
因此,函数 f ( x , y ) f(x, y) f(x,y)在点 ( 2 , 1 ) (2,1) (2,1)处的梯度是一个二维向量 ( 4 , 3 ) (4,3) (4,3)。多元函数的梯度可以类似地计算。梯队对于计算多元函数的极值而言非常重要,在深度学习的参数优化中被广泛使用。

多元函数极值

设函数 z = f ( x , y ) z = f(x,y) z=f(x,y)在点 ( x 0 , y 0 ) (x_0,y_0) (x0,y0)的某个邻域内有定义,对于该邻域内异于 ( x 0 , y 0 ) (x_0, y_0) (x0,y0)的点,如果不等式
f ( x , y ) < f ( x 0 , y 0 ) f(x, y) \lt f(x_0, y_0) f(x,y)<f(x0,y0)
成立,则称函数 f ( x , y ) f(x, y) f(x,y)在点 ( x 0 , y 0 ) (x_0, y_0) (x0,y0)处有极大值。如果不等式
f ( x , y ) > f ( x 0 , y 0 ) f(x, y) \gt f(x_0, y_0) f(x,y)>f(x0,y0)
成立,则称函数 f ( x , y ) f(x, y) f(x,y)在点 ( x 0 , y 0 ) (x_0, y_0) (x0,y0)处有极小值。
例如,函数 z = 3 x 2 + 4 y 2 z = 3x^2 + 4y^2 z=3x2+4y2在点 ( 0 , 0 ) (0,0) (0,0)处有极小值,因为除了 ( 0 , 0 ) (0,0) (0,0)以外所有的点的函数值均为正,只有在点 ( 0 , 0 ) (0,0) (0,0)处的函数值为0。与之相反,函数 z = − x 2 + y 2 z = − \sqrt{x^2 + y^2} z=x2+y2 在点 ( 0 , 0 ) (0,0) (0,0)处有极大值,因为除了 ( 0 , 0 ) (0,0) (0,0)以外所有的点的函数值均为负,只有在点 ( 0 , 0 ) (0,0) (0,0)处的函数值为0。

多元函数极值条件

定理1(必要条件):设函数 z = f ( x , y ) z = f(x,y) z=f(x,y)在点 ( x 0 , y 0 ) (x_0,y_0) (x0,y0)处具有偏导数,且在点 ( x 0 , y 0 ) (x_0, y_0) (x0,y0)处有极值,则函数在该点的偏导数必然为0:
f x ( x 0 , y 0 ) = 0 , f y ( x 0 , y 0 ) = 0 f_x(x_0, y_0) = 0, f_y(x_0, y_0) = 0 fx(x0,y0)=0,fy(x0,y0)=0
定理2(充分条件):设函数 z = f ( x , y ) z = f(x, y) z=f(x,y)在点 ( x 0 , y 0 ) (x_0, y_0) (x0,y0)的某邻域内连续且有一阶及二阶连续偏导数,并且 f x ( x 0 , y 0 ) = 0 , f y ( x 0 , y 0 ) = 0 f_x(x_0, y_0) = 0,f_y(x_0, y_0) = 0 fx(x0,y0)=0fy(x0,y0)=0,令
f x x ( x 0 , y 0 ) = A , f x y ( x 0 , y 0 ) = B , f y y ( x 0 , y 0 ) = C f_{xx}(x_0, y_0) = A, f_{xy}(x_0, y_0) = B, f_{yy}(x_0, y_0) = C fxx(x0,y0)=A,fxy(x0,y0)=B,fyy(x0,y0)=C
f ( x , y ) f(x, y) f(x,y) ( x 0 , y 0 ) (x_0, y_0) (x0,y0)处是否取得极值的条件如下:

  • A C − B 2 > 0 AC − B^2 > 0 ACB2>0时有极值,当 A < 0 A < 0 A<0时有极大值, A > 0 A > 0 A>0时有极小值。
  • A C − B 2 < 0 AC − B^2 < 0 ACB2<0时没有极值。
  • A C − B 2 = 0 AC − B^2 = 0 ACB2=0时可能有极值,也可能没有极值。

求多元函数极值

求二元函数 f ( x , y ) = x 3 − y 3 + 3 x 2 + 3 y 2 − 9 x f(x, y) = x^3 − y^3 + 3x^2 + 3y^2 − 9x f(x,y)=x3y3+3x2+3y29x的极值。
首先求解一阶导数组成的方程组:
f x ( x , y ) = 3 x 2 + 6 x − 9 = 0 f y ( x , y ) = − 3 y 2 + 6 y = 0 f_x(x, y) = 3x^2 + 6x − 9 = 0 \\ f_y(x, y) = −3y^2 + 6y = 0 fx(x,y)=3x2+6x9=0fy(x,y)=3y2+6y=0
得到四组解: ( 1 , 0 ) 、 ( 1 , 2 ) 、 ( − 3 , 0 ) (1, 0)、(1, 2)、(−3, 0) (1,0)(1,2)(3,0) ( − 3 , 2 ) (−3, 2) (3,2)。它们不一定都是极值点,需要进一步考察二阶导数:
f x x ( x , y ) = 6 x + 6 f x y ( x , y ) = 0 f y y ( x , y ) = − 6 y + 6 f_{xx}(x, y) = 6x + 6 \\ f_{xy}(x, y) = 0 \\ f_{yy}(x, y) = −6y + 6 fxx(x,y)=6x+6fxy(x,y)=0fyy(x,y)=6y+6
对四个解分别计算A、B和C,考察定理2的条件。

  • ( 1 , 0 ) : A C − B 2 = 12 × 6 > 0 (1,0):AC−B^2=12×6>0 (1,0):ACB2=12×6>0 A = 12 > 0 A=12>0 A=12>0,因此 ( 1 , 0 ) (1,0) (1,0)是函数 f ( x , y ) f(x,y) f(x,y)的一个极小值点,对应的极小值是 f ( 1 , 0 ) = − 5 f(1,0) = − 5 f(1,0)=5
  • ( 1 , 2 ) : A C − B 2 = 12 × ( − 6 ) < 0 (1, 2):AC − B^2 = 12 × (−6) < 0 (1,2):ACB2=12×(6)<0,因此 ( 1 , 2 ) (1, 2) (1,2)不是函数 f ( x , y ) f(x, y) f(x,y)的极值点。
  • ( − 3 , 0 ) : A C − B 2 = ( − 12 ) × 6 < 0 (−3, 0):AC − B^2 = (−12) × 6 < 0 (3,0):ACB2=(12)×6<0,因此 ( − 3 , 0 ) (−3, 0) (3,0)不是函数 f ( x , y ) f(x, y) f(x,y)的极值点。
  • ( − 3 , 2 ) : A C − B 2 = ( − 12 ) × ( − 6 ) > 0 (−3,2):AC−B^2=(−12)×(−6)>0 (3,2):ACB2=(12)×(6)>0 A = − 12 < 0 A=−12<0 A=12<0,因此 ( − 3 , 2 ) (−3,2) (3,2)是函数 f ( x , y ) f(x, y) f(x,y)的一个极大值点,对应的极大值是 f ( − 3 , 2 ) = − 31 f(−3, 2) = − 31 f(3,2)=31

拉格朗日乘子法

求函数 z = f ( x , y ) z = f(x, y) z=f(x,y)在满足 g ( x , y ) = 0 g(x, y) = 0 g(x,y)=0下的条件极值,可以转化为函数
F ( x , y , λ ) = f ( x , y ) + λ g ( x , y ) F(x, y, \lambda) = f(x, y) + \lambda g(x, y) F(x,y,λ)=f(x,y)+λg(x,y)
的无约束条件极值问题。
例如,给定双曲线 x y = 3 xy = 3 xy=3求该曲线上距离原点最近的点。这是一个典型的带约束的求极值问题。
原始问题可以转化为:
F ( x , y , λ ) = x 2 + y 2 + λ ( x y − 3 ) F(x, y, λ) = x^2 + y^2 + λ(xy − 3) F(x,y,λ)=x2+y2+λ(xy3)
计算函数 F ( x , y , λ ) F(x, y, λ) F(x,y,λ)的一阶偏导,得到方程组:
F x ( x , y , λ ) = 2 x + λ y = 0 F y ( x , y , λ ) = 2 y + λ x = 0 F λ ( x , y , λ ) = x y − 3 = 0 F_x(x, y, λ) = 2x + λy = 0 \\ F_y(x, y, λ) = 2y + λx = 0 \\ F_λ(x, y, λ) = xy − 3 = 0 Fx(x,y,λ)=2x+λy=0Fy(x,y,λ)=2y+λx=0Fλ(x,y,λ)=xy3=0
求解该方程组,可以得到 λ = 2 λ = 2 λ=2 λ = − 2 λ = − 2 λ=2。当 λ = 2 λ = 2 λ=2时,无法求解 x x x y y y,因为势必有 − x 2 = 3 −x^2 = 3 x2=3。当 λ = − 2 λ = − 2 λ=2时,有两组解: ( 3 , 3 ) ( 3, 3) (3,3) ( − 3 , − 3 ) (− 3, − 3) (3,3)

你可能感兴趣的:(自然语言处理,自然语言处理,学习,机器学习)