在数学分析中,引入可微和可导的概念。(摘自《数学分析(高等教育出版社)》第四章)
对函数 y = f ( x ) y=f(x) y=f(x) ,若 ∀ x ∈ X \forall x \in X ∀x∈X ,若存在一个只与 x x x 有关的数 g ( x ) g(x) g(x) 使得:
Δ y = g ( x ) Δ x + o ( Δ x ) \Delta y=g(x)\Delta x + o(\Delta x) Δy=g(x)Δx+o(Δx)
则称 f ( x ) f(x) f(x) 在 X X X 上可微。
若函数 y = f ( x ) y=f(x) y=f(x) ,若 ∀ x ∈ X \forall x\in X ∀x∈X,极限:
lim Δ x → 0 f ( x + Δ x ) − f ( x ) Δ x \lim_{\Delta x\rightarrow 0}\frac{f(x+\Delta x)-f(x)}{\Delta x} Δx→0limΔxf(x+Δx)−f(x)
存在,则称 f ( x ) f(x) f(x) 可导。
一元条件下,可导与可微是等价的,但是更高维条件下,并不是等价的。
一般考虑 n n n 维 Euclid 空间。
这里说明之前可导不一定可微的情况:在高维下:
f ( x , y ) = { 2 x y 3 x 2 + y 4 x 2 + y 2 ≠ 0 0 o t h e r w i s e f(x,y)=\begin{cases} \frac{2xy^3}{x^2+y^4} &x^2+y^2\ne 0\\ 0&otherwise \end{cases} f(x,y)={x2+y42xy30x2+y2=0otherwise
函数 f ( x ) f(x) f(x), 其中 x = [ x 1 ⋮ x n ] x=\left[\begin{matrix}x_1\\\vdots\\x_n\end{matrix}\right] x=⎣⎢⎡x1⋮xn⎦⎥⎤ ,这一般是凸优化中的目标函数。若凸优化是无约束的,当梯度为 0 0 0 的时候,这个点就是局部最优点。则该函数的梯度为:
∇ f ( x ) = [ ∂ f ( x ) ∂ x 1 ⋮ ∂ f ( x ) ∂ x n ] \nabla f(x) = \left[\begin{matrix}\frac{\partial f(x)}{\partial x_1}\\\vdots\\\frac{\partial f(x)}{\partial x_n}\end{matrix}\right] ∇f(x)=⎣⎢⎢⎡∂x1∂f(x)⋮∂xn∂f(x)⎦⎥⎥⎤
梯度满足如下性质:
一般在优化问题中,需要对目标函数进行二阶 Taylor 展开:
f ( y ) = f ( x ) + ∇ f ( x ) T ( y − x ) + 1 2 ( y − x ) T ∇ 2 f ( x ) ( y − x ) + o ( ∥ y − x ∥ 2 ) f(y) = f(x)+\nabla f(x)^T(y-x)+\frac{1}{2}(y-x)^T\nabla^2 f(x)(y-x)+o(\|y-x\|^2) f(y)=f(x)+∇f(x)T(y−x)+21(y−x)T∇2f(x)(y−x)+o(∥y−x∥2)
这里就用到了高位函数的二阶导(Hessian矩阵)。
H = ∇ 2 f ( x ) = [ ∂ 2 f ( x ) ∂ x 1 ∂ x 1 ⋯ ∂ 2 f ( x ) ∂ x 1 ∂ x n ⋮ ⋱ ⋮ ∂ 2 f ( x ) ∂ x n ∂ x 1 ⋯ ∂ 2 f ( x ) ∂ x n ∂ x n ] ∈ R n × n H = \nabla^2 f(x) = \left[\begin{matrix}\frac{\partial^2 f(x)}{\partial x_1\partial x_1}&\cdots&\frac{\partial^2 f(x)}{\partial x_1\partial x_n} \\ \vdots&\ddots&\vdots\\ \frac{\partial^2 f(x)}{\partial x_n\partial x_1}&\cdots&\frac{\partial^2 f(x)}{\partial x_n\partial x_n}\end{matrix}\right]\in \R^{n\times n} H=∇2f(x)=⎣⎢⎢⎡∂x1∂x1∂2f(x)⋮∂xn∂x1∂2f(x)⋯⋱⋯∂x1∂xn∂2f(x)⋮∂xn∂xn∂2f(x)⎦⎥⎥⎤∈Rn×n
Hessian 矩阵满足性质: H T = H H^T=H HT=H。对于对称矩阵,可以进行谱分解。严格凸函数来说,Hessian 一定对称正定的。根据对称矩阵谱分解的性质,可以推出Hessian 所有特征值都是正的。
Hessian 矩阵的性质:
对于向量值函数 f ( x ) = [ f 1 ( x ) ⋮ f m ( x ) ] f(x)=\left[\begin{matrix}f_1(x)\\\vdots\\f_m(x)\end{matrix}\right] f(x)=⎣⎢⎡f1(x)⋮fm(x)⎦⎥⎤, 其中 x = [ x 1 ⋮ x n ] x=\left[\begin{matrix}x_1\\\vdots\\x_n\end{matrix}\right] x=⎣⎢⎡x1⋮xn⎦⎥⎤ ,这类函数经常作为凸优化中的约束函数出现。该函数的导函数为一个 Jacobi 矩阵:
∇ f ( x ) = [ ∂ f 1 ( x ) ∂ x 1 ⋯ ∂ f 1 ( x ) ∂ x n ⋮ ⋱ ⋮ ∂ f m ( x ) ∂ x 1 ⋯ ∂ f m ( x ) ∂ x n ] ∈ R m × n \nabla f(x) = \left[\begin{matrix}\frac{\partial f_1(x)}{\partial x_1}&\cdots&\frac{\partial f_1(x)}{\partial x_n} \\ \vdots&\ddots&\vdots\\ \frac{\partial f_m(x)}{\partial x_1}&\cdots&\frac{\partial f_m(x)}{\partial x_n}\end{matrix}\right]\in \R^{m\times n} ∇f(x)=⎣⎢⎢⎡∂x1∂f1(x)⋮∂x1∂fm(x)⋯⋱⋯∂xn∂f1(x)⋮∂xn∂fm(x)⎦⎥⎥⎤∈Rm×n
对于 Lagrange 对偶问题来说,因为求解的是上界的下界,会有不连续点的出现,在这个时候,就会出现梯度不存在的情况。因此这里引入了次梯度的概念:
由凸函数满足的不等式:
f ( y ) ≥ ∇ f ( x ) T ( y − x ) f(y) \ge \nabla f(x)^T(y-x) f(y)≥∇f(x)T(y−x)
可以类似的推出次梯度的形式:
f ( y ) ≥ g T ( y − x ) , ∀ y f(y)\ge g^T (y-x),\forall y f(y)≥gT(y−x),∀y
给定 x x x ,满足上式的 g g g 的集合就是次梯度,记作 ∂ f = g \partial f=g ∂f=g 。次梯度是一个集合,如果梯度存在,则次梯度内只存在一个元素:就是梯度本身。
次梯度满足的性质: