凸优化 [1]:梯度与次梯度

凸优化 [1]:梯度与次梯度

一元微积分中

在数学分析中,引入可微和可导的概念。(摘自《数学分析(高等教育出版社)》第四章)

可微

对函数 y = f ( x ) y=f(x) y=f(x) ,若 ∀ x ∈ X \forall x \in X xX ,若存在一个只与 x x x 有关的数 g ( x ) g(x) g(x) 使得:

Δ y = g ( x ) Δ x + o ( Δ x ) \Delta y=g(x)\Delta x + o(\Delta x) Δy=g(x)Δx+o(Δx)

则称 f ( x ) f(x) f(x) X X X 上可微。

可导

若函数 y = f ( x ) y=f(x) y=f(x) ,若 ∀ x ∈ X \forall x\in X xX,极限:

lim ⁡ Δ x → 0 f ( x + Δ x ) − f ( x ) Δ x \lim_{\Delta x\rightarrow 0}\frac{f(x+\Delta x)-f(x)}{\Delta x} Δx0limΔxf(x+Δx)f(x)

存在,则称 f ( x ) f(x) f(x) 可导。

一元条件下,可导与可微是等价的,但是更高维条件下,并不是等价的。

高维梯度

一般考虑 n n n 维 Euclid 空间。

这里说明之前可导不一定可微的情况:在高维下:

  1. 可微必定可偏导
  2. 可导不一定可微(若函数在任一个方向上偏导都存在,并不能说明该点可微)。反例:在 ( 0 , 0 ) (0,0) (0,0) 处的全微分

f ( x , y ) = { 2 x y 3 x 2 + y 4 x 2 + y 2 ≠ 0 0 o t h e r w i s e f(x,y)=\begin{cases} \frac{2xy^3}{x^2+y^4} &x^2+y^2\ne 0\\ 0&otherwise \end{cases} f(x,y)={x2+y42xy30x2+y2=0otherwise

梯度

函数 f ( x ) f(x) f(x), 其中 x = [ x 1 ⋮ x n ] x=\left[\begin{matrix}x_1\\\vdots\\x_n\end{matrix}\right] x=x1xn ,这一般是凸优化中的目标函数。若凸优化是无约束的,当梯度为 0 0 0 的时候,这个点就是局部最优点。则该函数的梯度为:

∇ f ( x ) = [ ∂ f ( x ) ∂ x 1 ⋮ ∂ f ( x ) ∂ x n ] \nabla f(x) = \left[\begin{matrix}\frac{\partial f(x)}{\partial x_1}\\\vdots\\\frac{\partial f(x)}{\partial x_n}\end{matrix}\right] f(x)=x1f(x)xnf(x)

梯度满足如下性质:

  1. ∇ ( f ( x ) + g ( x ) ) = ∇ f ( x ) + ∇ g ( x ) \nabla (f(x)+g(x))=\nabla f(x) + \nabla g(x) (f(x)+g(x))=f(x)+g(x)
  2. ∇ α f ( x ) = α ∇ f ( x ) \nabla \alpha f(x)=\alpha \nabla f(x) αf(x)=αf(x)
  3. ∇ f ( g ( x ) ) = ∇ g ( x ) ∇ f ( g ( x ) ) \nabla f(g(x))=\nabla g(x) \nabla f(g(x)) f(g(x))=g(x)f(g(x))

高维函数的二阶导

一般在优化问题中,需要对目标函数进行二阶 Taylor 展开:

f ( y ) = f ( x ) + ∇ f ( x ) T ( y − x ) + 1 2 ( y − x ) T ∇ 2 f ( x ) ( y − x ) + o ( ∥ y − x ∥ 2 ) f(y) = f(x)+\nabla f(x)^T(y-x)+\frac{1}{2}(y-x)^T\nabla^2 f(x)(y-x)+o(\|y-x\|^2) f(y)=f(x)+f(x)T(yx)+21(yx)T2f(x)(yx)+o(yx2)

这里就用到了高位函数的二阶导(Hessian矩阵)。

H = ∇ 2 f ( x ) = [ ∂ 2 f ( x ) ∂ x 1 ∂ x 1 ⋯ ∂ 2 f ( x ) ∂ x 1 ∂ x n ⋮ ⋱ ⋮ ∂ 2 f ( x ) ∂ x n ∂ x 1 ⋯ ∂ 2 f ( x ) ∂ x n ∂ x n ] ∈ R n × n H = \nabla^2 f(x) = \left[\begin{matrix}\frac{\partial^2 f(x)}{\partial x_1\partial x_1}&\cdots&\frac{\partial^2 f(x)}{\partial x_1\partial x_n} \\ \vdots&\ddots&\vdots\\ \frac{\partial^2 f(x)}{\partial x_n\partial x_1}&\cdots&\frac{\partial^2 f(x)}{\partial x_n\partial x_n}\end{matrix}\right]\in \R^{n\times n} H=2f(x)=x1x12f(x)xnx12f(x)x1xn2f(x)xnxn2f(x)Rn×n

Hessian 矩阵满足性质: H T = H H^T=H HT=H。对于对称矩阵,可以进行谱分解。严格凸函数来说,Hessian 一定对称正定的。根据对称矩阵谱分解的性质,可以推出Hessian 所有特征值都是正的。

Hessian 矩阵的性质:

  1. ∇ 2 α f ( x ) = α ∇ 2 f ( x ) \nabla^2 \alpha f(x) = \alpha\nabla^2 f(x) 2αf(x)=α2f(x)
  2. ∇ 2 ( f ( x ) + g ( x ) ) = ∇ 2 f ( x ) + ∇ 2 g ( x ) \nabla^2 (f(x)+g(x))=\nabla^2 f(x) + \nabla^2 g(x) 2(f(x)+g(x))=2f(x)+2g(x)

向量值函数

对于向量值函数 f ( x ) = [ f 1 ( x ) ⋮ f m ( x ) ] f(x)=\left[\begin{matrix}f_1(x)\\\vdots\\f_m(x)\end{matrix}\right] f(x)=f1(x)fm(x), 其中 x = [ x 1 ⋮ x n ] x=\left[\begin{matrix}x_1\\\vdots\\x_n\end{matrix}\right] x=x1xn ,这类函数经常作为凸优化中的约束函数出现。该函数的导函数为一个 Jacobi 矩阵:

∇ f ( x ) = [ ∂ f 1 ( x ) ∂ x 1 ⋯ ∂ f 1 ( x ) ∂ x n ⋮ ⋱ ⋮ ∂ f m ( x ) ∂ x 1 ⋯ ∂ f m ( x ) ∂ x n ] ∈ R m × n \nabla f(x) = \left[\begin{matrix}\frac{\partial f_1(x)}{\partial x_1}&\cdots&\frac{\partial f_1(x)}{\partial x_n} \\ \vdots&\ddots&\vdots\\ \frac{\partial f_m(x)}{\partial x_1}&\cdots&\frac{\partial f_m(x)}{\partial x_n}\end{matrix}\right]\in \R^{m\times n} f(x)=x1f1(x)x1fm(x)xnf1(x)xnfm(x)Rm×n

次梯度

对于 Lagrange 对偶问题来说,因为求解的是上界的下界,会有不连续点的出现,在这个时候,就会出现梯度不存在的情况。因此这里引入了次梯度的概念:

由凸函数满足的不等式:

f ( y ) ≥ ∇ f ( x ) T ( y − x ) f(y) \ge \nabla f(x)^T(y-x) f(y)f(x)T(yx)

可以类似的推出次梯度的形式:

f ( y ) ≥ g T ( y − x ) , ∀ y f(y)\ge g^T (y-x),\forall y f(y)gT(yx),y

给定 x x x ,满足上式的 g g g 的集合就是次梯度,记作 ∂ f = g \partial f=g f=g 。次梯度是一个集合,如果梯度存在,则次梯度内只存在一个元素:就是梯度本身。

次梯度满足的性质:

  1. ∂ ( α f ) = α ∂ f \partial (\alpha f)=\alpha\partial f (αf)=αf
  2. ∂ ( f 1 + f 2 ) = ∂ f 1 + ∂ f 2 \partial (f_1+f_2)=\partial f_1+\partial f_2 (f1+f2)=f1+f2
  3. g ( x ) = f ( A x + b ) g(x)=f(Ax+b) g(x)=f(Ax+b) 则: ∂ g ( x ) = A T ∂ f ( A x + b ) \partial g(x)=A^T\partial f(Ax+b) g(x)=ATf(Ax+b)注:这里形式上与梯度类似,但只限于仿射变换形式下才成立。

你可能感兴趣的:(凸优化与非线性规划)