凸优化 [2]:什么是凸函数——一阶与二阶条件

凸优化 [2]:什么是凸函数——一阶与二阶条件

定义: ∀ x , y ∈ X \forall x,y\in X x,yX ∀ α ∈ [ 0 , 1 ] \forall \alpha \in [0,1] α[0,1] 使得:
f ( α x + ( 1 − α ) y ) ≤ α f ( x ) + ( 1 − α ) f ( y ) convex f ( α x + ( 1 − α ) y ) < α f ( x ) + ( 1 − α ) f ( y ) strictly convex \begin{aligned} f(\alpha x+(1-\alpha)y)\le \alpha f(x)+(1-\alpha)f(y)&&\text{convex}\\ f(\alpha x+(1-\alpha)y)< \alpha f(x)+(1-\alpha)f(y)&&\text{strictly convex} \end{aligned} f(αx+(1α)y)αf(x)+(1α)f(y)f(αx+(1α)y)<αf(x)+(1α)f(y)convexstrictly convex
凸函数扩充到 R n \R^n Rn 中:
f ~ ( x ) = { f ( x ) if  x ∈ X ∞ otherwise \tilde f(x)=\begin{cases} f(x)&\text{if $x\in X$}\\ \infty&\text{otherwise} \end{cases} f~(x)={f(x)if xXotherwise

凸函数:函数为凸的条件

一阶充要条件:

f ( x ) ≥ f ( y ) + ∇ f ( y ) T ( x − y ) f(x)\ge f(y)+\nabla f(y)^T(x-y) f(x)f(y)+f(y)T(xy)

必要性:

由凸性可得:
f ( ( α x − α y ) + y ) ≤ α f ( x ) + ( 1 − α ) f ( y ) ⇓ ⇓ α f ( x ) ≥ f ( α ( x − y ) + y ) − ( 1 − α ) f ( y ) \begin{aligned} f((\alpha x - \alpha y) + y)&\le \alpha f(x)+(1-\alpha)f(y)\\ \Downarrow \Downarrow\\ \alpha f(x)&\ge f(\alpha (x-y) + y)-(1-\alpha) f(y) \end{aligned} f((αxαy)+y)αf(x)αf(x)+(1α)f(y)f(α(xy)+y)(1α)f(y)
两端除以 α \alpha α
f ( x ) ≥ f ( α ( x − y ) + y ) − ( 1 − α ) f ( y ) α = f ( y ) + f ( y + α ( x − y ) ) − f ( y ) α f(x)\ge \frac{f(\alpha (x-y) + y)-(1-\alpha) f(y)}{\alpha}=f(y)+\frac{f(y+\alpha (x-y))- f(y)}{\alpha} f(x)αf(α(xy)+y)(1α)f(y)=f(y)+αf(y+α(xy))f(y)
因为:(由一阶 Taylor 展开)
lim ⁡ α → 0 f ( y + α ( x − y ) ) − f ( y ) α = f ( y ) + α ∇ f ( y ) T ( x − y ) − f ( y ) α = ∇ f ( y ) T ( x − y ) \lim_{\alpha\rightarrow 0} \frac{f(y+\alpha (x-y))- f(y)}{\alpha}=\frac{f(y)+\alpha \nabla f(y)^T(x-y)- f(y)}{\alpha}=\nabla f(y)^T(x-y) α0limαf(y+α(xy))f(y)=αf(y)+αf(y)T(xy)f(y)=f(y)T(xy)
因此:
f ( x ) ≥ f ( y ) + ∇ f ( y ) T ( x − y ) f(x)\ge f(y)+\nabla f(y)^T(x-y) f(x)f(y)+f(y)T(xy)
得证 □ \square

充分性:

z = θ x + ( 1 − θ ) y z=\theta x+(1-\theta)y z=θx+(1θ)y
f ( x ) ≥ f ( z ) + ∇ f ( z ) T ( x − z ) f ( y ) ≥ f ( z ) + ∇ f ( z ) T ( y − z ) f(x)\ge f(z)+\nabla f(z)^T(x-z)\\ f(y)\ge f(z)+\nabla f(z)^T(y-z) f(x)f(z)+f(z)T(xz)f(y)f(z)+f(z)T(yz)
则:
θ f ( x ) + ( 1 − θ ) f ( y ) ≥ [ θ f ( z ) + θ ∇ f ( z ) T ( x − z ) ] + [ ( 1 − θ ) f ( z ) + ( 1 − θ ) ∇ f ( z ) T ( y − z ) ] ⇓ θ f ( x ) + ( 1 − θ ) f ( y ) ≥ f ( z ) \theta f(x)+(1-\theta)f(y)\ge\left[\theta f(z)+\theta\nabla f(z)^T(x-z)\right]+\left[(1-\theta) f(z)+(1-\theta)\nabla f(z)^T(y-z)\right]\\ \Downarrow\\ \theta f(x)+(1-\theta)f(y)\ge f(z) θf(x)+(1θ)f(y)[θf(z)+θf(z)T(xz)]+[(1θ)f(z)+(1θ)f(z)T(yz)]θf(x)+(1θ)f(y)f(z)
因此有:
θ f ( x ) + ( 1 − θ ) f ( y ) ≥ f ( θ x + ( 1 − θ ) y ) \theta f(x)+(1-\theta)f(y)\ge f(\theta x+(1-\theta)y) θf(x)+(1θ)f(y)f(θx+(1θ)y)
得证 □ \square

二阶充要条件:

∇ 2 f ( x ) ⪰ 0 \nabla^2 f(x) \succeq 0 2f(x)0

充分性:

由二阶 Taylor 展开:
f ( y ) = f ( x ) + ∇ f ( x ) T ( y − x ) + 1 2 ( y − x ) T ∇ 2 f ( x ) ( y − x ) + o ( ∥ y − x ∥ 2 ) f(y)=f(x)+\nabla f(x)^T (y-x) + \frac{1}{2}(y-x)^T \nabla^2f(x)(y-x)+o(\|y-x\|^2) f(y)=f(x)+f(x)T(yx)+21(yx)T2f(x)(yx)+o(yx2)
因为 ∇ 2 f ( x ) ⪰ 0 \nabla^2 f(x) \succeq 0 2f(x)0 ,恒成立:
1 2 ( y − x ) T ∇ 2 f ( x ) ( y − x ) ≥ 0 \frac{1}{2}(y-x)^T \nabla^2f(x)(y-x)\ge 0 21(yx)T2f(x)(yx)0
因此:
f ( y ) ≥ f ( x ) + ∇ f ( x ) T ( y − x ) f(y)\ge f(x) +\nabla f(x)^T(y-x) f(y)f(x)+f(x)T(yx)
由一阶条件,推出 f f f 为凸函数。 □ \square

必要性:

由二阶 Taylor 展开:
f ( y ) = f ( x ) + ∇ f ( x ) T ( y − x ) + 1 2 ( y − x ) T ∇ 2 f ( x ) ( y − x ) + o ( ∥ y − x ∥ 2 ) f(y)=f(x)+\nabla f(x)^T (y-x) + \frac{1}{2}(y-x)^T \nabla^2f(x)(y-x)+o(\|y-x\|^2) f(y)=f(x)+f(x)T(yx)+21(yx)T2f(x)(yx)+o(yx2)
已知函数 f f f 为凸函数,则由一阶充要条件:
f ( y ) ≥ f ( x ) + ∇ f ( x ) T ( y − x ) f(y)\ge f(x)+\nabla f(x)^T (y-x) f(y)f(x)+f(x)T(yx)
因此:
1 2 ( y − x ) T ∇ 2 f ( x ) ( y − x ) + o ( ∥ y − x ∥ 2 ) ≥ 0 \frac{1}{2}(y-x)^T \nabla^2f(x)(y-x)+o(\|y-x\|^2)\ge 0 21(yx)T2f(x)(yx)+o(yx2)0
Taylor 展开余项可忽略,因此 Hessian 矩阵要满足 ∀ ( y − x ) ∈ R n \forall (y-x)\in \R^n (yx)Rn 都成立,因此 ∇ 2 f ( x ) ⪰ 0 \nabla^2f(x)\succeq 0 2f(x)0

得证 □ \square

将不等式的等号去掉,就是严格凸函数的证明。

你可能感兴趣的:(凸优化与非线性规划,凸函数,线性代数)