最优化方法(学习笔记)-第三章凸函数

凸函数

  • 基本性质
    • 凸函数
    • 凸函数限制到直线(降维)
    • 凸函数f的延拓extended-value extension
    • Sublevel set
    • Epigraph
    • Jensen不等式
    • 小结(判定凸函数的5种方法)
  • 保凸运算
    • 非负权和nonegative weight sum
    • 仿射函数复合composition with affine function
    • 逐点最大Pointwise maximum
    • 逐点上界Pointwise supremum
    • 标量函数的耦合Composition with scalar functions
    • 向量的耦合Vector composition
    • 最小值Minimization
      • 舒尔补Schur complement-n×n方阵分块
    • 透射函数Perspective
    • 小结
  • 共轭函数Conjugate function
  • 次凸函数Quasiconvex|次凹函数Quasiconcave
  • 取log意义下的凹函数log-concave和凸函数log-convex
  • 广义不等关系的凸性
  • 总结

基本性质

凸函数

定义:
f : R n → R f:R^n\rightarrow R f:RnR是凸性的,需要符合以下条件

  • d o m f domf domf是凸性的
  • ∀ x , y ∈ d o m f , ∀ θ ∈ [ 0 , 1 ] , f ( θ x + ( 1 − θ ) y ) ≤ θ f ( x ) + ( 1 − θ ) f ( y ) \forall x,y\isin domf,\forall \theta\isin[0,1],f(\theta x+(1-\theta)y)\leq\theta f(x)+(1-\theta)f(y) x,ydomf,θ[0,1],f(θx+(1θ)y)θf(x)+(1θ)f(y)
  • 不等式没有等号的时候,就是严格凸函数
    最优化方法(学习笔记)-第三章凸函数_第1张图片
    性质:
    f f f是凸函数,那么 − f -f f是凹函数

例子: x ∈ R x\isin R xR

  • 凸函数
    • 仿射函数: a x + b , x ∈ R , ∀ a , b ∈ R ax+b,x\isin R,\forall a,b\isin R ax+b,xR,a,bR
    • 指数函数: e a x , ∀ a ∈ R e^{ax},\forall a\isin R eax,aR
    • 幂函数: x a , x ∈ R + + , ∀ a ∈ [ − ∞ , 0 ] ∪ [ 1 , + ∞ ] x^{a},x\isin R_{++},\forall a\isin[-\infty,0]\cup[1,+\infty] xa,xR++,a[,0][1,+]
    • P函数: ∣ x ∣ p , x ∈ R + + , ∀ p ∈ [ 1 , + ∞ ] |x|^{p},x\isin R_{++},\forall p\isin[1,+\infty] xp,xR++,p[1,+](幂函数带绝对值-偶函数)
    • 负熵函数: x log ⁡ x , x ∈ R + + x\log{x},x\isin R_{++} xlogx,xR++
  • 凹函数
    • 仿射函数: a x + b , x ∈ R , ∀ a , b ∈ R ax+b,x\isin R,\forall a,b\isin R ax+b,xR,a,bR
    • 幂函数: x a , x ∈ R , ∀ a ∈ [ 1 , + ∞ ] x^{a},x\isin R,\forall a\isin[1,+\infty] xa,xR,a[1,+]
    • log函数: log ⁡ x , x ∈ R + + \log{x},x\isin R_{++} logx,xR++

例子: x ∈ R n x\isin R^n xRn

  • 仿射函数(可凸可凹): f ( x ) = a T x + b f(x)=a^Tx+b f(x)=aTx+b
  • 范数: ∣ ∣ x ∣ ∣ p = ( ∑ i = 1 n ∣ x i ∣ p ) 1 p , p ∈ [ 1 , + ∞ ] , ∣ ∣ x ∣ ∣ ∞ = m a x k ∣ x k ∣ ||x||_p=(\sum_{i=1}^n|x_i|^p)^{\frac{1}{p}},p\isin[1,+\infty],||x||_\infty=max_k|x_k| xp=(i=1nxip)p1,p[1,+],x=maxkxk

例子: x ∈ R m × n x\isin R^{m\times n} xRm×n

  • 仿射函数(可凸可凹): f ( X ) = t r ( a T X ) + b = ∑ i = 1 m ∑ j = 1 n A i j X i j + b f(X)=tr(a^TX)+b=\sum\limits_{i=1}^m\sum\limits_{j=1}^nA_{ij}X_{ij}+b f(X)=tr(aTX)+b=i=1mj=1nAijXij+b
  • 最大奇异值范数spectral norm: f ( X ) = ∣ ∣ X ∣ ∣ 2 = σ m a x ( X ) = ( λ m a x ( X T X ) ) 1 2 f(X)=||X||_2=\sigma_{max}(X)=(\lambda_{max}(X^TX))^{\frac{1}{2}} f(X)=X2=σmax(X)=(λmax(XTX))21

凸函数限制到直线(降维)

f : R n → R f:R^n\rightarrow R f:RnR有凸性    ⟺    凸 函 数 g : R → R ( g ( t ) = f ( x + t v ) ) , d o m g = { t ∣ x + t v ∈ d o m f } , t ∈ R , x ∈ d o m f , x 是 原 点 , v ∈ R n , v 是 方 向 \iff 凸函数g:R\rightarrow R(g(t)=f(x+tv)),domg=\{t|x+tv\isin domf\},t\isin R,x\isin domf,x是原点,v\isin R^n,v是方向 g:RRg(t)=f(x+tv),domg={tx+tvdomf}tR,xdomf,x,vRn,v
也就是:高维凸函数    ⟺    \iff 高维函数的每个维度上都是凸函数

凸函数f的延拓extended-value extension

{ f ~ = f ( x ) , ∀ x ∈ d o m f f ~ = ∞ , x ∉ d o m f \begin{cases}\tilde{f}=f(x),\forall x\isin domf \\ \tilde{f}=\infty,x\notin domf \end{cases} {f~=f(x),xdomff~=,x/domf

  • 凸性定义法
    保持凸性——凸性的不等关系性质成立
    f ( θ x + ( 1 − θ ) y ) ~ ≤ θ f ( x ) ~ + ( 1 − θ ) f ( y ) ~ \widetilde{f(\theta x+(1-\theta)y)}\leq\theta\widetilde{f(x)}+(1-\theta)\widetilde{f(y)} f(θx+(1θ)y) θf(x) +(1θ)f(y)
    其中: { x ∣ f ( x ) ~ < ∞ }    ⟺    x ∈ d o m f \{x|\widetilde{f(x)}<\infty\}\iff x\isin domf {xf(x) <}xdomf
  • 函数性质判定凸性法
    • 一阶条件(first-order condition): f ( x ) 一 阶 可 微 ( d i f f e r e n t i a b l e ) , 定 义 域 ∀ x , y ∈ d o m f ( o p e n ) , 存 在 梯 度 ( 列 向 量 ) 是 ▽ f ( x ) = ( ∂ f ( x ) ∂ x 1 , ∂ f ( x ) ∂ x 2 , . . . , ∂ f ( x ) ∂ x n ) T 【 + 】 f ( y ) ≥ f ( x ) + ▽ f ( x ) T ( y − x )    ⟺    f 有 凸 性 f(x)一阶可微(differentiable),定义域\forall x,y\isin domf(open),存在梯度(列向量)是\triangledown{f(x)}=(\frac{\partial{f(x)}}{\partial{x_1}},\frac{\partial{f(x)}}{\partial{x_2}},...,\frac{\partial{f(x)}}{\partial{x_n}})^T【+】f(y)\geq f(x)+\triangledown{f(x)^T}(y-x) \iff f有凸性 f(x)(differentiable),x,ydomfopen()f(x)=(x1f(x),x2f(x),...,xnf(x))T+f(y)f(x)+f(x)T(yx)f
      证明:
      ∗ 1. n = 1 , 即 f ( y ) ≥ f ( x ) + f ′ ( x ) ( y − x ) *1.n=1,即f(y)\geq f(x)+f'(x)(y-x) 1.n=1,f(y)f(x)+f(x)(yx)
      ⟵ \longleftarrow (Assume:f is convex)
      给定条件: f ( x + t ( y − x ) ) ≤ ( 1 − t ) f ( x ) + t f ( y ) f(x+t(y-x))\leq(1-t)f(x)+tf(y) f(x+t(yx))(1t)f(x)+tf(y)
      目标: f ( y ) ≥ f ( x ) + f ′ ( x ) ( y − x ) f(y)\geq f(x)+f'(x)(y-x) f(y)f(x)+f(x)(yx)
      过程: f ( y ) ≥ f ( x + t ( y − x ) ) − ( 1 − t ) f ( x ) t = f ( x + t ( y − x ) ) − f ( x ) t + f ( x ) = f ( x ) + f ( x + t ( y − x ) ) − f ( x ) t ( y − x ) ( y − x ) = t → 0 f ( x ) + f ′ ( x ) ( y − x ) f(y)\geq\frac{f(x+t(y-x))-(1-t)f(x)}{t}=\frac{f(x+t(y-x))-f(x)}{t}+f(x)=f(x)+\frac{f(x+t(y-x))-f(x)}{t(y-x)}(y-x)\xlongequal{t\rightarrow 0}f(x)+f'(x)(y-x) f(y)tf(x+t(yx))(1t)f(x)=tf(x+t(yx))f(x)+f(x)=f(x)+t(yx)f(x+t(yx))f(x)(yx)t0 f(x)+f(x)(yx)
      ⟶ \longrightarrow (Assume:不等式成立)
      给定条件: f ( y ) ≥ f ( x ) + f ′ ( x ) ( y − x ) f(y)\geq f(x)+f'(x)(y-x) f(y)f(x)+f(x)(yx)
      目标: f ( θ x + ( 1 − θ ) y ) ≤ θ f ( x ) + ( 1 − θ ) f ( y ) f(\theta x+(1-\theta)y)\leq\theta f(x)+(1-\theta)f(y) f(θx+(1θ)y)θf(x)+(1θ)f(y)
      过程:利用中间点 z = θ x + ( 1 − θ ) y z=\theta x+(1-\theta)y z=θx+(1θ)y,存在 f ( y ) ≥ f ( z ) + f ′ ( z ) ( y − z ) , f ( x ) ≥ f ( z ) + f ′ ( z ) ( x − z ) f(y)\geq f(z)+f'(z)(y-z),f(x)\geq f(z)+f'(z)(x-z) f(y)f(z)+f(z)(yz),f(x)f(z)+f(z)(xz)
      f ( y ) 同 乘 ( 1 − θ ) , ( 1 − θ ) f ( y ) ≥ ( 1 − θ ) [ f ( z ) + f ′ ( z ) ( y − z ) ] f(y)同乘(1-\theta),(1-\theta)f(y)\geq (1-\theta)[f(z)+f'(z)(y-z)] f(y)(1θ)(1θ)f(y)(1θ)[f(z)+f(z)(yz)]
      f ( x ) 同 乘 θ , θ f ( x ) ≥ θ [ f ( z ) + f ′ ( z ) ( x − z ) ] f(x)同乘\theta,\theta f(x)\geq \theta [f(z)+f'(z)(x-z)] f(x)θθf(x)θ[f(z)+f(z)(xz)]
      两 式 相 加 , ( 1 − θ ) f ( y ) + θ f ( x ) ≥ f ( z ) 两式相加,(1-\theta)f(y)+\theta f(x)\geq f(z) (1θ)f(y)+θf(x)f(z)
      ∗ 2. n > 1 , x ∈ R n *2.n>1,x\isin R^n 2.n>1,xRn
      g ( t ) = f ( t y + ( 1 − t ) x ) , 所 以 g ′ ( t ) = ▽ f ( t y + ( 1 − t ) x ) T ( y − x ) g(t)=f(ty+(1-t)x),所以g'(t)=\triangledown f(ty+(1-t)x)^T(y-x) g(t)=f(ty+(1t)x)g(t)=f(ty+(1t)x)T(yx)
      ⟵ \longleftarrow (Assume:f is convex,then g is convex)
      给定条件: g ( t ) 凸 性 定 义 : g ( t ) ≥ g ( τ ) + g ′ ( τ ) ( t − τ ) [ 一 维 的 时 候 ] g(t)凸性定义:g(t)\geq g(\tau)+g'(\tau)(t-\tau)[一维的时候] g(t)g(t)g(τ)+g(τ)(tτ)[]
      目标: f ( y ) ≥ f ( x ) + ▽ f ( x ) T ( y − x ) f(y)\geq f(x)+\triangledown f(x)^T(y-x) f(y)f(x)+f(x)T(yx)
      过程:​​​ 若 t = 1 , τ = 0 , 有 g ( 1 ) ≥ g ( 0 ) + g ′ ( 0 ) ( 1 − 0 ) 若t=1,\tau=0,有g(1)\geq g(0)+g'(0)(1-0) t=1,τ=0,g(1)g(0)+g(0)(10)
      将 值 带 回 f 函 数 有 f ( y ) ≥ f ( x ) + ▽ f ( x ) T ( y − x ) 将值带回f函数有f(y)\geq f(x)+\triangledown f(x)^T(y-x) ff(y)f(x)+f(x)T(yx),不等式成立
      ⟶ \longrightarrow (Assume:不等式成立)
      给定条件: f ( y ) ≥ f ( x ) + ▽ f ( x ) T ( y − x ) f(y)\geq f(x)+\triangledown f(x)^T(y-x) f(y)f(x)+f(x)T(yx)
      目标: ∀ t , τ ∈ R , g ( t ) ≥ g ( τ ) + g ′ ( τ ) ( t − τ ) [ g 函 数 有 凸 性 ]    ⟺    f ( t y + ( 1 − t ) x ) ≥ f ( τ y + ( 1 − τ ) x ) + ▽ f ( τ y + ( 1 − τ ) x ) T ( y − x ) ( t − τ ) \forall t,\tau\isin R,g(t)\geq g(\tau)+g'(\tau)(t-\tau)[g函数有凸性]\iff f(ty+(1-t)x)\geq f(\tau y+(1-\tau)x)+\triangledown{f(\tau y+(1-\tau)x)^T}(y-x)(t-\tau) t,τR,g(t)g(τ)+g(τ)(tτ)[g]f(ty+(1t)x)f(τy+(1τ)x)+f(τy+(1τ)x)T(yx)(tτ)
      过程:令 Y = t y + ( 1 − t ) x , X = τ y + ( 1 − τ ) x , B = Y − X Y=ty+(1-t)x,X=\tau y+(1-\tau)x,B=Y-X Y=ty+(1t)x,X=τy+(1τ)x,B=YX
      所以 f ( t y + ( 1 − t ) x ) ≥ f ( τ y + ( 1 − τ ) x ) + ▽ f ( τ y + ( 1 − τ ) x ) T ∗ B f(ty+(1-t)x)\geq f(\tau y+(1-\tau)x)+\triangledown{f(\tau y+(1-\tau)x)^T}*B f(ty+(1t)x)f(τy+(1τ)x)+f(τy+(1τ)x)TB
      B = Y − X = t y + ( 1 − t ) x − [ τ y + ( 1 − τ ) x ] = t y + x − t x − τ y − x + τ x = t ( y − x ) − τ ( y − x ) = ( y − x ) ( t − τ ) B=Y-X=ty+(1-t)x-[\tau y+(1-\tau)x]=ty+x-tx-\tau y-x+\tau x=t(y-x)-\tau(y-x)=(y-x)(t-\tau) B=YX=ty+(1t)x[τy+(1τ)x]=ty+xtxτyx+τx=t(yx)τ(yx)=(yx)(tτ),凸性成立
    • 二阶条件(second-order condition): f ( x ) 二 阶 可 微 ( t w i c e   d i f f e r e n t i a b l e ) , 定 义 域 ∀ x ∈ d o m f ( o p e n ) , 存 在 二 阶 导 数 ( 矩 阵 ) ▽ 2 f ( x ) i j = ∂ 2 f ( x ) ∂ x i ∂ x j , i , j = 1 , . . . , n 【 + 】 定 义 域 d o m f 是 凸 的 , 二 阶 导 数 是 正 定 ▽ 2 f ( x ) ≥ 0    ⟺    f 有 凸 性 ( ≥ 0 ) f(x)二阶可微(twice\space differentiable),定义域\forall x\isin domf(open),存在二阶导数(矩阵)\triangledown^2{f(x)_{ij}}=\frac{\partial^2{f(x)}}{\partial{x_i}\partial{x_j}},i,j=1,...,n【+】定义域domf是凸的,二阶导数是正定\triangledown^2{f(x)}\geq 0 \iff f有凸性(\geq 0) f(x)(twice differentiable)xdomfopen()2f(x)ij=xixj2f(x),i,j=1,...,n+domf2f(x)0f(0)
      例子
      • 二次函数quadratic function: f ( x ) = 1 2 x T P x + q T x + r , P ∈ S n f(x)=\frac{1}{2}x^TPx+q^Tx+r,P\isin S^n f(x)=21xTPx+qTx+r,PSn,二阶导系数矩阵 ▽ 2 f ( x ) = P \triangledown^2{f(x)}=P 2f(x)=P是对称矩阵(特征值是实数),再要求 P ≥ 0 P\geq 0 P0(特征值大于等于0)
      • 最小二乘目标least-squares objective: f ( x ) = ∣ ∣ A x − b ∣ ∣ 2 2 , ▽ f ( x ) = 2 A T ( A x − b ) , ▽ 2 f ( x ) = 2 A T A f(x)=||Ax-b||_2^2,\triangledown{f(x)}=2A^T(Ax-b),\triangledown^2{f(x)}=2A^TA f(x)=Axb22,f(x)=2AT(Axb),2f(x)=2ATA(特征值一定大于等于0)
      • 二次线性quadratic-over-linear: f ( x , y ) = x 2 y , y > 0 , ▽ 2 f ( x , y ) = [ ∂ 2 f ( x , y ) ∂ x 2 ∂ 2 f ( x , y ) ∂ x ∂ y ∂ 2 f ( x , y ) ∂ y ∂ x ∂ 2 f ( x , y ) ∂ y 2 ] = [ 2 y − 2 x y 2 − 2 x y 2 2 x 2 y 3 ] = 2 y 3 [ y 2 − x y − x y x 2 ] = 2 y 3 [ y − x ] [ y − x ] T ≥ 0 f(x,y)=\frac{x^2}{y},y>0,\triangledown^2{f(x,y)}=\begin{bmatrix}\frac{\partial^2{f(x,y)}}{\partial{x}^2} & \frac{\partial^2{f(x,y)}}{\partial{x}\partial{y}} \\ \frac{\partial^2{f(x,y)}}{\partial{y}\partial{x}} & \frac{\partial^2{f(x,y)}}{\partial{y}^2} \end{bmatrix}=\begin{bmatrix}\frac{2}{y} & -\frac{2x}{y^2} \\ -\frac{2x}{y^2} & \frac{2x^2}{y^3} \end{bmatrix}=\frac{2}{y^3}\begin{bmatrix}y^2 & -xy \\ -xy & x^2 \end{bmatrix}=\frac{2}{y^3}\begin{bmatrix}y \\ -x \end{bmatrix}{\begin{bmatrix}y \\ -x \end{bmatrix}}^T\geq 0 f(x,y)=yx2,y>0,2f(x,y)=[x22f(x,y)yx2f(x,y)xy2f(x,y)y22f(x,y)]=[y2y22xy22xy32x2]=y32[y2xyxyx2]=y32[yx][yx]T0
      • 对数的偏分函数(softmax): f ( x ) = − log ⁡ ∑ k = 1 n exp ⁡ x k , 设 z k = e x k = exp ⁡ x k , ▽ 2 f ( x ) = 1 1 T z d i a g ( z ) − 1 ( 1 T z ) 2 z z T f(x)=-\log\sum\limits_{k=1}^n \exp x_k,设z_k=e^{x_k}=\exp x_k,\triangledown^2{f(x)}=\frac{1}{1^Tz}diag(z)-\frac{1}{(1^Tz)^2}zz^T f(x)=logk=1nexpxk,zk=exk=expxk,2f(x)=1Tz1diag(z)(1Tz)21zzT

Sublevel set

定义: α − s u b l e v e l   s e t   o f   f : R n → R , C α = { x ∈ d o m f ∣ f ( x ) ≤ α } \alpha-sublevel\space set\space of\space f:R^n\rightarrow R,C_{\alpha}=\{x\isin domf| f(x)\leq \alpha\} αsublevel set of f:RnR,Cα={xdomff(x)α}(要求区间是连续的)
凸函数的Sublevel set是凸性的(其逆函数不一定)
最优化方法(学习笔记)-第三章凸函数_第2张图片

Epigraph

定义: e p i   o f   f : R n → R , e p i   f = { ( x , t ) ∈ R n + 1 ∣ x ∈ d o m f , f ( x ) ≤ t } epi\space of\space f:R^n\rightarrow R,epi\space f=\{(x,t)\isin R^{n+1}| x\isin domf,f(x)\leq t\} epi of f:RnR,epi f={(x,t)Rn+1xdomf,f(x)t}(要求区间是连续的)
f 是 凸 函 数    ⟺    e p i   f 是 凸 集 f是凸函数\iff epi\space f是凸集 fepi f
最优化方法(学习笔记)-第三章凸函数_第3张图片
例子(epigraph与一阶导数的关系):
一维情况:已知 x 2 x^2 x2函数的切线(类似支撑面),切点, e p i f epi f epif集合
切线的法向量: ( ▽ f ( x ) , − 1 ) (\triangledown{f(x)},-1) (f(x),1)
tan ⁡ θ = d f d x ∣ x = x = ▽ f ( x ) 1 \tan{\theta}=\frac{df}{dx}|_{x=x}=\frac{\triangledown{f(x)}}{1} tanθ=dxdfx=x=1f(x)
最优化方法(学习笔记)-第三章凸函数_第4张图片

若有点 ( y , t ) , 存 在 t ≥ f ( y ) ≥ f ( x ) + ▽ f ( x ) T ( y − x ) (y,t),存在t\geq f(y)\geq f(x)+\triangledown{f(x)}^T(y-x) (y,t),tf(y)f(x)+f(x)T(yx)
前一个不等式是因为epigraph,后一个不等式是因为一阶导数的性质
所以推导: − ( t − f ( x ) ) + ▽ f ( x ) T ( y − x ) ≤ 0    ⟹    [ ▽ f ( x ) − 1 ] T [ y − x t − f ( x ) ] ≤ 0 -(t-f(x))+\triangledown{f(x)}^T(y-x)\leq 0\implies \begin{bmatrix}\triangledown{f(x)} \\ -1 \end{bmatrix}^T\begin{bmatrix}y-x \\ t-f(x) \end{bmatrix}\leq 0 (tf(x))+f(x)T(yx)0[f(x)1]T[yxtf(x)]0(就是两个蓝色的向量内积是小于0的)

Jensen不等式

定义-基本:
∀ θ ∈ [ 0 , 1 ] , 凸 函 数 f , f ( θ x + ( 1 − θ ) y ) ≤ θ f ( x ) + ( 1 − θ ) f ( y ) \forall \theta\isin[0,1],凸函数f,f(\theta x+(1-\theta)y)\leq\theta f(x)+(1-\theta)f(y) θ[0,1]ff(θx+(1θ)y)θf(x)+(1θ)f(y)
定义-扩展:
f ( ∑ i = 1 n θ i x i ) ≤ ∑ i = 1 n θ i f ( x i ) , ∑ i = 1 n θ i = 1 , θ i ∈ [ 0 , 1 ] f(\sum\limits_{i=1}^n\theta_ix_i)\leq\sum\limits_{i=1}^n\theta_if(x_i),\sum\limits_{i=1}^n\theta_i=1,\theta_i\isin[0,1] f(i=1nθixi)i=1nθif(xi),i=1nθi=1,θi[0,1]
考 虑 随 机 取 值 的 情 况 : f ( 1 n ∑ i = 1 n x i ) ≤ 1 n ∑ i = 1 n f ( x i ) , 于 是 f ( E X ) ≤ E f ( x ) 考虑随机取值的情况:f(\frac{1}{n}\sum\limits_{i=1}^nx_i)\leq \frac{1}{n}\sum\limits_{i=1}^nf(x_i),于是f(EX)\leq Ef(x) f(n1i=1nxi)n1i=1nf(xi)f(EX)Ef(x)

小结(判定凸函数的5种方法)

  • 定义法:
    f : R n → R f:R^n\rightarrow R f:RnR是凸函数    ⟺    d o m f \iff domf domf定义域是凸的, ∀ x , y ∈ d o m f , ∀ θ ∈ [ 0 , 1 ] , f ( θ x + ( 1 − θ ) y ) ≤ θ f ( x ) + ( 1 − θ ) f ( y ) \forall x,y\isin domf,\forall \theta\isin[0,1],f(\theta x+(1-\theta)y)\leq\theta f(x)+(1-\theta)f(y) x,ydomf,θ[0,1],f(θx+(1θ)y)θf(x)+(1θ)f(y)
  • 高维限制法:
    f : R n → R f:R^n\rightarrow R f:RnR是凸函数    ⟺    凸 函 数 g : R → R ( g ( t ) = f ( x + t v ) ) , d o m g = { t ∣ x + t v ∈ d o m f } 是 凸 集 , t ∈ R , x ∈ d o m f , x 是 原 点 , v ∈ R n , v 是 方 向 \iff 凸函数g:R\rightarrow R(g(t)=f(x+tv)),dom g=\{t|x+tv\isin domf\}是凸集,t\isin R,x\isin domf,x是原点,v\isin R^n,v是方向 g:RRg(t)=f(x+tv),domg={tx+tvdomf}tR,xdomf,x,vRn,v
  • 一阶条件法:
    f ( x ) 一 阶 可 微 ( d i f f e r e n t i a b l e ) , 定 义 域 ∀ x , y ∈ d o m f ( o p e n ) , 定 义 域 d o m f 是 凸 的 , 存 在 梯 度 ( 列 向 量 ) 是 ▽ f ( x ) = ( ∂ f ( x ) ∂ x 1 , ∂ f ( x ) ∂ x 2 , . . . , ∂ f ( x ) ∂ x n ) T , f 是 凸 函 数    ⟺    f ( y ) ≥ f ( x ) + ▽ f ( x ) T ( y − x ) f(x)一阶可微(differentiable),定义域\forall x,y\isin domf(open),定义域domf是凸的,存在梯度(列向量)是\triangledown{f(x)}=(\frac{\partial{f(x)}}{\partial{x_1}},\frac{\partial{f(x)}}{\partial{x_2}},...,\frac{\partial{f(x)}}{\partial{x_n}})^T,f是凸函数\iff f(y)\geq f(x)+\triangledown{f(x)^T}(y-x) f(x)(differentiable),x,ydomfopen,domf()f(x)=(x1f(x),x2f(x),...,xnf(x))Tff(y)f(x)+f(x)T(yx)
  • 二阶条件法:
    f ( x ) 二 阶 可 微 ( t w i c e   d i f f e r e n t i a b l e ) , 定 义 域 ∀ x ∈ d o m f ( o p e n ) , 定 义 域 d o m f 是 凸 的 , 存 在 二 阶 导 数 ( 矩 阵 ) ▽ 2 f ( x ) i j = ∂ 2 f ( x ) ∂ x i ∂ x j , i , j = 1 , . . . , n , f 是 凸 函 数 ( ≥ 0 )    ⟺    二 阶 导 数 是 正 定 ▽ 2 f ( x ) ≥ 0 f(x)二阶可微(twice\space differentiable),定义域\forall x\isin domf(open),定义域domf是凸的,存在二阶导数(矩阵)\triangledown^2{f(x)_{ij}}=\frac{\partial^2{f(x)}}{\partial{x_i}\partial{x_j}},i,j=1,...,n,f是凸函数(\geq 0)\iff 二阶导数是正定\triangledown^2{f(x)}\geq 0 f(x)(twice differentiable)xdomfopen,domf()2f(x)ij=xixj2f(x),i,j=1,...,n,f(0)2f(x)0
  • epi图法:
    f : R n → R f:R^n\rightarrow R f:RnR是凸函数    ⟺    e p i   o f   f : R n → R , e p i   f = { ( x , t ) ∈ R n + 1 ∣ x ∈ d o m f , f ( x ) ≤ t } \iff epi\space of\space f:R^n\rightarrow R,epi\space f=\{(x,t)\isin R^{n+1}| x\isin domf,f(x)\leq t\} epi of f:RnR,epi f={(x,t)Rn+1xdomf,f(x)t}(要求区间是连续的)是凸的

保凸运算

非负权和nonegative weight sum

定义:
逐点求和:
α i ≥ 0 , f i 是 凸 函 数 → f ( x ) = ∑ i = 1 k α i f i 是 凸 函 数 \alpha_i\geq 0,f_i是凸函数\rightarrow f(x)=\sum\limits_{i=1}^k\alpha_if_i是凸函数 αi0,fif(x)=i=1kαifi(线性变换保凸)
求和转变为积分形式
无穷点求和:
f ( x ) 是 凸 函 数 , ∀ y , w ( y ) ≥ 0 → g ( x ) = ∫ Ω f ( x , y ) w ( y ) d y 是 凸 函 数 f(x)是凸函数,\forall y,w(y)\geq 0\rightarrow g(x)=\int_\Omega f(x,y)w(y)dy是凸函数 f(x),y,w(y)0g(x)=Ωf(x,y)w(y)dy

类似两个凸函数交集的部分子集:
最优化方法(学习笔记)-第三章凸函数_第5张图片

仿射函数复合composition with affine function

定义:
f ( x ) 是 凸 函 数 → f ( A x + b ) 是 凸 函 数 f(x)是凸函数\rightarrow f(Ax+b)是凸函数 f(x)f(Ax+b)

例子:

  • log barrier
    f ( x ) = − ∑ i = 1 m log ⁡ ( b i − a i T x ) , d o m f = { x ∣ b i − a i T x > 0 , ∀ i } f(x)=-\sum\limits_{i=1}^m\log{(b_i-a_i^Tx)},dom f=\{x|b_i-a_i^Tx>0,\forall i\} f(x)=i=1mlog(biaiTx),domf={xbiaiTx>0,i}
  • norm of affine function
    f ( x ) = ∣ ∣ A x + b ∣ ∣ f(x)=||Ax+b|| f(x)=Ax+b

逐点最大Pointwise maximum

定义:
f 1 ( x ) , f 2 ( x ) 是 凸 函 数 → f ( x ) = m a x { f 1 ( x ) , f 2 ( x ) } 是 凸 函 数 f_1(x),f_2(x)是凸函数\rightarrow f(x)=max\{f_1(x),f_2(x)\}是凸函数 f1(x),f2(x)f(x)=max{f1(x),f2(x)}
例子:
x ∈ R m , X [ 1 ] > X [ 2 ] > . . . > X [ n ] , f ( x ) = max ⁡ { x i 1 + x i 2 + . . . + x i r ∣ 1 ≤ i 1 < i 2 < . . . < i r ≤ n } 是 凸 函 数 x\isin R^m,X_[1]>X_[2]>...>X_[n],f(x)=\max\{x_{i_1}+x_{i_2}+...+x_{i_r}|1\leq i_1xRm,X[1]>X[2]>...>X[n]f(x)=max{xi1+xi2+...+xir1i1<i2<...<irn}

逐点上界Pointwise supremum

定义:
∀ y ∈ A , f ( x , y ) 对 x 是 凸 函 数 → g ( x ) = sup ⁡ y ∈ A f ( x , y ) 是 凸 函 数 ( g 是 f 关 于 y 求 极 值 的 函 数 ) \forall y\isin A,f(x,y)对x是凸函数\rightarrow g(x)=\sup\limits_{y\isin A}f(x,y)是凸函数(g是f关于y求极值的函数) yAf(x,y)xg(x)=yAsupf(x,y)gfy
例子:

  • 集合C的support function: x 是 凸 函 数 → S C ( x ) = sup ⁡ y ∈ C y T x 是 凸 函 数 x是凸函数\rightarrow S_C(x)=\sup\limits_{y\isin C}y^Tx是凸函数 xSC(x)=yCsupyTx
  • 集合C的最远距离: 求 范 数 是 凸 函 数 → f ( x ) = sup ⁡ y ∈ C ∣ ∣ x − y ∣ ∣ 求范数是凸函数\rightarrow f(x)=\sup\limits_{y\isin C}||x-y|| f(x)=yCsupxy
  • 对称矩阵( X ∈ S n X\isin S^n XSn)的最大特征值(eigenvalue): 对 称 矩 阵 X 线 性 仍 是 凸 函 数 → λ m a x ( X ) = sup ⁡ ∣ ∣ y ∣ ∣ 2 = 1 y T X y 对称矩阵X线性仍是凸函数\rightarrow \lambda_{max}(X)=\sup\limits_{||y||_2=1}y^TXy X线λmax(X)=y2=1supyTXy

标量函数的耦合Composition with scalar functions

定义:
g : R n → R , h : R → R , f ( x ) = h ( g ( x ) ) , f ′ ( x ) = h ′ ( g ( x ) ) g ′ ( x ) , f ′ ′ ( x ) = h ′ ′ ( g ( x ) ) ( g ′ ( x ) ) 2 + h ′ ( g ( x ) ) g ′ ′ ( x ) g:R^n\rightarrow R,h:R\rightarrow R,f(x)=h(g(x)),f'(x)=h'(g(x))g'(x),f''(x)=h''(g(x))(g'(x))^2+h'(g(x))g''(x) g:RnRh:RRf(x)=h(g(x))f(x)=h(g(x))g(x)f(x)=h(g(x))(g(x))2+h(g(x))g(x)
[ 1 ] . g 是 凸 函 数 ( g ′ ′ ≥ 0 ) , h 的 延 拓 h ~ 是 非 递 减 的 ( h ′ ≥ 0 ) , h 是 凸 函 数 ( f ′ ′ ≥ 0 ) [1].g是凸函数(g''\geq 0),h的延拓\tilde{h}是非递减的(h'\geq 0),h是凸函数(f''\geq 0) [1].g(g0)hh~(h0)h(f0)
[ 2 ] . g 是 凹 函 数 ( g ′ ′ ≤ 0 ) , h 的 延 拓 h ~ 是 非 递 增 的 ( h ′ ≤ 0 ) , h 是 凸 函 数 ( f ′ ′ ≥ 0 ) [2].g是凹函数(g''\leq 0),h的延拓\tilde{h}是非递增的(h'\leq 0),h是凸函数(f''\geq 0) [2].g(g0)hh~(h0)h(f0)
→ f ( x ) 是 凸 函 数 ( f ′ ′ ( x ) ≥ 0 ) \rightarrow f(x)是凸函数(f''(x)\geq 0) f(x)(f(x)0)

证明:
x , y ∈ d o m g , f ( x ) = h ( g ( x ) ) , 证 明 条 件 [ 1 ] 成 立 x,y\isin domg,f(x)=h(g(x)),证明条件[1]成立 x,ydomg,f(x)=h(g(x)),[1]
1. g 是 凸 函 数 , 所 以 g ( θ x + ( 1 − θ ) y ) ≤ θ g ( x ) + ( 1 − θ ) g ( y ) 1.g是凸函数,所以g(\theta x+(1-\theta)y)\leq \theta g(x)+(1-\theta)g(y) 1.gg(θx+(1θ)y)θg(x)+(1θ)g(y)
2. h 是 凸 函 数 , 所 以 h ( g ( θ x + ( 1 − θ ) y ) ) ≤ h ( θ g ( x ) + ( 1 − θ ) g ( y ) ) ≤ θ h ( g ( x ) ) + ( 1 − θ ) h ( g ( y ) ) 2.h是凸函数,所以h(g(\theta x+(1-\theta)y))\leq h(\theta g(x)+(1-\theta)g(y))\leq \theta h(g(x))+(1-\theta)h(g(y)) 2.hh(g(θx+(1θ)y))h(θg(x)+(1θ)g(y))θh(g(x))+(1θ)h(g(y))
3. 根 据 延 拓 h ~ 的 定 义 , 若 g ( x ) ∉ d o m h , 那 么 h ( g ( x ) ) = ∞ , 上 述 不 等 式 也 成 立 , 于 是 f ( θ x + ( 1 − θ ) y ) ≤ θ f ( x ) + ( 1 − θ ) f ( y ) , f 是 凸 函 数 3.根据延拓\tilde{h}的定义,若g(x)\notin domh,那么h(g(x))=\infty,上述不等式也成立,于是f(\theta x+(1-\theta)y)\leq\theta f(x)+(1-\theta)f(y),f是凸函数 3.h~g(x)/domh,h(g(x))=f(θx+(1θ)y)θf(x)+(1θ)f(y)f

例子:

  • g ( x ) 是 凸 函 数 → exp ⁡ g ( x ) 是 凸 函 数 g(x)是凸函数\rightarrow \exp{g(x)}是凸函数 g(x)expg(x)
  • g ( x ) 是 凹 函 数 , g ( x ) > 0 → 1 g ( x ) 是 凸 函 数 g(x)是凹函数,g(x)>0\rightarrow \frac{1}{g(x)}是凸函数 g(x)g(x)>0g(x)1

向量的耦合Vector composition

定义:
g : R n → R k , h : R k → R , f ( x ) = h ( g ( x ) ) = h ( g 1 ( x ) , g 2 ( x ) , . . . , g k ( x ) ) g:R^n\rightarrow R^k,h:R^k\rightarrow R,f(x)=h(g(x))=h(g_1(x),g_2(x),...,g_k(x)) g:RnRkh:RkRf(x)=h(g(x))=h(g1(x),g2(x),...,gk(x))
回 顾 多 元 函 数 二 阶 导 数 因 子 : ▽ 2 f ( x ) i j = ∂ 2 f ( x ) ∂ x i ∂ x j 回顾多元函数二阶导数因子:\triangledown^2{f(x)_{ij}}=\frac{\partial^2{f(x)}}{\partial{x_i}\partial{x_j}} 2f(x)ij=xixj2f(x)
f ′ ′ ( x ) = g ′ ( x ) T ▽ 2 h ( g ( x ) ) g ′ ( x ) + ▽ h ( g ( x ) ) T g ′ ′ ( x ) f''(x)=g'(x)^T\triangledown^2{h(g(x))}g'(x)+\triangledown h(g(x))^Tg''(x) f(x)=g(x)T2h(g(x))g(x)+h(g(x))Tg(x)
[ 1 ] . g i 是 凸 函 数 , h 的 延 拓 h ~ 是 非 递 减 的 , h 是 凸 函 数 [1].g_i是凸函数,h的延拓\tilde{h}是非递减的,h是凸函数 [1].gihh~h
[ 2 ] . g i 是 凹 函 数 , h 的 延 拓 h ~ 是 非 递 增 的 , h 是 凸 函 数 [2].g_i是凹函数,h的延拓\tilde{h}是非递增的,h是凸函数 [2].gihh~h
→ f ( x ) 是 凸 函 数 ( f ′ ′ ( x ) ≥ 0 ) \rightarrow f(x)是凸函数(f''(x)\geq 0) f(x)(f(x)0)

例子:

  • g i ( x ) 是 凹 函 数 , g i ( x ) > 0 → ∑ i = 1 m log ⁡ g i ( x ) 是 凹 函 数 , 加 上 负 号 凹 凸 性 改 变 g_i(x)是凹函数,g_i(x)>0\rightarrow \sum\limits_{i=1}^m\log g_i(x)是凹函数,加上负号凹凸性改变 gi(x)gi(x)>0i=1mloggi(x)
  • g i ( x ) 是 凸 函 数 → log ⁡ ∑ i = 1 m exp ⁡ g i ( x ) 是 凸 函 数 ( 二 阶 导 非 负 ) g_i(x)是凸函数\rightarrow \log{\sum\limits_{i=1}^m\exp g_i(x)}是凸函数(二阶导非负) gi(x)logi=1mexpgi(x)

最小值Minimization

定义:
f ( x , y ) 对 ( x , y ) 都 满 足 凸 函 数 , C 是 凸 集 → g ( x ) = inf ⁡ y ∈ C f ( x , y ) 是 凸 函 数 f(x,y)对(x,y)都满足凸函数,C是凸集\rightarrow g(x)=\inf\limits_{y\isin C}f(x,y)是凸函数 f(x,y)(x,y)Cg(x)=yCinff(x,y)

例子:
高 维 倾 斜 二 次 型 函 数 : f ( x ) = x T A x + 2 x T B y + y T C y 高维倾斜二次型函数:f(x)=x^TAx+2x^TBy+y^TCy f(x)=xTAx+2xTBy+yTCy
f ( x ) 的 二 阶 导 [ A B B T C ] ≥ 0 , C > 0 → f ( x ) 是 凸 函 数 f(x)的二阶导\begin{bmatrix}A & B \\ B^T & C\end{bmatrix}\geq 0,C>0\rightarrow f(x)是凸函数 f(x)[ABTBC]0C>0f(x)
f ( x , y ) 对 于 y 进 行 最 小 化 , g ( x ) = inf ⁡ y ∈ C f ( x , y ) = x T ( A − B C − 1 B T ) x 根 据 保 凸 运 算 可 知 g 是 凸 函 数 , 所 以 其 系 数 矩 阵 ( 舒 尔 补 ) 是 半 正 定 的 ( A − B C − 1 B T ≥ 0 ) f(x,y)对于y进行最小化,g(x)=\inf\limits_{y\isin C}f(x,y)=x^T(A-BC^{-1}B^T)x根据保凸运算可知g是凸函数,所以其系数矩阵(舒尔补)是半正定的(A-BC^{-1}B^T\geq 0) f(x,y)yg(x)=yCinff(x,y)=xT(ABC1BT)xg()(ABC1BT0)

舒尔补Schur complement-n×n方阵分块

分块形式: M = [ A B C D ] n × n M=\begin{bmatrix}A & B \\ C & D\end{bmatrix}_{n\times n} M=[ACBD]n×n
其 中 A , D 是 方 阵 其中 A,D是方阵 AD
A 是 非 奇 异 的 , 则 A 在 M 中 的 舒 尔 补 : D − C A − 1 B A是非奇异的,则A在M中的舒尔补:D-CA^{-1}B AAMDCA1B(顺时针排列)
D 是 非 奇 异 的 , 则 D 在 M 中 的 舒 尔 补 : A − B D − 1 C D是非奇异的,则D在M中的舒尔补:A-BD^{-1}C DDMABD1C(顺时针排列)
本质:
A 是 非 奇 异 的 , 则 对 A 做 初 等 对 角 化 : [ I 0 − C A − 1 I ] [ A B C D ] [ I − A − 1 B 0 I ] = [ A 0 0 D − C A − 1 B ] A是非奇异的,则对A做初等对角化:\begin{bmatrix}I & 0 \\ -CA^{-1} & I\end{bmatrix}\begin{bmatrix}A & B \\ C & D\end{bmatrix}\begin{bmatrix}I & -A^{-1}B \\ 0 & I\end{bmatrix}=\begin{bmatrix}A & 0 \\ 0 & D-CA^{-1}B\end{bmatrix} AA[ICA10I][ACBD][I0A1BI]=[A00DCA1B]
得到行列式: ∣ A B C D ∣ = ∣ A 0 0 D − C A − 1 B ∣ = ∣ A ∣ ∣ D − C A − 1 B ∣ \begin{vmatrix}A & B \\ C & D\end{vmatrix}=\begin{vmatrix}A & 0 \\ 0 & D-CA^{-1}B\end{vmatrix}=|A||D-CA^{-1}B| ACBD=A00DCA1B=ADCA1B
所以:

  • ( A 非 奇 异 ) M 非 奇 异    ⟺    D − C A − 1 B 非 奇 异 (A非奇异)M非奇异\iff D-CA^{-1}B非奇异 AMDCA1B
  • ( D 非 奇 异 ) M 非 奇 异    ⟺    A − B D − 1 C 非 奇 异 (D非奇异)M非奇异\iff A-BD^{-1}C非奇异 DMABD1C

透射函数Perspective

定义:
f : R n → R , f 是 凸 函 数 , g : R n × R → R , d o m g = { ( x , t ) ∣ x t ∈ d o m f , t > 0 } → g ( x , t ) = t f ( x t ) 是 凸 函 数 f:R^n\rightarrow R,f是凸函数,g:R^n\times R\rightarrow R,domg=\{(x,t)|\frac{x}{t}\isin domf,t>0\}\rightarrow g(x,t)=tf(\frac{x}{t})是凸函数 f:RnR,f,g:Rn×RRdomg={(x,t)txdomf,t>0}g(x,t)=tf(tx)

例子:

  • f ( x ) = x T x 是 凸 函 数 , t > 0 → g ( x , t ) = x T x t 是 凸 函 数 f(x)=x^Tx是凸函数,t>0\rightarrow g(x,t)=\frac{x^Tx}{t}是凸函数 f(x)=xTx,t>0g(x,t)=txTx
  • f ( x ) = − log ⁡ x 是 凸 函 数 → g ( x , t ) = − t log ⁡ x t 是 凸 函 数 , 在 R + + 2 集 合 上 f(x)=-\log{x}是凸函数\rightarrow g(x,t)=-t\log{\frac{x}{t}}是凸函数,在R_{++}^2集合上 f(x)=logxg(x,t)=tlogtx,R++2
  • f ( x ) 是 凸 函 数 , 定 义 域 { x ∣ c T x + d > 0 , ( A x + b ) C T x + d ∈ d o m f } → g ( x ) = ( c T x + d ) f ( A x + b c T x + d ) 是 凸 函 数 ( 仿 射 + 透 射 p e r s p e c t i v e ) f(x)是凸函数,定义域\{x|c^Tx+d>0,\frac{(Ax+b)}{C^Tx+d}\isin domf\}\rightarrow g(x)=(c^Tx+d)f(\frac{Ax+b}{c^Tx+d})是凸函数(仿射+透射perspective) f(x),{xcTx+d>0,CTx+d(Ax+b)domf}g(x)=(cTx+d)f(cTx+dAx+b)(仿+perspective)

小结

请跳转到最后的总结

共轭函数Conjugate function

原函数是以x为自变量,求y值
共轭函数是以斜率为自变量,求y轴上截距值

找斜率的最小值    ⟺    \iff 找y轴上截距的最大值

定义:
多元偏分函数形式:
切 线 : g ( x ) = ( x − x 0 ) ∂ f ∂ x ( x 0 ) + f ( x 0 ) ) 切线:g(x)=(x-x_0)\frac{\partial f}{\partial x}(x_0)+f(x_0)) 线g(x)=(xx0)xf(x0)+f(x0))
截 距 : g ( 0 ) = − x 0 ∂ f ∂ x ( x 0 ) + f ( x 0 ) 截距:g(0)=-x_0\frac{\partial f}{\partial x}(x_0)+f(x_0) g(0)=x0xf(x0)+f(x0)
最优化方法(学习笔记)-第三章凸函数_第6张图片
共轭形式:
共轭函数(截距的相反数): x = x 0 ∈ d o m f , 自 变 量 y = ∂ f ∂ x , f ∗ ( y ) = y T x − f ( x ) x=x_0\isin domf,自变量y=\frac{\partial f}{\partial x},f^*(y)=y^Tx-f(x) x=x0domf,y=xff(y)=yTxf(x)
f ( x ) 是 凸 函 数 , 所 以 y 和 − f ( x ) 是 凹 函 数 , 有 唯 一 最 大 值 f(x)是凸函数,所以y和-f(x)是凹函数,有唯一最大值 f(x)yf(x)

求 最 值 的 目 标 函 数 : f ∗ ( y ) = sup ⁡ x ∈ d o m f ( y T x − f ( x ) ) 求最值的目标函数:f^*(y)=\sup\limits_{x\isin domf}(y^Tx-f(x)) f(y)=xdomfsup(yTxf(x))

{ y = ∂ f ∂ x x = ∂ f ∗ ∂ y , 属 于 对 称 形 式 , 所 以 两 次 共 轭 会 回 到 原 来 的 函 数 \begin{cases}y=\frac{\partial f}{\partial x} \\ x=\frac{\partial f^*}{\partial y}\end{cases},属于对称形式,所以两次共轭会回到原来的函数 {y=xfx=yf
最优化方法(学习笔记)-第三章凸函数_第7张图片
截 距 是 给 点 , 找 斜 线 求 截 距 最 大 值 截距是给点,找斜线求截距最大值 线
共 轭 是 给 斜 线 , 找 点 求 截 距 最 大 值 , 且 即 使 f 不 是 凸 函 数 , f ∗ 也 是 凸 函 数 共轭是给斜线,找点求截距最大值,且即使f不是凸函数,f^*也是凸函数 线使ff

例子:

  • f ( x ) = − log ⁡ x , x > 0 → f ∗ ( y ) = sup ⁡ x > 0 ( x y + log ⁡ x ) f(x)=-\log x,x>0\rightarrow f^*(y)=\sup\limits_{x>0}(xy+\log x) f(x)=logx,x>0f(y)=x>0sup(xy+logx)
    可 知 y = ∂ f ( x ) ∂ x , 最 值 即 导 数 y + 1 x = 0 , 所 以 x = − 1 y 可知y=\frac{\partial f(x)}{\partial x},最值即导数y+\frac{1}{x}=0,所以x=-\frac{1}{y} y=xf(x),y+x1=0,x=y1
    f ∗ ( y ) = { − 1 + log ⁡ ( − 1 y ) y < 0 ∞ y ≥ 0 f^*(y)=\begin{cases} -1+\log{(-\frac{1}{y})} & y<0 \\ \infty & y\geq 0 \end{cases} f(y)={1+log(y1)y<0y0
  • f ( x ) = 1 2 x T Q x , Q ∈ S + + n → f ∗ ( y ) = sup ⁡ x ( y T x − 1 2 x T Q x )    ⟺    计 算 二 次 函 数 的 极 值 f(x)=\frac{1}{2}x^TQx,Q\isin S_{++}^n\rightarrow f^*(y)=\sup\limits_{x}(y^Tx-\frac{1}{2}x^TQx)\iff计算二次函数的极值 f(x)=21xTQx,QS++nf(y)=xsup(yTx21xTQx)
    根 据 x = Q − 1 y 推 导 出 : f ∗ ( y ) = y T Q − 1 y − 1 2 y T Q − 1 y = 1 2 y T Q − 1 y , 这 形 式 与 f ( x ) 对 称 根据x=Q^{-1}y推导出: f^*(y)=y^TQ^{-1}y-\frac{1}{2}y^TQ^{-1}y=\frac{1}{2}y^TQ^{-1}y,这形式与f(x)对称 x=Q1yf(y)=yTQ1y21yTQ1y=21yTQ1yf(x)

类 比 能 量 公 式 : E = 1 2 m v 2 = 1 2 v m v → E ∗ ( p ) = 1 2 p 1 m p = p 2 2 m , p = m v 是 动 量 用 来 表 示 v 的 物 理 过 程 类比能量公式:E=\frac{1}{2}mv^2=\frac{1}{2}vmv\rightarrow E^*(p)=\frac{1}{2}p\frac{1}{m}p=\frac{p^2}{2m},p=mv是动量用来表示v的物理过程 E=21mv2=21vmvE(p)=21pm1p=2mp2p=mvv

次凸函数Quasiconvex|次凹函数Quasiconcave

这类函数不全符合凸函数的定义,但是他们仍然有唯一最值

定义:
f : R n → R , d o m f 是 凸 集 , ∀ α , ( s u b l e v e l   s e t ) S α = { x ∣ f ( x ) ≤ α } 是 凸 集 → f 是 次 凸 函 数 f:R^n\rightarrow R,domf是凸集,\forall\alpha,(sublevel\space set)S_\alpha=\{x|f(x)\leq\alpha\}是凸集\rightarrow f是次凸函数 f:RnRdomfα,(sublevel set)Sα={xf(x)α}f
最优化方法(学习笔记)-第三章凸函数_第8张图片
f : R n → R , d o m f 是 凸 集 , ∀ α , ( h i g h l e v e l   s e t ) H α = { x ∣ f ( x ) > α } 是 凸 集 → f 是 次 凹 函 数 f:R^n\rightarrow R,domf是凸集,\forall\alpha,(highlevel\space set)H_\alpha=\{x|f(x)>\alpha\}是凸集\rightarrow f是次凹函数 f:RnRdomfα,(highlevel set)Hα={xf(x)>α}f
最优化方法(学习笔记)-第三章凸函数_第9张图片
判定:

  • − f 是 次 凸 函 数 → f 是 次 凹 函 数 -f是次凸函数\rightarrow f是次凹函数 ff
  • f 是 次 凹 函 数 也 是 次 凸 函 数 → f 是 次 线 性 函 数 f是次凹函数也是次凸函数\rightarrow f是次线性函数 ff线

例子:

  • x ∈ R , f = ∣ x ∣ 是 次 凸 函 数 x\isin R,f=\sqrt{|x|}是次凸函数 xR,f=x
    最优化方法(学习笔记)-第三章凸函数_第10张图片

  • f = c e i l ( x ) = i n f { z ∈ Z ∣ z ≥ x } 是 次 线 性 函 数 f=ceil(x)=inf\{z\isin Z|z\geq x\}是次线性函数 f=ceil(x)=inf{zZzx}线
    最优化方法(学习笔记)-第三章凸函数_第11张图片

  • x ∈ R + + , f = log ⁡ x 是 次 线 性 函 数 x\isin R_{++},f=\log x是次线性函数 xR++,f=logx线
    最优化方法(学习笔记)-第三章凸函数_第12张图片

  • x ∈ R + + 2 , f ( x 1 , x 2 ) = x 1 x 2 是 次 凹 函 数 x\isin R_{++}^2,f(x_1,x_2)=x_1x_2是次凹函数 xR++2,f(x1,x2)=x1x2
    最优化方法(学习笔记)-第三章凸函数_第13张图片

  • d o m f = { x ∣ c T x + d > 0 } , f ( x ) = a T x + b x T x + d 是 次 线 性 函 数 domf=\{x|c^Tx+d>0\},f(x)=\frac{a^Tx+b}{x^Tx+d}是次线性函数 domf={xcTx+d>0},f(x)=xTx+daTx+b线(linear-fractional-function)

  • d o m f = { x ∣   ∣ ∣ x − a ∣ ∣ 2 ≤ ∣ ∣ x − b ∣ ∣ 2 } , f ( x ) = ∣ ∣ x − a ∣ ∣ 2 ∣ ∣ x − b ∣ ∣ 2 是 次 凸 函 数 domf=\{x|\space ||x-a||_2\leq||x-b||_2\},f(x)=\frac{||x-a||_2}{||x-b||_2}是次凸函数 domf={x xa2xb2},f(x)=xb2xa2

性质:

  • modified Jensen inequality: f 是 次 凸 函 数 θ ∈ [ 0 , 1 ] → f ( θ x + ( 1 − θ ) y ) ≤ max ⁡ ( f ( x ) , f ( y ) ) f是次凸函数\theta\isin [0,1]\rightarrow f(\theta x+(1-\theta)y)\leq\max{(f(x),f(y))} fθ[0,1]f(θx+(1θ)y)max(f(x),f(y))
    【下图是不符合条件的多峰情况】
    最优化方法(学习笔记)-第三章凸函数_第14张图片

  • first-order condition: f 定 义 域 是 凸 集 , f 可 微 是 次 凸 函 数    ⟺    f ( y ) ≤ f ( x )    ⟹    ▽ f ( x ) T ( y − x ) ≤ 0 f定义域是凸集,f可微是次凸函数\iff f(y)\leq f(x)\implies \triangledown f(x)^T(y-x)\leq 0 fff(y)f(x)f(x)T(yx)0
    最优化方法(学习笔记)-第三章凸函数_第15张图片

  • 次凸函数的累加,不一定仍是次凸函数

取log意义下的凹函数log-concave和凸函数log-convex

定义:
log ⁡ f 是 凸 函 数 → f 是 l o g − c o n v e x 函 数 : θ ∈ [ 0 , 1 ] , f ( θ x + ( 1 − θ ) y ) ≤ f ( x ) θ f ( y ) 1 − θ \log{f}是凸函数\rightarrow f是log-convex函数:\theta\isin[0,1],f(\theta x+(1-\theta)y)\leq f(x)^{\theta}f(y)^{1-\theta} logfflogconvexθ[0,1],f(θx+(1θ)y)f(x)θf(y)1θ
log ⁡ f 是 凹 函 数 → f 是 l o g − c o n c a v e 函 数 : θ ∈ [ 0 , 1 ] , f ( θ x + ( 1 − θ ) y ) ≥ f ( x ) θ f ( y ) 1 − θ \log{f}是凹函数\rightarrow f是log-concave函数:\theta\isin[0,1],f(\theta x+(1-\theta)y)\geq f(x)^{\theta}f(y)^{1-\theta} logfflogconcaveθ[0,1],f(θx+(1θ)y)f(x)θf(y)1θ

公式理解:
log ⁡ f ( θ x + ( 1 − θ ) y ) ≤ θ log ⁡ f ( x ) + ( 1 − θ ) log ⁡ f ( y ) \log{f(\theta x+(1-\theta)y)}\leq \theta\log{f(x)}+(1-\theta)\log{f(y)} logf(θx+(1θ)y)θlogf(x)+(1θ)logf(y)
= log ⁡ f ( x ) θ + log ⁡ f ( y ) 1 − θ =\log{f(x)^{\theta}}+\log{f(y)^{1-\theta}} =logf(x)θ+logf(y)1θ
= log ⁡ f ( x ) θ f ( y ) 1 − θ =\log{f(x)^{\theta}f(y)^{1-\theta}} =logf(x)θf(y)1θ

例子:
( 次 凹 函 数 ) 高 斯 函 数 f ( x ) = e − x 2 → ( 凹 函 数 ) log ⁡ f ( x ) = − x 2 (次凹函数)高斯函数f(x)=e^{-x^2}\rightarrow (凹函数)\log{f(x)}=-x^2 ()f(x)=ex2()logf(x)=x2
( l o g − c o n c a v e 函 数 ) 高 斯 分 布 : Φ ( x ) = ∫ − ∞ x 1 2 π e − u 2 2 d x (log-concave函数)高斯分布:\Phi(x)=\int_{-\infty}^x\frac{1}{\sqrt{2\pi}}e^{-\frac{u^2}{2}}dx (logconcave)Φ(x)=x2π 1e2u2dx
f ( x ) = x α , x ∈ R + + , ( 1 ) α ≤ 0 , f ( x ) 是 l o g − c o n v e x ; ( 2 ) α ≥ 0 , f ( x ) 是 l o g − c o n c a v e f(x)=x^{\alpha},x\isin R_{++},(1)\alpha\leq 0,f(x)是log-convex;(2)\alpha\geq 0,f(x)是log-concave f(x)=xα,xR++(1)α0,f(x)logconvex(2)α0,f(x)logconcave

性质&特殊log操作:
f 二 阶 可 导 , d o m f 是 凸 集 f二阶可导,domf是凸集 fdomf

  • f 是 l o g − c o n c a v e ( c o n v e x )    ⟺    ▽ 2 f ( x ) ≤ ( ≥ ) ▽ f ( x ) ▽ f ( x ) T f ( x ) f是log-concave(convex)\iff \triangledown^2f(x)\leq(\geq)\frac{\triangledown f(x)\triangledown f(x)^T}{f(x)} flogconcave(convex)2f(x)()f(x)f(x)f(x)T
  • Product of log-concave functions is also log-concave: f ( x ) , g ( x ) 都 是 l o g − c o n c a v e , 那 么 log ⁡ f ( x ) 和 log ⁡ g ( x ) 就 是 c o n c a v e , 所 以 log ⁡ f ( x ) + log ⁡ g ( x ) = log ⁡ ( f ( x ) g ( x ) ) 是 c o n c a v e , f ( x ) g ( x ) 是 l o g − c o n c a v e f(x),g(x)都是log-concave,那么\log{f(x)}和\log{g(x)}就是concave,所以\log{f(x)}+\log{g(x)}=\log{(f(x)g(x))}是concave,f(x)g(x)是log-concave f(x),g(x)logconcavelogf(x)logg(x)concavelogf(x)+logg(x)=log(f(x)g(x))concavef(x)g(x)logconcave
  • Sum of log-concave functions is not always log-concave: log ⁡ ( f ( x ) + g ( x ) ) \log{(f(x)+g(x))} log(f(x)+g(x))
  • Integration积分意义下保凸: f : R n × R m → R 是 l o g − c o n c a v e → g ( x ) = ∫ f ( x , y ) d y 是 l o g − c o n c a v e f:R^n\times R^m\rightarrow R是log-concave\rightarrow g(x)=\int f(x,y)dy是log-concave f:Rn×RmRlogconcaveg(x)=f(x,y)dylogconcave
  • Convolution卷积意义下: f ( x ) , g ( x ) 都 是 l o g − c o n c a v e → ( f ∗ g ) ( x ) = ∫ f ( x − y ) g ( y ) d y 是 l o g − c o n c a v e f(x),g(x)都是log-concave\rightarrow (f*g)(x)=\int f(x-y)g(y)dy是log-concave f(x),g(x)logconcave(fg)(x)=f(xy)g(y)dylogconcave

广义不等关系的凸性

定义:
recall: x − y ∈ K    ⟺    y ≤ K x x-y\isin K\iff y\leq_K x xyKyKx
f : R n → R m 是 K − c o n v e x ( K 锥 型 ) , d o m f 是 凸 集 , θ ∈ [ 0 , 1 ] , f ( θ x + ( 1 − θ ) y ) ≤ K θ f ( x ) + ( 1 − θ ) f ( y ) f:R^n\rightarrow R^m是K-convex(K锥型),domf是凸集,\theta\isin[0,1],f(\theta x+(1-\theta)y)\leq_K \theta f(x)+(1-\theta)f(y) f:RnRmKconvex(K)domfθ[0,1],f(θx+(1θ)y)Kθf(x)+(1θ)f(y)

举例:
f : S m → S m , f ( x ) = X 2 是 S + m − c o n v e x ( 对 称 半 正 定 凸 函 数 ) f:S^m\rightarrow S^m,f(x)=X^2是S_+^m-convex(对称半正定凸函数) f:SmSm,f(x)=X2S+mconvex()

证 明 部 分 1. 对 称 半 正 定 阵 : 找 一 个 向 量 v , 使 得 v T A v ≥ 0 : ∀ z , z T X 2 z = z T X T X z = ( X z ) T X z = ∣ ∣ X z ∣ ∣ 2 2 ( 2 类 范 数 ) 是 凸 集 ( 成 立 ) 证明部分1. 对称半正定阵:找一个向量v,使得v^TAv\geq 0:\forall z,z^TX^2z=z^TX^TXz=(Xz)^TXz=||Xz||_2^2(2类范数)是凸集(成立) 1.v,使vTAv0z,zTX2z=zTXTXz=(Xz)TXz=Xz222

证 明 部 分 2. c o n v e x : z T ( θ X + ( 1 − θ ) Y ) 2 z ≤ θ z T X 2 z + ( 1 − θ ) z T Y 2 z    ⟹    z T ( θ X 2 + ( 1 − θ ) Y 2 − ( θ X + ( 1 − θ ) Y ) 2 ) z ≥ 0 , 所 以 需 要 条 件 ( θ X + ( 1 − θ ) Y ) 2 ≤ θ X 2 + ( 1 − θ ) Y 2 ( 一 般 意 义 下 的 凸 关 系 成 立 ) 证明部分2. convex:z^T(\theta X+(1-\theta)Y)^2z\leq \theta z^TX^2z+(1-\theta)z^TY^2z\implies z^T(\theta X^2+(1-\theta)Y^2-(\theta X+(1-\theta)Y)^2)z\geq 0,所以需要条件(\theta X+(1-\theta)Y)^2\leq \theta X^2+(1-\theta)Y^2(一般意义下的凸关系成立) 2.convexzT(θX+(1θ)Y)2zθzTX2z+(1θ)zTY2zzT(θX2+(1θ)Y2(θX+(1θ)Y)2)z0(θX+(1θ)Y)2θX2+(1θ)Y2

总结

  • 判定一个凸函数的3种方法:

    • 定义法
      • 凸函数符合Jensen不等式, ∀ x , y ∈ d o m f , ∀ θ ∈ [ 0 , 1 ] , f ( θ x + ( 1 − θ ) y ) ≤ θ f ( x ) + ( 1 − θ ) f ( y ) \forall x,y\isin domf,\forall \theta\isin[0,1],f(\theta x+(1-\theta)y)\leq\theta f(x)+(1-\theta)f(y) x,ydomf,θ[0,1],f(θx+(1θ)y)θf(x)+(1θ)f(y)
      • 凸函数等价定义:(高维限制) ∃ g ( t ) = f ( x + t v ) , f 是 凸 函 数 , d o m g = { t ∣ x + t v ∈ d o m f } \exists g(t)=f(x+tv),f是凸函数,dom g=\{t|x+tv\isin domf\} g(t)=f(x+tv),fdomg={tx+tvdomf}
        凸函数可以延拓到 R n R^n Rn上,保持凸性,并且区分不同定义域的取值方式。
      • 一次微分函数, f ( y ) ≥ f ( x ) + ▽ f ( x ) T ( y − x ) f(y)\geq f(x)+\triangledown{f(x)^T}(y-x) f(y)f(x)+f(x)T(yx)
        就是函数图像在某个点切线之上,高维情况要运用凸函数等价定义(高维限制)。
      • epi图判定,epi函数是凸的
        sublevel set 和 epigraph都是判定凸函数的充分条件
    • 二次微分函数, ▽ 2 f ( x ) ≥ 0 \triangledown^2{f(x)}\geq 0 2f(x)0
      高维情况,就是函数二阶导的矩阵是半正定的
    • 保凸运算(该部分的小结)
      • 非负权和nonegative weight sum
        1. α i ≥ 0 , f i 是 凸 函 数 → f ( x ) = ∑ i = 1 k α i f i 是 凸 函 数 1.\alpha_i\geq 0,f_i是凸函数\rightarrow f(x)=\sum\limits_{i=1}^k\alpha_if_i是凸函数 1.αi0,fif(x)=i=1kαifi(线性变换保凸)
        2. f ( x ) 是 凸 函 数 , ∀ y , w ( y ) ≥ 0 → g ( x ) = ∫ Ω f ( x , y ) w ( y ) d y 是 凸 函 数 2.f(x)是凸函数,\forall y,w(y)\geq 0\rightarrow g(x)=\int_\Omega f(x,y)w(y)dy是凸函数 2.f(x),y,w(y)0g(x)=Ωf(x,y)w(y)dy
      • 仿射函数复合composition with affine function
        f ( x ) 是 凸 函 数 → f ( A x + b ) 是 凸 函 数 f(x)是凸函数\rightarrow f(Ax+b)是凸函数 f(x)f(Ax+b)
      • 逐点最大pointwise maximum and 逐点上界pointwise supremum
        有 限 个 f 1 ( x ) , . . . , f m ( x ) 是 凸 函 数 → f ( x ) = m a x { f 1 ( x ) , . . . , f m ( x ) } 是 凸 函 数 有限个f_1(x),...,f_m(x)是凸函数\rightarrow f(x)=max\{f_1(x),...,f_m(x)\}是凸函数 f1(x),...,fm(x)f(x)=max{f1(x),...,fm(x)}
        对 无 穷 个 点 , ∀ y ∈ A , f ( x , y ) 对 x 是 凸 函 数 → g ( x ) = sup ⁡ y ∈ A f ( x , y ) 是 凸 函 数 ( g 是 f 关 于 y 求 极 值 的 函 数 ) 对无穷个点,\forall y\isin A,f(x,y)对x是凸函数\rightarrow g(x)=\sup\limits_{y\isin A}f(x,y)是凸函数(g是f关于y求极值的函数) yAf(x,y)xg(x)=yAsupf(x,y)gfy
      • composition耦合(复合)
        标量函数的耦合 g : R n → R , h : R → R , f ( x ) = h ( g ( x ) ) 是 凸 函 数 ( f ′ ′ ( x ) ≥ 0 ) g:R^n\rightarrow R,h:R\rightarrow R,f(x)=h(g(x))是凸函数(f''(x)\geq 0) g:RnRh:RRf(x)=h(g(x))(f(x)0)
        [ 1 ] . g 是 凸 函 数 ( g ′ ′ ≥ 0 ) , h 的 延 拓 h ~ 是 非 递 减 的 ( h ′ ≥ 0 ) , h 是 凸 函 数 ( f ′ ′ ≥ 0 ) [1].g是凸函数(g''\geq 0),h的延拓\tilde{h}是非递减的(h'\geq 0),h是凸函数(f''\geq 0) [1].g(g0)hh~(h0)h(f0)
        [ 2 ] . g 是 凹 函 数 ( g ′ ′ ≤ 0 ) , h 的 延 拓 h ~ 是 非 递 增 的 ( h ′ ≤ 0 ) , h 是 凸 函 数 ( f ′ ′ ≥ 0 ) [2].g是凹函数(g''\leq 0),h的延拓\tilde{h}是非递增的(h'\leq 0),h是凸函数(f''\geq 0) [2].g(g0)hh~(h0)h(f0)
        向量的耦合 g : R n → R k , h : R k → R , f ( x ) = h ( g ( x ) ) = h ( g 1 ( x ) , g 2 ( x ) , . . . , g k ( x ) ) 是 凸 函 数 g:R^n\rightarrow R^k,h:R^k\rightarrow R,f(x)=h(g(x))=h(g_1(x),g_2(x),...,g_k(x))是凸函数 g:RnRkh:RkRf(x)=h(g(x))=h(g1(x),g2(x),...,gk(x))
        [ 1 ] . g i 是 凸 函 数 , h 的 延 拓 h ~ 是 非 递 减 的 , h 是 凸 函 数 [1].g_i是凸函数,h的延拓\tilde{h}是非递减的,h是凸函数 [1].gihh~h
        [ 2 ] . g i 是 凹 函 数 , h 的 延 拓 h ~ 是 非 递 增 的 , h 是 凸 函 数 [2].g_i是凹函数,h的延拓\tilde{h}是非递增的,h是凸函数 [2].gihh~h
      • 最小值minimization
        f ( x , y ) 对 ( x , y ) 都 满 足

你可能感兴趣的:(最优化方法(学习笔记))