优化理论(三)凸函数、拟凸函数和保凸运算

这一节主要学习凸函数的定义以及性质。了解保凸运算,以及上镜图与下水平集等。这些基础知识看似零乱,然而却是后面的基础。特别是,在实际应用中如果我们能把一个问题转化为凸优化问题,是非常好的一步。而能够这样做的前提,是知道基本的函数的凸性以及有哪些保凸运算。上镜图有助于我们从集合的角度理解这个函数为什么是凸的(集合的保凸运算);水平集是以函数的形式表示集合,类似于等高线,在历史上是重要的方法。这里我们通过下水平集把函数的凸性和集合的凸性联系了起来。

基本性质

定义

凸函数(Convex)的定义如下:

这里写图片描述

即:自变量的凸组合的函数值小于等于函数值的凸组合。

严格凸函数,只要把等号去掉。

凹函数(Concave)是凸函数取负号。

仿射函数是既凸且凹的

常见的凸函数

  • 仿射函数
  • eaXaR e a X , ∀ a ∈ R
  • 指数函数: xα x α R++ R + + ,对 α1 α ≥ 1 或者 α0 α ≤ 0

扩展值延伸

定义凸函数在定义域外的值为 ,从而将定义域延伸至全空间 Rn R n

一阶条件(First Order Conditions)

函数f可微分,则函数f是凸函数的充要条件是其定义域dom f是凸集且对于任意的 x,ydom f x , y ∈ d o m   f ,下式成立

f(y)f(x)+f(x)T(yx) f ( y ) ≥ f ( x ) + ∇ f ( x ) T ( y − x )

即大于等于一阶泰勒近似。上式说明了一个凸函数的局部信息。对于严格凸和凹函数,有相应的结论。

对于一个凸函数,其一阶泰勒近似是原函数的一个全局下估计。反之,若某个函数的一阶泰勒近似总是其全局下估计,则这个函数是凸的。

二阶条件

函数f二阶可微(函数在定义域的开集上处处存在二阶导数),则f是凸函数的充要条件是:其Hessian矩阵是半正定矩阵。即对于所有 xdom f x ∈ d o m   f ,有

2f(x)0 ∇ 2 f ( x ) ⪰ 0

此条件说明函数的倒数是非递减的。从几何上看是指函数图像在x点具有正的曲率。

函数f二阶可微(函数在定义域的开集上处处存在二阶导数),则f是凹函数的充要条件是:其Hessian矩阵是半负定矩阵。即对于所有 xdom f x ∈ d o m   f ,有

2f(x)0 ∇ 2 f ( x ) ⪯ 0

R上的例子

  • 指数函数。对任意 aR a ∈ R , 函数 eax e a x 在R上是凸的
  • 幂函数。当 a1 a ≥ 1 或者 a0 a ≤ 0 时, xa x a R++ R + + 上是凸函数;当 0a1 0 ≤ a ≤ 1 时, xa x a R++ R + + 上是凹函数
  • 绝对值幂函数。当 p1 p ≥ 1 时,函数 |x|p | x | p R R 上是凸函数。
  • 对数函数。函数 log(x) log ⁡ ( x ) R++ R + + 上是凹函数。
  • 负熵。函数 xlog(x) x log ⁡ ( x ) 是定义域上的凸函数。

  Rn R n 上的一些例子

  • 范数。 Rn R n 上任意范数为凸函数。

  • 最大值函数。函数 f(x)=max{x1,...,xn} f ( x ) = m a x { x 1 , . . . , x n } Rn R n 上是凸的。

  • 二次-线性分式函数。函数 f(x,y)=x2/y f ( x , y ) = x 2 / y ,其定义域为 dom f=R×R++={(x,y)R2|y>0} d o m   f = R × R + + = { ( x , y ) ∈ R 2 | y > 0 } 是凸函数。

这里写图片描述

  • 指数和的对数。函数 f(x)=log(ex1+...+exn) f ( x ) = log ⁡ ( e x 1 + . . . + e x n ) Rn R n 上是凸函数。

  • 几何平均。几何平均函数 f(x)=(ni=1xi)1/n f ( x ) = ( ∏ i = 1 n x i ) 1 / n 在定义域 Rn++ R + + n 上是凹函数。

  • 对数-行列式。函数 f(X)=logdetX f ( X ) = log ⁡ det X 在定义域 Sn++ S + + n 是凹函数。

判断函数的凸性的方法:

  • 根据二阶条件,求出Hessian矩阵,根据Hessian矩阵是否半正定。或者直接判断
  • 根据一阶条件判断
  • 把函数转化为与其定义域相交的直线,通过单变量函数判断原函数的凸性。
  • 把函数看成由其他简单的凸函数通过保凸运算导出。

下水平集(Sublevel Set)

水平集是一种通过函数表示集合的方法。函数的 α α − 下水平集的定义是:

这里写图片描述

即:使得函数值小于等于 α α 的自变量的集合。

同理可以得到函数的 α α − 上水平集的定义。

凸函数的任意下水平集都是凸集。

凹函数的任意上水平集都是凸集。

因此,可以根据函数的凸性来判断集合的凸性。

比如:

这里写图片描述

这里算术平均是凸函数,几何平均是凹函数。其复合函数是凹的,因此集合是凸集。

上镜图(Epigraph)

函数的图像是指:

这里写图片描述

函数的上镜图是指函数图像上面的部分:

这里写图片描述

显然,可以通过函数图像的上镜图判断函数的凸性。

一个函数是凸函数,当且仅当上镜图是凸集。

一个函数是凹函数,当且仅当亚图是凸集。这里写图片描述

一阶条件的几何解释

考虑一阶条件,根据上镜图的定义可得,

这里写图片描述

这里写图片描述

Jessen不等式及其扩展

一阶条件的基本不等式也叫做Jessen不等式,可以扩展到无穷项和、积分以及期望。

保凸运算

学习保持凸性或者凹性的运算,可以用于构造新的凸函数或者凹函数,以及判断一个函数的凸性。

非负加权求和

显然,如果函数f是凸函数,则其非负加权求和仍然是凸函数。

f=w1f1+...+wmfm f = w 1 f 1 + . . . + w m f m

对凹函数有相应的结论。

从上镜图可以得到这个结论,前面我们已经知道凸集通过线性变换之后的像依然是凸集。而

这里写图片描述

复合仿射映射

这里写图片描述

这个性质和集合的保凸运算类似。

逐点最大和逐点上确界

如果 f1,...,fm f 1 , . . . , f m 是凸的,那么 f(x)=max{f1,...,fm} f ( x ) = m a x { f 1 , . . . , f m } 也是凸的。

逐点最大的性质可以扩展至无限个凸函数的逐点上确界。如果对于任意 yA y ∈ A ,函数 f(x,y) f ( x , y ) 关于 x x 都是凸的,则函数g

g(x)=supyAf(x,y) g ( x ) = sup y ∈ A f ( x , y )

关于x也是凸的。

从上镜图的角度理解,一系列函数的逐点上确界函数对应着这些函数上镜图的交集,而我们知道凸集的交集仍然是凸集,所以一系列函数的逐点上确界函数的上镜图是凸集。

集合的支撑函数

这里写图片描述

到集合中最远点的距离

这里写图片描述

以权为变量的最小二乘

这里写图片描述

对称矩阵最大特征值

这里写图片描述

矩阵范数

这里写图片描述

表示成一组仿射函数的逐点上确界

建立凸函数的技巧:表示成一组仿射函数的逐点上确界

复合函数

标量复合

这里写图片描述

矢量复合

这里写图片描述

最小化

这里写图片描述

函数g的定义域是dom f在x方向上的投影。

透视函数

这里写图片描述

共轭函数

拟凸函数

拟凸函数:定义域和所有下水平集都是凸集。

拟凹函数:定义域和所有上水平集是凸集。

拟线性函数:既是拟凸又是拟凹,定义域和所有水平集都是凸集。

易知,凸函数是拟凸函数。但是拟凸函数不一定是凸函数。

性质:拟凸性是凸性的扩展。在拟凸条件下,很多性质仍然成立。

拟凸函数的Jensen不等式:

f(θx+(1θ)y)max{f(x),f(y)} f ( θ x + ( 1 − θ ) y ) ≤ m a x { f ( x ) , f ( y ) }

一阶条件

这里写图片描述

二阶条件

这里写图片描述

保拟凸运算

待续

对数-凹函数和对数-凸函数

这里写图片描述

一个函数是否是对数-凸函数,是指这个函数取对数之后是凸函数。

一些例子:

  • 许多常见概率密度函数是对数-凹函数
  • 高斯概率密度函数的累积分布函数是对数-凹函数

相关性质

函数f二阶可微,则其是对数-凸函数,当且仅当

这里写图片描述

关于广义不等式的凸性

把普通的不等式替换成广义不等式,则函数的单调性、凸性需要重新定义。

关于广义不等式的单调性

这里写图片描述

关于广义不等式的凸性

这里写图片描述

参考文献

《凸优化》

你可能感兴趣的:(优化理论)