基本不等式 f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y)
扩展到多项也成立。
f(θ1x1+⋯+θkxk)≤θ1f(x1)+⋯+θkf(xk) , θ1+⋯+θk=1
一般形式:
事件 x∈domf 发生的概率为1,函数 f 是凸函数,当相应的期望存在时,有 f(Ex)≤Ef(x)
注意,这里的保凸运算指凸函数的保凸运算,并不指凸集的保凸运算,要和上一章分开。
(1)非负加权求和
当 wi≥0,fi 是凸函数时, f=w1f1+⋯+wmfm 是凸函数。
当 fi 严格凸时, f 严格凸。
此性质可以扩展到积分。
如果固定 y∈A ,函数 f(x,y) 是关于 x 的凸函数。且对任意 y∈A 有 w(y)≥0 ,则函数 g(x)=∫Aw(y)f(x,y) dy 是关于 x 的凸函数。
(2)复合仿射映射
假设函数 f:Rn→R,A∈Rn×m ,以及 b∈Rn ,定义 g:Rm→R 为
g(x)=f(Ax+b)
其中 domg={x∣Ax+b∈domf}
这样的话, f 与 g 的凹凸性一致。
(3)函数每点取最大
若 f1,f2 都是凸函数,则
f(x)=max{f1(x),f2(x)} 是凸函数。
这个性质还可以扩展到多个函数。
若 f1,⋯,fn 都是凸函数,则
f(x)=max{f1(x),⋯,fn(x)} 是凸函数。
举例:
最大 r 个分量和是凸函数。对于任意 x∈Rn ,用 x[i] 表示 x 中第 i 大的分量。则 f(x)=∑i=1rx[i] 是凸函数。
原因是 f(x) 还可以表示为:
f(x)=max{xi1+⋯+xir∣1≤i1<i2<⋯<ir≤n}
即从 x 的分量中选取 r 个不同分量进行求和所有组合的最大值。函数可以看成 n!/(r!(n−r)!) 个线性函数取每点取最大,所以是凸函数。
逐点最大的性质可以扩展到无限个凸函数取上确界。
对于任意 y∈A ,函数 f(x,y) 关于 x 都是凸的,则函数 g
g(x)= supy∈Af(x,y) 也是凸的,此时函数的定义域为
dom g={x∣(x,y)∈dom f ∀y∈A,g(x)<∞}
(4)标量的复合:
标量的复合在直观上结论十分好理解。
对于 f(x)=h(g(x))
f′′(x)=h′′(g(x))g′(x)2+h′(g(x))g′′(x)
这里,我们先假设这里写出来的导数都是存在的。
因为可以认为凸函数二阶导大于零,所以 h 凸 g 凸并且 h 非减,则 f 是凸函数。(剩下几条自己推吧,相信高中生知道导数定义都明白的)
如果函数不可导怎么办?这些直观的结论都依然成立,只是这时结论里的 h 要变成 h~ 。
举几个例子:
如果 g 是凸函数则 exp(g(x)) 也是凸函数 。
如果 g 是凹函数且大于零则 1/g(x) 是凸函数 。
(5)矢量的复合:
对于 f(x)=h(g1(x),⋯,gk(x))
其中, h,g 都是矢量函数(即定义域在多维上,值域是一维)
f′′(x)=g′(x)T▽2h(g(x))g′(x)+▽h(g(x))Tg′′(x)
此时,我们得到和上面标量复合类似的结论。同样, h 不可导时,结论中 h 要变成 h~ 。
矢量复合要注意的是,矢量复合可以组合多种情况的结论。比如下面结论同样是对的:
若 h 是凸函数且在 h 的非减分量上 gi 是凸函数,在 h 的非增分量上 gi 是凹函数,那么 f 是凸函数。
h(z)=log(∑i=1kezi) 是凸函数且在每一维分量上非减,只要 gi 是凸函数,那么 h(gi) 就是凸函数。
(6)最小化
如果函数 f 是关于 (x,y) 是凸函数,集合 C 是非空凸集,定义函数:
g(x)=infy∈Cf(x,y)
是凸函数。
举一个例子,定义点 x 到某一集合 S 的距离定义为:
dist(x,S)=infy∈S∥x−y∥
若 S 是凸集,那么距离函数 dist(x,S) 是凸函数。
(7)透视函数
定义函数:
g(x,t)=tf(x/t)
定义域为:
dom g={(x,t)∣x/t∈domf,t>0}
透视函数是保凸运算。
(一定注意要求 t>0 )
设函数 f:Rn→R ,定义函数 f∗:Rn→R 为
f∗(y)=supx∈dom f(yTx−f(x))
此函数称为 f 的共轭函数。
(图片来自斯坦福Boyd Convex Optimization)
旋转直线 xy , y 是斜率,得到的直线与 f(x) 在整个定义域上的最大差值就是 f∗(y) 。不出意外的话(如果 f(x) 可微),在满足 f′(x)=y 的点 x 处差值最大。
考虑一个简单的例子。
求 f(x)=−log x 的共轭函数。
对于函数 xy+log x
当 y≥0 时,此函数没有上界。
当 y<0 时,此函数在 x=−1/y 时取最大值。代入得:
f∗(y)=−log (−y)−1
如果函数定义域内的所有下水平集都是凸集,则函数为拟凸函数。这个定义在理解了下水平集之后还是很好理解的。
拟凸函数在一些性质上很像凸函数一些性质的变形。
f(θx+(1−θ)y)≤max{f(x),f(y)}
这个性质称为拟凸函数的Jensen不等式。
拟凸函数也有相应的一阶条件。
拟凸函数的一阶条件:
f(y)≤f(x)⇒∇f(x)T(y−x)
这是对应的描述拟凸函数的不等式。
函数为对数凹,对所有的 x∈domf 有 f(x)>0 且 logf 是凹函数。
我们也可以用类似定义凸函数的方法定义对数凹函数。
如果函数定义域是凸集,且在定义域上为正,
对 x,y∈domf ,0≤θ≤1 有 f(θx+(1−θ)y))≥f(x)θf(y)(1−θ) ,则称 f(x) 是对数凹函数。
关于对数凸函数,有几个性质比较重要。
1对数凸函数是凸函数,非负凹函数是对数凹函数。
2 对于对数凹函数, f(x)∇2f(x)⪯∇f(x)∇f(x)T
3 对数凸函数的和仍然是对数凸函数。
4 积分:积分可以理解成无数个函数的和。
所以有以下结论。
对于任意 y∈C , f(x,y) 是 x 的对数凸函数,则函数
g(x)=∫C f(x,y)dy 是对数凸函数。这个用上面的求和的性质很好理解。
对数凹函数的积分也有积分性质。
如果函数 f:Rn×Rm→R 是对数凸函数,则
g(x)=∫f(x,y)dy
则此函数在 Rn 上是 x 的对数凹函数。此条件和上面那个不一样,注意区分,此条件要求更严。