目录
3.1 凸函数的定义、性质(凸函数的判定)、示例
3.2 保凸运算
3.4 拟凸函数
3.5 对数凸函数
3.3 共轭函数
3.6 关于广义不等式的凸性
Def 1 凸函数的定义、几何含义
定理1:仿射函数等价于既凸又凹函数。
定理2 (凸性由函数在直线上的性质刻画)*:凸函数的充要条件是与其定义域相交的任何直线上都是凸的。(可以将函数限制在直线上来判断其是否为凸函数)
定理3:凸函数在其定义域相对内部连续,只可能在相对边界上不连续。
Def 2 凸函数扩展值延伸的定义
目的:简化定义域符号描述:例1.凸函数定义的简化;例2.两个凸函数逐点和函数定义域的简化
凸集的示性函数[符号描述更灵活]:例1.凸函数的极小化 简化
ps.凹函数扩展值延伸
定理4(可微凸函数的一阶条件) :假设f可微,则函数f是凸(严格)函数的充要条件是domf是凸集且对任意 x , y ∈ d o m f x,y \in domf x,y∈domf,下式成立:
f ( y ) ≥ ( > ) f ( x ) + Δ f ( x ) T ( y − x ) f(y)\geq(>) f(x)+\Delta f(x)^T(y-x) f(y)≥(>)f(x)+Δf(x)T(y−x)
一阶条件的含义:
1.凸函数等价于某函数的一阶泰勒近似是全局下估计
2.凸函数局部信息(某点函数值及导数)可知全局信息(全局下估计、全局极小)
定理5:如果 ▽ f ( x ) = 0 \bigtriangledown f(x)=0 ▽f(x)=0,那么对于所有 y ∈ d o m f y \in domf y∈domf,存在 f ( y ) ≥ f ( x ) f(y)\geq f(x) f(y)≥f(x),即x是函数f的全局极小点。
ps.严格凸函数、凹函数的一阶条件
定理6(可微凸函数的二阶条件)*:假设f可微,则函数f是凸函数等价于Hessian矩阵是半正定矩阵:对于所有的 x ∈ d o m f x \in domf x∈domf,有 ▽ 2 f ( x ) ≥ 0 \bigtriangledown^2 f(x)\geq 0 ▽2f(x)≥0。
定理7(可微严格凸函数的二阶条件):(1)假设f可微,则函数f是严格凸函数对于所有的 x ∈ d o m f x \in domf x∈domf,有 ▽ 2 f ( x ) > 0 \bigtriangledown^2 f(x)> 0 ▽2f(x)>0;(2)逆定理不一定成立。
ps.凹函数的二阶条件
示例:二次函数
注意:凸函数的定义域必须是凸集
证明方法:定义、直线上的等价、可微凸函数等价条件
一维凸函数:指数函数、幂函数、绝对值幂函数、对数函数、负熵
多维凸函数:范数、最大值函数、二次-线性分式函数、指数和的对数、几何平均、对数-行列式
Def 3 下水平集的定义
定理8(不等价):(1)凸函数的下水平集为凸集;(2)下水平集是凸集的函数不一定是凸函数。(反之不一定成立)
ps.上水平集的定义
Def 4 上境图的定义
定理9(等价)*:一个函数是凸函数等价于其上境图是凸集,一个函数是凹函数等价于其下境图是凸集。
示例:矩阵分式函数
凸函数一阶条件的几何含义:上境图结合凸集的结论证明凸函数的结论
Def 5 基本不等式扩展至多点的凸组合、积分、期望
利用Jensen不等式证明以下不等式:
Def 6 算数-几何平均不等式
Def 7 Holder不等式
定理10:(1)凸函数构成的集合是凸锥:凸函数的非负加权求和仍然是凸函数,即函数 f = w 1 f 1 + . . . + w m f m f=w_1f_1+...+w_mf_m f=w1f1+...+wmfm是凸函数;
(2)凹函数的非负加权求和是凹函数;
(3)严格凸(凹)函数的非负、非零加权求和是严格凸(凹)函数。
推论11(推广到无限项求和、积分情形):如果固定任意 y ∈ A y \in A y∈A,函数f(x,y)关于x是凸函数,且对任意 y ∈ A y \in A y∈A,有 w ( y ) ≥ 0 w(y) \geq 0 w(y)≥0,则函数g,
g(x)=,关于x是凸函数。
定理12*:定义g(x)=f(Ax+b),如果f是凸函数,则函数g是凸函数;如果f是凹函数,则函数g是凹函数。
Def 8 透视函数的定义
定理13:(1)如果f是凸函数,则f的透视函数g也是凸函数;(2)如果f是凹函数,则f的透视函数g也是凹函数。
示例:
1.Euclid范数的平方 的透视函数
2.负对数的透视函数:相对熵、K-L散度、归一化熵
定理14:(1)如果函数 f 1 和 f 2 f_1和f_2 f1和f2均为凸函数,则二者的逐点最大函数f(x)=max{ f 1 ( x ) , f 2 ( x ) f_1(x),f_2(x) f1(x),f2(x)}仍然是凸函数;(2)对于凸函数 f 1 , . . . , f m f_1,...,f_m f1,...,fm同样成立。
示例:
1.分片线性函数
定理15:(1)分片线性函数是凸函数;(2)*凸函数可以表示为分片线性函数。
2.最大r个分量之和
定理16:最大r个分量之和是凸函数。
逐点最大性质扩展至无限个凸函数的逐点上确界
定理17(一系列凸函数的逐点上确界是凸函数):(1)如果对于任意 y ∈ A y \in A y∈A,函数f(x,y)关于x都是凸函数,则函数 g ( x ) = s u p y ∈ A f ( x , y ) g(x)=sup_{y \in A}f(x,y) g(x)=supy∈Af(x,y)关于x也是凸的。(2)一系列凹函数的逐点下确界是凹函数。
示例:
1.集合的支撑函数;
2.到集合中最远的距离;
3.以权为变量的最小二乘费用函数;
4.对称矩阵的最大特征值;
5.矩阵范数:(1)矩阵的二范数(矩阵的最大奇异值);(2)推广至矩阵的一般范数(诱导范数)
定理18(将凸函数表示成一族仿射函数的逐点上确界):几乎所有的凸函数都可以表示为一族仿射函数的逐点上确界。例如, R n R_n Rn中的凸函数f是它所有仿射全局下估计的逐点上确界。
特殊形式的最小化同样可以得到凸函数
定理19:如果函数f关于(x,y)是凸函数,集合C是非空凸集,定义函数 g ( x ) = i n f y ∈ C f ( x , y ) g(x)=inf_{y \in C}f(x,y) g(x)=infy∈Cf(x,y)。若存在某个x使得 g ( x ) > − ∞ g(x)>-\infty g(x)>−∞,则函数g关于x是凸函数。
示例:
1.Schur补的推导;
定理20:如果矩阵C可逆,称矩阵 A − B C − 1 B T A-BC^{-1}B^T A−BC−1BT是C在矩阵 ( A B B T C ) \left( \begin{matrix} A & B \\ B^T & C \end{matrix} \right) (ABTBC)中的Schur补。如果该矩阵半正定,则Schur补也半正定。
2.到某一集合的距离;
3.h是凸函数,则函数g(x)=inf{h(y)|Ay=x}是凸函数
思路:复合函数 f ( x ) = h ( g ( x ) ) , h : R k → R , g : R n → R k f(x)=h(g(x)),h:R_k\to R,g:R_n\to R_k f(x)=h(g(x)),h:Rk→R,g:Rn→Rk保凸时, h ( x ) 和 g ( x ) h(x)和g(x) h(x)和g(x)必须满足的条件
定理21:对于n=1,假设函数f和g都是二次可微的, d o m g = R , d o m h = R domg=R,domh=R domg=R,domh=R,则:
(1)如果h是凸函数且非减,g是凸函数,则f是凸函数;
(2)如果h是凸函数且非增,g是凹函数,则f是凸函数;
(3)如果h是凹函数且非减,g是凹函数,则f是凹函数;
(4)如果h是凹函数且非增,g是凸函数,则f是凹函数;
定理22:对于n>1,无需假设函数f和g可微,其中 h ‾ \overline{h} h是h的扩展值延伸, d o m g = R n , d o m h = R domg=R_n,domh=R domg=Rn,domh=R,有:
(1)如果h是凸函数且 h ‾ \overline{h} h非减,g是凸函数,则f是凸函数;
(2)如果h是凸函数且 h ‾ \overline{h} h非增,g是凹函数,则f是凸函数;
(3)如果h是凹函数且 h ‾ \overline{h} h非减,g是凹函数,则f是凹函数;
(4)如果h是凹函数且 h ‾ \overline{h} h非增,g是凸函数,则f是凹函数;
含义: h ‾ \overline{h} h非减的含义
注意: h ‾ \overline{h} h非减的条件必不可少(反例)。
定理23:对于n=1,假设函数f和g都是二次可微的, d o m g = R , d o m h = R k domg=R,domh=R_k domg=R,domh=Rk则:
(1)如果h是凸函数且在每维分量上h非减, g i g_i gi是凸函数,则f是凸函数;
(2)如果h是凸函数且在每维分量上h非增, g i g_i gi是凹函数,则f是凸函数;
(3)如果h是凹函数且在每维分量上h非减, g i g_i gi是凹函数,则f是凹函数;
(4)如果h是凹函数且在每维分量上h非增, g i g_i gi是凸函数,则f是凹函数;
定理24:对于n>1,无需假设函数f和g可微,其中 h ‾ \overline{h} h是h的扩展值延伸, d o m g = R n , d o m h = R k domg=R_n,domh=R_k domg=Rn,domh=Rk,有:
(1)如果h是凸函数且在每维分量上 h ‾ \overline{h} h非减, g i g_i gi是凸函数,则f是凸函数;
(2)如果h是凸函数且在每维分量上 h ‾ \overline{h} h非增, g i g_i gi是凹函数,则f是凸函数;
(3)如果h是凹函数且在每维分量上 h ‾ \overline{h} h非减, g i g_i gi是凹函数,则f是凹函数;
(4)如果h是凹函数且在每维分量上 h ‾ \overline{h} h非增, g i g_i gi是凸函数,则f是凹函数;
含义: h ‾ \overline{h} h非减的含义: d o m h − R + k = d o m h domh-R^k_+=domh domh−R+k=domh
示例:矢量复合的例子
将拟凸函数的基本性质作为定义
Def 9 函数f是拟凸函数的充要条件是domf是凸集,且对于任意 x , y ∈ d o m f x,y\in domf x,y∈domf及 0 ≤ θ ≤ 1 0\leq θ \leq 1 0≤θ≤1,有 f ( θ x + ( 1 − θ ) y ) ≤ m a x f(θx+(1-θ)y)\leq max f(θx+(1−θ)y)≤max{ f ( x ) , f ( y ) f(x),f(y) f(x),f(y)}。也就是说,线段中任意一点的函数值不超过其端点函数值中最大的那个。
示例:
1.非零向量的基数;
2.半正定矩阵的秩;
定理25(拟凸函数等价于下水平集是凸集):函数 f : R n → R f:R_n\to R f:Rn→R是拟凸函数,如果其定义域及其所有下水平集 S α S_α Sα={ x ∈ d o m f ∣ f ( x ) ≤ α x\in domf|f(x)\leqα x∈domf∣f(x)≤α}。
ps.1.拟线性函数的定义;2.凸函数是拟凸函数。
R R R上的拟凸函数示例:
1.对数函数是拟线性函数;
2.上取值函数是拟线性函数;
注:拟线性函数可能是凹函数,也可能不连续。
R n R_n Rn上的拟凸函数示例:
1.向量的长度是拟凸函数;
2. f ( x 1 , x 2 ) = x 1 x 2 f(x_1,x_2)=x_1x_2 f(x1,x2)=x1x2是拟凹函数;
3.线性分式函数是拟线性函数;
4.距离比函数是拟凸函数;
5.内生回报率:(1)贴现的概念;(2)内生回报率是拟凹函数。
定理26:可以将拟凸函数f的下水平集表示为凸函数的不等式:选择一族凸函数 Φ t : R n → R , t ∈ R Φ_t:R_n\to R,t\in R Φt:Rn→R,t∈R表示凸函数的编号,这些函数满足 f ( x ) ≤ t f(x)\leq t f(x)≤t等价于 Φ t ≤ 0 Φ_t\leq 0 Φt≤0,即拟凸函数f的t-下水平集是凸函数 Φ t Φ_t Φt的0-下水平集。
示例:凸凹函数之比是拟凸函数
定理27(拟凸性由函数在直线上的性质刻画) :函数f是拟凸的充要条件是它在和其定义域相交的任意直线上是拟凸函数。
定理28(R上的拟凸函数的刻画):f是R的拟凸函数,则该函数满足以下一个条件(1)函数f是单调的;(2)存在一点 c ∈ d o m f c\in domf c∈domf,使得对于 t ≤ c t\leq c t≤c(且 t ∈ d o m f t\in domf t∈domf),f非增,对于 t ≥ c t\geq c t≥c(且 t ∈ d o m f t\in domf t∈domf),f非减。
定理29(等价):函数 f : R n → R f:R_n\to R f:Rn→R可微,则函数f是拟凸的充要条件是: d o m f dom f domf是凸集,且对于任意 x , y ∈ x,y \in x,y∈ domf有f(y) ≤ \leq ≤ f(x) ⇒ \Rightarrow ⇒ ∇ f ( x ) T ( y − x ) ≤ 0 \nabla f(x)^T(y-x)\leq0 ∇f(x)T(y−x)≤0。
ps:1.一阶条件的几何含义;2.凸性一阶条件和拟凸性一阶条件的区别。
定理30(不等价):假设函数f二次可微,(1)如果函数f是拟凸函数,则对于任意 x ∈ d o m f x\in domf x∈domf以及任意 y ∈ R n y\in R_n y∈Rn有 y T ∇ f ( x ) = 0 y^T\nabla f(x)=0 yT∇f(x)=0 ⇒ \Rightarrow ⇒ y T ∇ 2 f ( x ) y ≥ 0 y^T\nabla^2 f(x)y\geq0 yT∇2f(x)y≥0;
(2)如果对于任意 x ∈ d o m f x\in domf x∈domf,以及任意 y ∈ R n y\in R^n y∈Rn,函数f满足
y T ∇ f ( x ) = 0 y^T\nabla f(x)=0 yT∇f(x)=0 ⇒ \Rightarrow ⇒ y T ∇ 2 f ( x ) y > 0 y^T\nabla^2 f(x)y>0 yT∇2f(x)y>0,则函数f是拟凸函数。
定理31:f=max{ w 1 f 1 , . . . , x m f m w_1f_1,...,x_mf_m w1f1,...,xmfm},其中 w i ≥ 0 , f i w_i\geq 0,f_i wi≥0,fi是拟凸函数,则函数f是拟凸函数。
推论32: f ( x ) = s u p y ∈ C ( w ( y ) g ( x , y ) ) f(x)=sup_{y\in C}(w(y)g(x,y)) f(x)=supy∈C(w(y)g(x,y)),其中 w ( y ) ≥ 0 w(y)\geq 0 w(y)≥0,固定任意y,g(x,y)关于x是拟凸函数。
示例:最大广义特征值是拟凸函数
定理33:如果函数 g : R n → R g:R_n\to R g:Rn→R是拟凸函数,且函数 h : R → R h:R\to R h:R→R是非减的,则复合函数f=h(g)是拟凸函数。
示例:拟凸函数和一个仿射函数或线性分式函数复合得到拟凸函数
定理34:如果函数f(x,y)是x和y的联合拟凸函数,且C是凸集,则函数 g ( x ) = i n f y ∈ C f ( x , y ) g(x)=inf_{y\in C}f(x,y) g(x)=infy∈Cf(x,y)是拟凸函数。
Def 10 对数凸函数的定义
定理35(对数凸函数的等价定义):函数 f : R n → R f:R_n\to R f:Rn→R,其定义域是凸集,且对于任意 x ∈ d o m f x\in domf x∈domf 有f(x)>0,函数是对数凸函数,当且仅当对任意 x , y ∈ d o m f , 0 ≤ θ ≤ 1 x,y\in domf,0\leqθ\leq1 x,y∈domf,0≤θ≤1,有 f ( θ x + ( 1 − θ ) y ) ≥ f ( x ) θ f ( y ) 1 − θ f(θx+(1-θ)y)\geq f(x)^θ f(y)^{1-θ} f(θx+(1−θ)y)≥f(x)θf(y)1−θ。
定理36(凸函数、拟凸函数、对数凸函数的关系)*:(1)对数凸函数 ⊂ \subset ⊂凸函数 ⊂ \subset ⊂拟凸函数;
(2)非负凹函数 ⊂ \subset ⊂对数凹函数 ⊂ \subset ⊂拟凹函数。
示例:
1.仿射函数;
2.幂函数;
3.指数函数;
4.Guass概率密度函数的累积分布函数;
5.Gamma函数;
6.行列式;
7.行列式与迹的比;
8.对数凹函数的概率密度函数:多变量正态分布概率密度函数、指数分布的概率密度函数、凸集C上均匀分布的概率密度函数、Wishart分布
定理37(二次可微的对数-凸/凹函数):函数f二次可微,其中domf是凸集,函数f是对数-凸函数等价于 ∇ 2 l o g f ( x ) = 1 f ( x ) ∇ 2 f ( x ) − 1 f ( x ) 2 ∇ f ( x ) ∇ f ( x ) T ≥ 0 \nabla^2logf(x)=\frac{1}{f(x)}\nabla^2f(x)-\frac{1}{f(x)^2}\nabla f(x)\nabla f(x)^T\geq 0 ∇2logf(x)=f(x)1∇2f(x)−f(x)21∇f(x)∇f(x)T≥0。
定理38(乘积) :对数凸以及对数凹对乘积以及正的伸缩运算是封闭的。
定理39(求和):(1)*对数凹函数的和一般不是对数凹函数;(2)对数凸函数的和是对数凸函数。
定理40(积分):(1)对数凸函数的积分:如果对于任意 y ∈ C , f ( x , y ) y\in C,f(x,y) y∈C,f(x,y)是x的对数凸函数,则函数 g ( x ) = ∫ C f ( x , y ) d y g(x)=\int_Cf(x,y)dy g(x)=∫Cf(x,y)dy是对数凸函数;
(2)对数凹函数的积分:在一些特殊情况下对数凹函数的在积分后的性质可以保留。即:如果函数 f : R n × R m → R f:R_n\times R_m\to R f:Rn×Rm→R是对数凹函数,则函数 g ( x ) = ∫ f ( x , y ) d y g(x)=\int f(x,y)dy g(x)=∫f(x,y)dy在 R n R_n Rn上是x的对数凹函数;
推论41:(1)对数凹函数的概率密度分布函数的边际分布是对数凹函数;(2)对数凹函数对卷积是封闭的;(3)设 C ⊂ R n C\subset R_n C⊂Rn是凸集,w是 R n R_n Rn上的随机向量,设其具有对数凹的概率密度函数p,则函数f(x)=prob( x + w ∈ C x+w\in C x+w∈C)是x的对数凹函数。
示例:
1.概率密度函数的累积分布函数;
2.产生函数;
3.多面体的体积
Def 12 共轭函数的定义、几何含义
定理42:共轭函数是凸函数。
示例:
1.R上凸函数的共轭函数;
(1)仿射函数;
(2)负对数函数;
(3)指数函数;
(4)负熵函数;
(5)反函数
2.严格凸的二次函数;
3.对数-行列式;
4.示性函数:支撑函数;
5.指数和的对数函数;
6.范数:对偶范数单位球的示性函数;
7.范数的平方;
8.总收入和收益函数
定理43(Fenchel不等式):对于任意x和y,如下不等式成立 f ( x ) + f ∗ ( y ) ≥ x T y f(x)+f^*(y)\geq x^Ty f(x)+f∗(y)≥xTy,该不等式称为Fenchel不等式。
推论44(Young不等式):
常加粗样式用的Young不等式*:令 f ( x ) = x p − 1 f(x)=x^{p-1} f(x)=xp−1,g(x)= x 1 p − 1 x^{\frac{1}{{p-1}}} xp−11,可得
定理45*:如果函数f是闭的凸函数,则f**=f
定理46:可微函数的共轭称为f的Legendre变换,设函数f是凸函数且可微, f ∗ ( y ) = x ∗ T ∇ f ( x ∗ ) − f ( x ∗ ) f^*(y)=x^{*T}\nabla f(x^*)-f(x^*) f∗(y)=x∗T∇f(x∗)−f(x∗)。
定理47:若a>0以及 b ∈ R b \in R b∈R,g(x)=af(x)+b的共轭函数为 g ∗ ( y ) = a f ∗ ( y / a ) − b g^*(y)=af^*(y/a)-b g∗(y)=af∗(y/a)−b。
定理48:设 A ∈ R n × n A\in R_{n\times n} A∈Rn×n非奇异, b ∈ R n b\in R_n b∈Rn,则函数g(x)=f(Ax+b)的共轭函数, g ∗ ( y ) = f ∗ ( A − T y ) − b T A − T y g^*(y)=f^*(A^{-T}y)-b^TA^{-T}y g∗(y)=f∗(A−Ty)−bTA−Ty。
定理49:独立凸函数的和的共轭函数是各个凸函数的共轭函数的和。
Def 13 广义不等式的单调性
示例:
1.单调向量函数;
2.矩阵单调函数;
定理50(等价定义:单调性的梯度条件):可微函数f,其定义域是凸集,它是K-非减的,当且仅当,对于任意 x ∈ d o m f x\in domf x∈domf,有 ∇ f ( x ) ≥ K ∗ 0 \nabla f(x)\geq_{K^*} 0 ∇f(x)≥K∗0。
Def 14 K-凸函数、严格K-凸函数的定义
示例:
1.关于分量不等式的凸性;
2.矩阵凸性;
定理51*:矩阵凸性的等价定义是对于任意向量z,标量函数 z T f ( x ) z z^Tf(x)z zTf(x)z都是凸函数
定理52(直线上的性质):函数是K-凸的,当且仅当它在定义域上的任意直线上是K-凸的。
定理53(广义不等式的对偶):(1)函数f是K-凸的,当且仅当对任意 w ≥ K ∗ 0 w\geq_{K^*}0 w≥K∗0,函数 w T f w^Tf wTf是凸的;
(2)函数f是严格K-凸的,当且仅当对任意非零向量 w ≥ K ∗ 0 w\geq_{K^*}0 w≥K∗0,函数 w T f w^Tf wTf是严格凸的。
定理54(可微的K-凸函数):(1)可微函数f是K-凸的,当且仅当其定义域是凸集,且对于任意 x , y ∈ d o m f x,y\in domf x,y∈domf有 f ( y ) ≥ K f ( x ) + D f ( x ) ( y − x ) f(y)\geq_Kf(x)+Df(x)(y-x) f(y)≥Kf(x)+Df(x)(y−x);
(2)可微函数f是严格K-凸的,当且仅当其定义域是凸集,且对于任意 x , y ∈ d o m f x,y\in domf x,y∈domf, x ≠ y x\neq y x=y 有 f ( y ) > K f ( x ) + D f ( x ) ( y − x ) f(y)>_Kf(x)+Df(x)(y-x) f(y)>Kf(x)+Df(x)(y−x);
定理55:如果函数 g : R n → R p g:R_n\to R_p g:Rn→Rp是K-凸的,函数 h : R p → R h:R_p\to R h:Rp→R是凸的, h ‾ \overline h h是K-非减的,那么函数h(g)是凸的。