1.如果函数 f f f是凸函数且 a ≥ 0 a≥0 a≥0,则函数 a f af af也为凸函数。如果函数 f 1 f1 f1和 f 2 f2 f2都是凸函数,则它们的和 f 1 + f 2 f1+ f2 f1+f2也是凸函数。
将非负伸缩以及求和运算结合起来,函数 f = w 1 f 1 + ⋯ + w m f m f=w_{1} f_{1}+\dots+w_{m} f_{m} f=w1f1+⋯+wmfm是凸函数。
这个性质可以扩展至无限项的求和以及积分的情形。例如,如果固定任意 y ∈ A y∈\mathcal{A} y∈A,函数 f ( x , y ) f(x,y) f(x,y)关于 x x x是凸函数,且对任意 y ∈ A y∈\mathcal{A} y∈A,有 w ( y ) ≥ 0 w(y)≥0 w(y)≥0,则
函数 g g g: g ( x ) = ∫ A w ( y ) f ( x , y ) d y g(x)=\int_{\mathcal{A}} w(y) f(x, y) d y g(x)=∫Aw(y)f(x,y)dy关于 x x x是凸函数。
假设函数 f : R " → R , A ∈ R n × m f:R"→R, A∈R_{n×m} f:R"→R,A∈Rn×m以及 b ∈ R n b∈R^n b∈Rn,定义 g : R m → R g:R^m→R g:Rm→R为 g ( x ) = f ( A x + b ) g(x)= f(Ax +b) g(x)=f(Ax+b),
其中 dom g = { x ∣ A x + b ∈ dom f } \operatorname{dom} g=\{x | A x+b \in \operatorname{dom} f\} domg={x∣Ax+b∈domf}.若函数 f f f是凸函数,则函数 g g g是凸函数。
如果函数 f 1 f1 f1和 f 2 f2 f2均为凸函数,则二者的逐点最大函数 f f f: f ( x ) = max { f 1 ( x ) , f 2 ( x ) } f(x)=\max \left\{f_{1}(x), f_{2}(x)\right\} f(x)=max{f1(x),f2(x)},其定义域为 dom f = dom f 1 ∩ dom f 2 \operatorname{dom} f=\operatorname{dom} f_{1} \cap \operatorname{dom} f_{2} domf=domf1∩domf2,仍然是凸函数。
例题1:以权为变量的最小二乘费用函数。
令 a 1 , ⋯ , a n ∈ R m a_{1}, \cdots, a_{n} \in \mathbf{R}^{m} a1,⋯,an∈Rm,在加权最小二乘问题中,
我们对所有的 x ∈ R m x∈R^m x∈Rm极小化目标函数 ∑ i = 1 n w i ( a i T x − b i ) 2 \sum_{i=1}^{n} w_{i}\left(a_{i}^{T} x-b_{i}\right)^{2} ∑i=1nwi(aiTx−bi)2。 我们称 w i w_i wi为权,并允许负的
w i w_i wi(则目标函数有可能无下界)。
我们定义(最优)加权最小二乘费用函数为
g ( w ) = inf x ∑ i = 1 n w i ( a i T x − b i ) 2 g(w)=\inf _{x} \sum_{i=1}^{n} w_{i}\left(a_{i}^{T} x-b_{i}\right)^{2} g(w)=infx∑i=1nwi(aiTx−bi)2,
其定义域为
dom g = { w ∣ inf x ∑ i = 1 n w i ( a i T x − b i ) 2 > − ∞ } \operatorname{dom} g=\left\{w | \inf _{x} \sum_{i=1}^{n} w_{i}\left(a_{i}^{T} x-b_{i}\right)^{2}>-\infty\right\} domg={w∣infx∑i=1nwi(aiTx−bi)2>−∞},
因为函数 g g g是一族关于 w w w的线性函数的下确界(对应于不同的 x ∈ R n x∈R^n x∈Rn),它是 w w w的凹函数。
例题2:对称矩阵的最大特征值。
定义函数 f ( X ) = λ max ( X ) f(X)=\lambda_{\max }(X) f(X)=λmax(X),其定义域为 d o m f = S m dom f= S^m domf=Sm,它是凸函数。为了说明这一点, 我们将 f f f表述为
f ( X ) = sup { y T X y ∣ ∥ y ∥ 2 = 1 } f(X)=\sup \left\{y^{T} X y |\|y\|_{2}=1\right\} f(X)=sup{yTXy∣∥y∥2=1},
即针对不同的 y ∈ R n y∈R^n y∈Rn关于 X X X的一族线性函数(即 y T X y y^T Xy yTXy)的逐点上确界。
例题3:矩阵范数。
考虑函数 f ( X ) = ∥ X ∥ 2 f(X)=\|X\|_{2} f(X)=∥X∥2,其定义域为 d o m f = R p × q domf= R^{p×q} domf=Rp×q,其中 ∥ ⋅ ∥ 2 \|\cdot\|_{2} ∥⋅∥2表示谱范数或者最大奇异值。函数 f f f可以表述为
f ( X ) = sup { u T X v ∣ ∥ u ∥ 2 = 1 , ∥ v ∥ 2 = 1 } f(X)=\sup \left\{u^{T} X v |\|u\|_{2}=1,\|v\|_{2}=1\right\} f(X)=sup{uTXv∣∥u∥2=1,∥v∥2=1},
由于它是 X X X的一族线性函数的逐点上确界,所以是凸函数。
给定函数 h : R k → R h: \mathbf{R}^{k} \rightarrow \mathbf{R} h:Rk→R以及 g : R n → R k g: \mathbf{R}^{n} \rightarrow \mathbf{R}^{k} g:Rn→Rk,定义复合函数 f = h ∘ g : R n → R f=h \circ g: \mathbf{R}^{n} \rightarrow \mathbf{R} f=h∘g:Rn→R为
f ( x ) = h ( g ( x ) ) , dom f = { x ∈ dom g ∣ g ( x ) ∈ dom h } f(x)=h(g(x)), \quad \operatorname{dom} f=\{x \in \operatorname{dom} g | g(x) \in \operatorname{dom} h\} f(x)=h(g(x)),domf={x∈domg∣g(x)∈domh},
我们考虑当函数 f f f保凸或者保凹时,函数 h h h和 g g g必须满足的条件。
当 k = 1 \mathbf{k=1} k=1时,即 h : R → R , g : R n → R h: \mathbf{R} \rightarrow \mathbf{R}, g: \mathbf{R}^{n} \rightarrow \mathbf{R} h:R→R,g:Rn→R,仅考虑当 n = 1 \mathbf{n=1} n=1的情况。
为了找出复合规律,假设函数 h h h和 g g g是二次可微的,并且 dom g = dom h = R \operatorname{dom} g=\operatorname{dom} h=R domg=domh=R,在此假设下,函数 f f f是凸的等价于 f ′ ′ ≥ 0 f''≥0 f′′≥0.
复合函数 f = h ∘ g f=h \circ g f=h∘g的二阶导为: f ′ ′ ( x ) = h ′ ′ ( g ( x ) ) g ′ ( x ) 2 + h ′ ( g ( x ) ) g ′ ′ ( x ) f^{\prime \prime}(x)=h^{\prime \prime}(g(x)) g^{\prime}(x)^{2}+h^{\prime}(g(x)) g^{\prime \prime}(x) f′′(x)=h′′(g(x))g′(x)2+h′(g(x))g′′(x),
由此式子,可得到:
如果 h h h是凸函数且非减( h ′ ′ ⩾ 0 h^{\prime \prime} \geqslant 0 h′′⩾0且 h ′ ⩾ 0 h^{\prime} \geqslant 0 h′⩾0), g g g是凸函数( g ′ ′ ⩾ 0 g^{\prime \prime} \geqslant 0 g′′⩾0),则 f f f是凸函数( f ′ ′ ≥ 0 f''≥0 f′′≥0);
如果 h h h是凸函数且非增, g g g是凹函数,则 f f f是凸函数;
如果 h h h是凹函数且非减, g g g是凹函数,则 f f f是凹函数;
如果 h h h是凹函数且非增, g g g是凸函数,则 f f f是凹函数。
上述在函数 h h h和 g g g是二次可微,并且 dom g = dom h = R \operatorname{dom} g=\operatorname{dom} h=\mathbf{R} domg=domh=R时成立。(1)
对于更一般的情况,如 n > 1 \mathbf{n>1} n>1,不再假设函数 h h h和 g g g可微或者 dom g = R n , dom h = R \operatorname{dom} g=\mathbf{R}^{n}, \operatorname{dom} h=\mathbf{R} domg=Rn,domh=R,仍有:
如果 h h h是凸函数且 h ~ \tilde{h} h~非减, g g g是凸函数,则 f f f是凸函数;
如果 h h h是凸函数且 h ~ \tilde{h} h~非增, g g g是凹函数,则 f f f是凸函数;
如果 h h h是凹函数且 h ~ \tilde{h} h~非减, g g g是凹函数,则 f f f是凹函数;
如果 h h h是凹函数且 h ~ \tilde{h} h~非增, g g g是凸函数,则 f f f是凹函数。(2)
其中, h ~ \tilde{h} h~表示函数 h h h的扩展值延伸,若点不在 d o m h domh domh内,对其赋值 ∞ ∞ ∞(若 h h h是凸函数)或者 − ∞ -∞ −∞(若 h h h是凹函数。)
(2)和(1)的不同是我们要求扩展值延伸 h ~ \tilde{h} h~在整个 R R R上非增或者非减。
h ~ \tilde{h} h~非减意味着对于任意 x , y ∈ R , x < y x, y \in \mathbf{R}, x
举个小例子来理解以下:
函数 h ( x ) = x 1 / 2 h(x)=x^{1 / 2} h(x)=x1/2,定义域为 dom h = R + \operatorname{dom} h=\mathbf{R}_{+} domh=R+,显然为凹函数,若 h ~ \tilde{h} h~不在 d o m h domh domh内,则为 − ∞ -∞ −∞,取 x = − 1 , y = 1 x=-1,y=1 x=−1,y=1,则 h ( x ) = − ∞ , h ( y ) = 1 , h ( x ) < h ( y ) h(x)=-∞,h(y)=1,h(x)
●如果 g g g是凸函数则 e g ( x ) e^{g(x)} eg(x)是凸函数。
依据:如果 h h h是凸函数且非减, g g g是凸函数,则 f f f是凸函数。
●如果 g g g是凹函数且大于零,则 l o g g ( x ) log g(x) logg(x)是凹函数。
依据:如果 h h h是凹函数且非减, g g g是凹函数,则 f f f是凹函数.
●如果 g g g是凹函数且大于零,则 1 / g ( x ) 1/g(x) 1/g(x)是凸函数。
依据:如果 h h h是凸函数且非增, g g g是凹函数,则 f f f是凸函数.
●如果 g g g是凸函数且不小于零, p ≥ 1 p≥1 p≥1,则 g ( x ) p g(x)^p g(x)p是凸函数。
●如果 g g g是凸函数,则 − l o g ( − g ( x ) ) -log(-g(x)) −log(−g(x))在 { x ∣ g ( x ) < 0 } \{x | g(x)<0\} {x∣g(x)<0}上是凸函数。
考虑 k ≥ 1 k≥1 k≥1的情况,此时更复杂一些。设 f ( x ) = h ( g ( x ) ) = h ( g 1 ( x ) , ⋯ , g k ( x ) ) f(x)=h(g(x))=h\left(g_{1}(x), \cdots, g_{k}(x)\right) f(x)=h(g(x))=h(g1(x),⋯,gk(x)),
其中, h : R k → R , g i : R n → R h: \mathbf{R}^{k} \rightarrow \mathbf{R}, \quad g_{i}: \mathbf{R}^{n} \rightarrow \mathbf{R} h:Rk→R,gi:Rn→R,为了一般性,假设 n = 1 \mathbf{n=1} n=1,先对函数求二阶导为:
f ′ ′ ( x ) = g ′ ( x ) T ∇ 2 h ( g ( x ) ) g ′ ( x ) + ∇ h ( g ( x ) ) T g ′ ′ ( x ) f^{\prime \prime}(x)=g^{\prime}(x)^{T} \nabla^{2} h(g(x)) g^{\prime}(x)+\nabla h(g(x))^{T} g^{\prime \prime}(x) f′′(x)=g′(x)T∇2h(g(x))g′(x)+∇h(g(x))Tg′′(x),
可以得到:
如果 h h h是凸函数且在每维分量上 h h h非减, g i g_i gi是凸函数,则 f f f是凸函数;
如果 h h h是凸函数且在每维分量上 h h h非增, g i g_i gi是凹函数,则 f f f是凸函数;
如果 h h h是凹函数且在每维分量上 h h h非减, g i g_i gi是凹函数,则 f f f是凹函数。
和标量的情形类似,对于 n > 1 n> 1 n>1,类似的复合结论仍然成立,不仅 h h h需要满足单调性条件,其扩展值延伸 h ~ \tilde{h} h~同样必须满足。
●令 h ( z ) = z [ 1 ] + ⋯ + z [ r ] h(z)=z_{[1]}+\cdots+z_{[r]} h(z)=z[1]+⋯+z[r],即对 z ∈ R k z∈R^k z∈Rk的前 r r r大分量进行求和.则 h h h是凸函数且在每一维分量上非减。假设 g 1 , ⋯ , g k g_{1}, \cdots, g_{k} g1,⋯,gk是 R n R^n Rn上的凸函数,则复合函数 f = h ∘ g f=h \circ g f=h∘g,即最大 r r r个 g i g_{i} gi函数的逐点和,是凸函数。
●函数 h ( z ) = log ( ∑ i = 1 k e z i ) h(z)=\log \left(\sum_{i=1}^{k} \mathrm{e}^{z_{i}}\right) h(z)=log(∑i=1kezi)是凸函数且在每一维分量上非减,因此只要 g i g_{i} gi是凸函数, log ( ∑ i = 1 k e z i ) \log \left(\sum_{i=1}^{k} \mathrm{e}^{z_{i}}\right) log(∑i=1kezi)就是凸函数。
●对 0 < p ≤ 1 0 0<p≤1
●设 p ⩾ 1 , g 1 , ⋯ , g k p \geqslant 1, g_{1}, \cdots, g_{k} p⩾1,g1,⋯,gk是凸函数且非负。则函数 ( ∑ i = 1 k g i ( x ) p ) 1 / p \left(\sum_{i=1}^{k} g_{i}(x)^{p}\right)^{1 / p} (∑i=1kgi(x)p)1/p是凸函数。
证明:考虑函数 h : R k → R h: \mathbf{R}^{k} \rightarrow \mathbf{R} h:Rk→R, h ( z ) = ( ∑ i = 1 k max { z i , 0 } p ) 1 / p h(z)=\left(\sum_{i=1}^{k} \max \left\{z_{i}, 0\right\}^{p}\right)^{1 / p} h(z)=(∑i=1kmax{zi,0}p)1/p,
其中 dom h = R k \operatorname{dom} h=\mathbf{R}^{k} domh=Rk,因此 h = h ~ h=\tilde{h} h=h~.由函数 h h h是凸函数且非减可知 h ( g ( x ) ) h(g(x)) h(g(x))关于 x x x是凸函数。对 z ≥ 0 z≥0 z≥0,我们有 h ( z ) = ( ∑ i = 1 k z i p ) 1 / p h(z)=\left(\sum_{i=1}^{k} z_{i}^{p}\right)^{1 / p} h(z)=(∑i=1kzip)1/p,所以 ( ∑ i = 1 k g i ( x ) p ) 1 / p \left(\sum_{i=1}^{k} g_{i}(x)^{p}\right)^{1 / p} (∑i=1kgi(x)p)1/p是凸函数。
●几何平均函数 h ( z ) = ( ∏ i = 1 k z i ) 1 / k h(z)=\left(\prod_{i=1}^{k} z_{i}\right)^{1 / k} h(z)=(∏i=1kzi)1/k ,定义域为$ \mathbf{R}_{+}^{k}$ ,它是凹函数,且其扩展值延伸在每维分量上非减。因此若 g 1 , ⋯ , g k g_{1}, \cdots, g_{k} g1,⋯,gk是非负凹函数,它们的几何平均 ( ∏ i = 1 k g i ) 1 / k \left(\prod_{i=1}^{k} g_{i}\right)^{1 / k} (∏i=1kgi)1/k也是非负凹函数。