个人博客地址 Glooow,欢迎光临~~~
前面提到过一次保凸变换,前面针对的是集合,凸集经过一定的保凸变换,映射后的集合仍然是凸集。这里复习一下
而这里要讲的是对函数经过操作以后,得到的仍然是凸函数。
离散情况: f = ∑ ω i f i , ω i ≥ 0 f=\sum\omega_i f_i,\omega_i\ge0 f=∑ωifi,ωi≥0
连续情况: f = ∫ ω ( y ) f ( y ) d y , ω ( y ) ≥ 0 f=\int\omega(y)f(y)dy,\omega(y)\ge0 f=∫ω(y)f(y)dy,ω(y)≥0
若 f f f 为凸函数,则 f ( A x + b ) f(Ax+b) f(Ax+b) 也为凸函数。
Remarks:反之则不一定成立,若想成立(根据后面复合函数的原理)则仿射变换应具有一定的单调性。
若 f i f_i fi 均为凸函数,则 f ( x ) = max i { f 1 ( x ) , . . . , f n ( x ) } f(x)=\max_i\{f_1(x),...,f_n(x)\} f(x)=maxi{f1(x),...,fn(x)} 也为凸函数。
Remarks:这实际上可以看成是 epi f = ⋂ epi f i \text{epi} f=\bigcap \text{epi}f_i epif=⋂epifi,多个凸集的交集仍然是凸集。
若与仿射变换相结合,则可以得到 f ( x ) = max i { a 1 T x + b 1 , . . . , a n T x + b n } f(x)=\max_i\{a_1^Tx+b_1,...,a_n^Tx+b_n\} f(x)=maxi{a1Tx+b1,...,anTx+bn} 也是凸函数。
例:根据上述结论,可以推广得到, n n n 个元素中最大的 r r r 的求和也是凸函数,证明很简单。
若 f ( x , y ) f(x,y) f(x,y) 关于 x x x 是凸的,对任意 y ∈ A y\in\mathcal{A} y∈A,则 g ( x ) = sup y ∈ A f ( x , y ) g(x)=\sup_{y\in\mathcal{A}}f(x,y) g(x)=supy∈Af(x,y) 也是凸的。
Remarks:上述情况跟逐元素最大值是类似的,可以看成是无穷个 epigraph 的交集。
由上述结论,可以得到一个重要性质
Property:若 f f f 为凸函数,则 f ( x ) = sup { g ( x ) ∣ g is affine , g ( z ) ≤ f ( z ) , ∀ z } f(x)=\sup\{g(x)| g\ \text{is affine},g(z)\le f(z),\forall z\} f(x)=sup{g(x)∣g is affine,g(z)≤f(z),∀z}
Remarks:上述性质所描述的事情实际上就是 f f f 被很多个支撑超平面(以及更靠下的平面)紧紧的围起来了。证明过程实际上就是找到每个 x x x 对应的(支撑)超平面。
通过上面的证明,可以得到的一个结论就是 ∀ x ∈ int dom f \forall x\in \text{int dom}f ∀x∈int domf,都存在一个 y y y 使得
f ( z ) ≥ f ( x ) + y T ( z − x ) , ∀ z ∈ dom f f(z)\ge f(x)+y^T(z-x),\forall z\in\text{dom}f f(z)≥f(x)+yT(z−x),∀z∈domf
由此可以引出**次梯度(subgradient)**的概念
∂ f = { g ∣ f ( z ) ≥ f ( x ) + g T ( z − x ) , ∀ z ∈ dom f } \partial f=\{g| f(z)\ge f(x)+g^T(z-x),\forall z\in\text{dom}f \} ∂f={g∣f(z)≥f(x)+gT(z−x),∀z∈domf}
注意这里得到的是一系列梯度值的集合,这个集合有以下性质
- ∂ f ( x ) ≠ ∅ , if x ∈ int dom f \partial f(x)\ne \varnothing, \text{if}\ x\in\text{int dom}f ∂f(x)=∅,if x∈int domf
- ∂ f ( x ) \partial f(x) ∂f(x) convex and closed
- ∂ f ( x ) \partial f(x) ∂f(x) bounded if x ∈ int dom f x\in\text{int dom}f x∈int domf
例:应用上述结论,可验证下面这些函数是凸的
前面提到了逐元素上确界,实际上就是 epigraph 的交集,而取下确界呢?是类似的,只不过对 f ( x , y ) f(x,y) f(x,y) 的要求更严了
若 f ( x , y ) f(x,y) f(x,y) 关于 ( x , y ) (x,y) (x,y) 是凸的, C C C 是一个凸集,则 g ( x ) = inf y ∈ C f ( x , y ) g(x)=\inf_{y\in C}f(x,y) g(x)=infy∈Cf(x,y) 是凸的。
上述性质可应用下确性质定义来证明,也可以从 epigraph 角度来理解: ∀ ( x , t ) ∈ epi g \forall(x,t)\in\text{epi }g ∀(x,t)∈epi g,都有 ( x , y , t ) ∈ epi f , for some y ∈ C (x,y,t)\in \text{epi }f,\text{ for some }y\in C (x,y,t)∈epi f, for some y∈C,所以 epi g \text{epi }g epi g 实际上可以看作 epi f \text{epi }f epi f 向低维空间中的一个投影,也是一个仿射变换/线性变换,因此 epi g \text{epi }g epi g 也是凸的。
Remarks:注意上面还要求 C C C 是一个凸集,因为凸函数要求其定义域也为凸集。
例:到集合 C C C 最近距离: dist ( x , S ) = inf y ∈ S ∥ x − y ∥ \text{dist}(x,S)=\inf_{y\in S}\Vert x-y\Vert dist(x,S)=infy∈S∥x−y∥ 是凸的,如果 S S S 是凸的。
两个凸函数的复合函数不一定是凸的,比如 f ( x ) = − x , g ( x ) = x 2 f(x)=-x,g(x)=x^2 f(x)=−x,g(x)=x2,那么 f ( g ( x ) ) = − x 3 f(g(x))=-x^3 f(g(x))=−x3 非凸
1. 标量复合函数
有函数 g : R n → R , h : R → R g:R^n\to R,\ h:R\to R g:Rn→R, h:R→R,对于复合函数 f ( x ) = h ( g ( x ) ) f(x)= h(g(x)) f(x)=h(g(x))
- f ( x ) f(x) f(x) 为凸函数,若 g g g convex, h h h convex, h h h 单调不减
- f ( x ) f(x) f(x) 为凸函数,若 g g g concave, h h h convex, h h h 单调增
2. 向量复合函数
有函数 g : R n → R k , h : R k → R g:R^n\to R^k,\ h:R^k\to R g:Rn→Rk, h:Rk→R,对于复合函数 f ( x ) = h ( g ( x ) ) = h ( g 1 ( x ) , . . . , g n ( x ) ) f(x)= h(g(x))=h(g_1(x),...,g_n(x)) f(x)=h(g(x))=h(g1(x),...,gn(x))
- f ( x ) f(x) f(x) 为凸函数,若 g i g_i gi convex, h h h convex, h h h 关于每个元素都单调不减
- f ( x ) f(x) f(x) 为凸函数,若 g i g_i gi concave, h h h convex, h h h 关于每个元素都单调增
证明:标量函数 f ′ ′ ( x ) = h ′ ′ ( g ( x ) ) g ′ ( x ) 2 + h ′ ( g ( x ) ) g ′ ′ ( x ) f^{\prime \prime}(x)=h^{\prime \prime}(g(x)) g^{\prime}(x)^{2}+h^{\prime}(g(x)) g^{\prime \prime}(x) f′′(x)=h′′(g(x))g′(x)2+h′(g(x))g′′(x)
向量复合函数 f ′ ′ ( x ) = g ′ ( x ) T ∇ 2 h ( g ( x ) ) g ′ ( x ) + ∇ h ( g ( x ) ) T g ′ ′ ( x ) f^{\prime \prime}(x)=g^{\prime}(x)^{T} \nabla^{2} h(g(x)) g^{\prime}(x)+\nabla h(g(x))^{T} g^{\prime \prime}(x) f′′(x)=g′(x)T∇2h(g(x))g′(x)+∇h(g(x))Tg′′(x)
Remarks:
例:常见的例子有
函数 f : R n → R f:R^n\to R f:Rn→R 的透射变换 g : R n × R → R g:R^n\times R\to R g:Rn×R→R 定义为
g ( x , t ) = t f ( x / t ) , dom g = { ( x , t ) ∣ x / t ∈ dom f , t > 0 } g(x,t)=tf(x/t),\text{dom }g=\{(x,t)|x/t \in\text{dom }f,t>0 \} g(x,t)=tf(x/t),dom g={(x,t)∣x/t∈dom f,t>0}
若 f f f 是凸的,则 g g g 是凸的。
Remarks:上述变换在一些问题中应该能够对应一些物理意义,不过我暂时还没想起来。证明也可以用 epigraph 来证明。
例:对负熵 f ( x ) = − log x f(x)=-\log x f(x)=−logx,相对熵为 g ( x , t ) = t log t − t log x g(x,t)=t\log t-t\log x g(x,t)=tlogt−tlogx
类似的,对向量函数 K L ( u , v ) = − ∑ ( u i log ( u i / v i ) − u i + v i ) KL(u,v)=-\sum(u_i\log(u_i/v_i)-u_i+v_i) KL(u,v)=−∑(uilog(ui/vi)−ui+vi) 也是凸的,这实际上就就是 KL-divergence。