3.1, 3.2, 3.22, 3.28, 3.39, A2.23, A2.42, A2.46.
这道题考的是凸函数的定义。假设一个函数 f : R → R f:\mathbf{R}\to\mathbf{R} f:R→R ,并且 a , b ∈ d o m f a,b\in\mathbf{dom}\ f a,b∈dom f 且 a < b aa<b 。
(a)证明对于所有的 x ∈ [ a , b ] x\in[a,b] x∈[a,b] 都有:
f ( x ) ≤ b − x b − a f ( a ) + x − a b − a f ( b ) f(x)\le\frac{b-x}{b-a}f(a)+\frac{x-a}{b-a}f(b) f(x)≤b−ab−xf(a)+b−ax−af(b)
证明:显然 由凸函数的定义,存在 θ ∈ [ 0 , 1 ] \theta\in[0,1] θ∈[0,1] 使得
f ( θ x + ( 1 − θ ) y ) ≤ θ f ( x ) + ( 1 − θ ) f ( y ) f(\theta x+(1-\theta)y)\le\theta f(x)+(1-\theta)f(y) f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y)
令 y = x , θ = b − x b − a y=x,\theta=\dfrac{b-x}{b-a} y=x,θ=b−ab−x,则有:
f ( x ) ≤ b − x b − a f ( a ) + x − a b − a f ( b ) f(x)\le\frac{b-x}{b-a}f(a)+\frac{x-a}{b-a}f(b) f(x)≤b−ab−xf(a)+b−ax−af(b)
(b)证明对于所有的 x ∈ ( a , b ) x\in(a,b) x∈(a,b) ,有:
f ( x ) − f ( a ) x − a ≤ f ( b ) − f ( a ) b − a ≤ f ( b ) − f ( x ) b − x \frac{f(x)-f(a)}{x-a}\le\frac{f(b)-f(a)}{b-a}\le\frac{f(b)-f(x)}{b-x} x−af(x)−f(a)≤b−af(b)−f(a)≤b−xf(b)−f(x)
如图:
这个说的就是 ab 的斜率要大于 ax 之间的斜率,小于 xb 之间的斜率。
(c)假设 f f f 可微,用 (b) 中的结果证明:
f ′ ( a ) ≤ f ( b ) − f ( a ) b − a ≤ f ′ ( b ) f'(a)\le\frac{f(b)-f(a)}{b-a}\le f'(b) f′(a)≤b−af(b)−f(a)≤f′(b)
证明:对 (b) 的结果,左边令 x → a x\to a x→a,右边令 x → b x\to b x→b ,即可得 (c)
(d)假设 f f f 二阶可微,用 (c) 中的结果证明 f ′ ′ ( a ) ≥ 0 f''(a)\ge0 f′′(a)≥0 并且 f ′ ′ ( b ) ≥ 0 f''(b)\ge0 f′′(b)≥0 。
证明:由 (c)可得:
f ′ ( b ) − f ′ ( a ) b − a ≥ 0 \frac{f'(b)-f'(a)}{b-a}\ge0 b−af′(b)−f′(a)≥0
取极限 b → a b\to a b→a 可得 f ′ ′ ( a ) ≥ 0 f''(a)\ge0 f′′(a)≥0 ,同理可得 f ′ ′ ( b ) ≥ 0 f''(b)\ge0 f′′(b)≥0
对于第一个图来说,这个可以是 quasiconvex 的,因为根据定义,其 sublevel sets:
S α = { x ∈ d o m f ∣ f ( x ) ≤ α } S_\alpha=\{x\in\mathbf{dom}\ f|f(x)\le\alpha\} Sα={x∈dom f∣f(x)≤α}
是凸的(你在这个涂横着来一刀,这个面下面和这个函数形成了一个凸集),同理,这个肯定不是 concave 或 quasiconcave ,因为其上面的集合不是凸的;
这个不是凸的,因为沿下图的路径 I 得到的曲线看出来其不是凸的:
第二个图可能是凹的,也可能是 quasiconcave,但不能是凸的或 quasiconvex 因为其 sublevel sets 不是凸的。
(a) f ( x ) = − log ( − log ( ∑ i = 1 m e a i T x + b i ) ) f(x)=-\log(-\log(\sum_{i=1}^me^{a_i^Tx+b_i})) f(x)=−log(−log(∑i=1meaiTx+bi)) ,定义域为 { x ∣ ∑ i = 1 m e a i T + b i < 1 } \{x|\sum_{i=1}^me^{a_i^T+b_i<1}\} {x∣∑i=1meaiT+bi<1} ,可以直接使用结论: log ( ∑ i = 1 n e y i ) \log(\sum_{i=1}^ne^{y_i}) log(∑i=1neyi) 是凸的(注:log-sum-exp 的凸性是通过二阶导证的)。
首先复习一下 composition rules,对于函数 f ( x ) = h ( g ( x ) ) f(x)=h(g(x)) f(x)=h(g(x)) 来说,满足以下两个条件之一, f f f 就是凸的:
这个怎么记呢?可以这样记:外面函数 h h h 总要求是凸的,里面 g g g 则不同,那么如何记忆 g g g 的凹凸与增减之间的对应的,脑补 f ′ ′ ( x ) f''(x) f′′(x) 的形式,里面会有一项 h ′ g ′ ′ h'g'' h′g′′ ,若 g g g 凸,则 g ′ ′ ≥ 0 g''\ge0 g′′≥0,故要求 h ′ ≥ 0 h'\ge0 h′≥0 ,即 h h h 不减;若 g g g 凹,则 g ′ ′ ≤ 0 g''\le0 g′′≤0 ,故要求 h ′ ≤ 0 h'\le0 h′≤0,即 h h h 不增。
(证明方法是对 f f f 求二阶导,然后应用链式法则得到 g , h g,h g,h 的相关一二阶导数的要求)(如下)
所以对于这道题,令 g ( x ) = − log ( ∑ i = 1 m e a i T x + b i ) g(x)=-\log(\sum_{i=1}^me^{a_i^Tx+b_i}) g(x)=−log(∑i=1meaiTx+bi) 则这玩意儿是凹的,所以我们来看上面说的第二个条件。又知 h ( x ) = − log ( x ) h(x)=-\log(x) h(x)=−log(x) 是凸的,并且不增,因此也满足第二个条件,所以 f f f 是凸的。 Done.
(b) f ( x , u , v ) = − u v − x T x f(x,u,v)=-\sqrt{uv-x^Tx} f(x,u,v)=−uv−xTx ,定义域为 { ( x , u , v ) ∣ u v > x T x , u , v > 0 } \{(x,u,v)|uv>x^Tx,u,v>0\} {(x,u,v)∣uv>xTx,u,v>0} ,可以使用结论: x T x / u x^Tx/u xTx/u 在 ( x , u ) , u > 0 (x,u),u>0 (x,u),u>0 上是凸的, − x 1 x 2 -\sqrt{x_1x_2} −x1x2 在 R + + 2 \mathbf{R}_{++}^2 R++2 上是凸的。
f ( x , u , v ) = − u v − x T x = − u ( v − x T x u ) \begin{aligned} f(x,u,v)&=-\sqrt{uv-x^Tx}\\ &=-\sqrt{u(v-\frac{x^Tx}{u})} \end{aligned} f(x,u,v)=−uv−xTx=−u(v−uxTx)
外部函数 h ( x 1 , x 2 ) = − x 1 x 2 h(x_1,x_2)=-\sqrt{x_1x_2} h(x1,x2)=−x1x2 为凸且单调递减,内部函数 g 1 ( u , v , x ) = u g_1(u,v,x)=u g1(u,v,x)=u 以及 g 2 ( u , v , x ) = v − x T x / u g_2(u,v,x)=v-x^Tx/u g2(u,v,x)=v−xTx/u 都是凹函数,因此 f ( u , v , x ) = h ( g ( u , v , x ) ) f(u,v,x)=h(g(u,v,x)) f(u,v,x)=h(g(u,v,x)) 为凸。
(c) f ( x , u , v ) = − log ( u v − x T x ) f(x,u,v)=-\log(uv-x^Tx) f(x,u,v)=−log(uv−xTx) ,定义域为 { ( x , u , v ) ∣ u v > x T x , u , v > 0 } \{(x,u,v)|uv>x^Tx,u,v>0\} {(x,u,v)∣uv>xTx,u,v>0}
f ( x , u , v ) = − log u − log ( v − x T x / u ) f(x,u,v)=-\log{u}-\log(v-x^Tx/u) f(x,u,v)=−logu−log(v−xTx/u)
第一项是凸的,第二项内部 v − x T x / u v-x^Tx/u v−xTx/u 是凹的,因为 v v v 是线性的, x T x / u x^Tx/u xTx/u 在 { ( x , u ) ∣ u > 0 } \{(x,u)|u>0\} {(x,u)∣u>0} 上是凸的,又因为外部函数 − log t -\log{t} −logt 凸且单调减,因此第二部分凸。
(d) f ( x , t ) = − ( t p − ∥ x ∥ p p ) 1 / p f(x,t)=-(t^p-\|x\|_p^p)^{1/p} f(x,t)=−(tp−∥x∥pp)1/p ,其中 p > 1 p>1 p>1 ,并且定义域为 { ( x , t ) ∣ t ≥ ∥ x ∥ p } \{(x,t)|t\ge\|x\|_p\} {(x,t)∣t≥∥x∥p} ,可以使用的结论有: ∥ x ∥ p p / u p − 1 \|x\|_p^p/u^{p-1} ∥x∥pp/up−1 在 ( x , u ) , u > 0 (x,u),u>0 (x,u),u>0 是凸的(证明见练习3.23),并且 − x 1 / p y 1 − 1 / p -x^{1/p}y^{1-1/p} −x1/py1−1/p 在 R + 2 \mathbf{R}_+^2 R+2 上是凸的(证明见练习3.16)。
f ( x , t ) = − ( t p − 1 ( t − ∥ x ∥ p p t p − 1 ) ) 1 / p = − t 1 − 1 / p ( t − ∥ x ∥ p p t p − 1 ) 1 / p \begin{aligned} f(x,t)&=-(t^{p-1}(t-\frac{\|x\|_p^p}{t^{p-1}}))^{1/p}\\ &=-t^{1-1/p}(t-\frac{\|x\|_p^p}{t^{p-1}})^{1/p}\\ \end{aligned} f(x,t)=−(tp−1(t−tp−1∥x∥pp))1/p=−t1−1/p(t−tp−1∥x∥pp)1/p
其中外部函数 h ( y 1 , y 2 ) = − y 1 1 / p y 2 1 − 1 / p h(y_1,y_2)=-y_1^{1/p}y_2^{1-1/p} h(y1,y2)=−y11/py21−1/p 是凸的并且单减,内部函数为:
g 1 ( x , t ) = t 1 − 1 / p , g 2 ( x , t ) = t − ∥ x ∥ p p t p − 1 g_1(x,t)=t^{1-1/p},\quad g_2(x,t)=t-\frac{\|x\|_p^p}{t^{p-1}} g1(x,t)=t1−1/p,g2(x,t)=t−tp−1∥x∥pp
这两个函数都是凹函数,因此总体为凸。
(e) f ( x , t ) = − log ( t p − ∥ x ∥ p p ) f(x,t)=-\log(t^p-\|x\|_p^p) f(x,t)=−log(tp−∥x∥pp),其中 p > 1 p>1 p>1 ,定义域为 { ( x , t ) ∣ t > ∥ x ∥ p } \{(x,t)|t>\|x\|_p\} {(x,t)∣t>∥x∥p}
f ( x , t ) = − log t p − 1 − log ( t − ∥ x ∥ p p / t p − 1 ) = − ( p − 1 ) log t − log ( t − ∥ x ∥ p p / t p − 1 ) \begin{aligned} f(x,t)&=-\log{t^{p-1}}-\log(t-\|x\|_p^p/t^{p-1})\\ &=-(p-1)\log{t}-\log(t-\|x\|_p^p/t^{p-1}) \end{aligned} f(x,t)=−logtp−1−log(t−∥x∥pp/tp−1)=−(p−1)logt−log(t−∥x∥pp/tp−1)
第一项是凸的,第二个内部是一个凹函数,外部是一个单减的凸函数,因此整体是凸。
用仿射函数的 pointwise supremum 来表示一个凸函数。这个问题是对书上 83 页结论的扩展,不同的是此处 d o m f ≠ R n \mathbf{dom}f\neq \mathbf{R}^n domf=Rn,令 f : R n → R n f:\mathbf{R}^n\to\mathbf{R}^n f:Rn→Rn 是一个凸函数,定义 f ~ : R n → R \tilde{f}:\mathbf{R}^n\to\mathbf{R} f~:Rn→R 为所有 f f f 的全局 unerestimators 的仿射函数的 pointwise supremum:
f ~ ( x ) = sup { g ( x ) ∣ g affine, g ( z ) ≤ f ( z ) for all z } \tilde{f}(x)=\sup\{g(x)|g\text{ affine,}g(z)\le f(z)\text{ for all }z\} f~(x)=sup{g(x)∣g affine,g(z)≤f(z) for all z}
证明:
(a)证明对于 x ∈ i n t d o m f x\in\mathbf{int\ dom\ }f x∈int dom f ,有 f ( x ) = f ~ ( x ) f(x)=\tilde{f}(x) f(x)=f~(x)
令点 ( x , f ( x ) ) (x,f(x)) (x,f(x)) 在 e p i f \mathbf{epi}\ f epi f 的边界上( e p i f \mathbf{epi}\ f epi f 就是该函数上面的点集),(不选择 i n t e p i f \mathbf{int\ epi\ }f int epi f 是因为当这个点在 i n t e p i f \mathbf{int\ epi\ }f int epi f 上时,对于任意小的 ϵ > 0 \epsilon>0 ϵ>0 有 ( x , f ( x ) − ϵ ) ∈ e p i f (x,f(x)-\epsilon)\in\mathbf{epi\ }f (x,f(x)−ϵ)∈epi f ,这是不可能的,根据 2.5.2 节的结果,可知对于 ( x , f ( x ) ) (x,f(x)) (x,f(x)) 处的 e p i f \mathbf{epi\ }f epi f ,存在一个支持超平面,即 a ∈ R n , b ∈ R a\in\mathbf{R}^n,b\in\mathbf{R} a∈Rn,b∈R ,使得:
a T z + b t ≥ a T x + b f ( x ) for all ( z , t ) ∈ e p i f a^Tz+bt\ge a^Tx+bf(x)\text{ for all } (z,t)\in \mathbf{epi\ }f aTz+bt≥aTx+bf(x) for all (z,t)∈epi f
如果 ( z , t ) ∈ e p i f (z,t)\in\mathbf{epi\ }f (z,t)∈epi f ,则 t t t 可以任意大,因此我们得出结论 b ≥ 0 b\ge0 b≥0 。
假设 b = 0 b=0 b=0 ,则:
a T z ≥ a T x for all z ∈ d o m f a^Tz\ge a^Tx\text{ for all }z\in\mathbf{dom\ }f aTz≥aTx for all z∈dom f
和 x ∈ i n t d o m f x\in\mathbf{int\ dom}\ f x∈int dom f 相矛盾!因此 b > 0 b>0 b>0 。上述不等式同除以 b b b 得到:
t ≥ f ( x ) + ( a / b ) T ( x − z ) for all ( z , t ) ∈ e p i f t\ge f(x)+(a/b)^T(x-z)\text{ for all }(z,t)\in\mathbf{epi}\ f t≥f(x)+(a/b)T(x−z) for all (z,t)∈epi f
因此仿射函数:
g ( z ) = f ( x ) + ( a / b ) T ( x − z ) g(z)=f(x)+(a/b)^T(x-z) g(z)=f(x)+(a/b)T(x−z)
为 f f f 的 affine global underestimator ,所以根据 f ~ \tilde{f} f~ 的定义:
f ( x ) ≥ f ~ ( x ) ≥ g ( x ) f(x)\ge\tilde{f}(x)\ge g(x) f(x)≥f~(x)≥g(x)
但是 g ( x ) = f ( x ) g(x)=f(x) g(x)=f(x),因此必须有 f ( x ) = f ~ ( x ) f(x)=\tilde{f}(x) f(x)=f~(x)
(b)证明如果 f f f 是闭,那么 f = f ~ f=\tilde{f} f=f~ (即 e p i f \mathbf{epi\ }f epi f 是一个闭集)
{ x ∈ d o m f ∣ f ( x ) ≤ α } \{x\in\mathbf{dom\ }f|f(x)\le\alpha\} {x∈dom f∣f(x)≤α}
是闭的。这等价于 f f f 的 epigraph
e p i f = { ( x , t ) ∈ R n + 1 ∣ x ∈ d o m f , f ( x ) ≤ t } \mathbf{epi}\ f=\{(x,t)\in\mathbf{R}^{n+1}|x\in\mathbf{dom\ }f,f(x)\le t\} epi f={(x,t)∈Rn+1∣x∈dom f,f(x)≤t}
是闭的。
一个闭的凸集是所有包含这个集合半平面的交集(见第二章,例 2.20)。对 e p i f \mathbf{epi\ }f epi f 使用这个结论,定义:
H = { ( a , b , c ) ∈ R n + 2 ∣ ( a , b ) ≠ 0 , inf ( x , t ) ∈ e p i f ( a T x + b t ) ≥ c } H=\{(a,b,c)\in\mathbf{R}^{n+2}|(a,b)\neq0,\inf_{(x,t)\in\mathbf{epi\ }f}(a^Tx+bt)\ge c\} H={(a,b,c)∈Rn+2∣(a,b)=0,(x,t)∈epi finf(aTx+bt)≥c}
粗略来说, H H H 是包含 e p i f \mathbf{epi\ }f epi f 的所有半平面的集合,根据第二章的结论,
e p i f = ⋂ ( a , b , c ) ∈ H { ( x , t ) ∣ a T + b t ≥ c } \mathbf{epi\ }f=\bigcap_{(a,b,c)\in H}\{(x,t)|a^T+bt\ge c\} epi f=(a,b,c)∈H⋂{(x,t)∣aT+bt≥c}
显然 H H H 中所有元素都满足 b ≥ 0 b\ge0 b≥0 ,实际上 b > 0 b>0 b>0,因此仿射函数:
h ( x ) = − ( a / b ) T x + c / b h(x)=-(a/b)^Tx+c/b h(x)=−(a/b)Tx+c/b
是 ≤ f \le f ≤f 的,因为对于 ∀ ( x , t ) ∈ e p i f \forall(x,t)\in\mathbf{epi}\ f ∀(x,t)∈epi f,有
t ≥ f ( x ) ≥ − ( a / b ) T x + c / t = h ( x ) t\ge f(x)\ge-(a/b)^Tx+c/t=h(x) t≥f(x)≥−(a/b)Tx+c/t=h(x)
相反地,假如 h ( − a T x + c ) ≤ f h(-a^Tx+c)\le f h(−aTx+c)≤f 则 ( a , 1 , c ) ∈ H (a,1,c)\in H (a,1,c)∈H ,需要证明:
e p i f = ⋂ ( a , b , c ) ∈ H , b > 0 { ( x , t ) ∣ a T x + b t ≥ c } \mathbf{epi\ }f=\bigcap_{(a,b,c)\in H,b>0}\{(x,t)|a^Tx+bt\ge c\} epi f=(a,b,c)∈H,b>0⋂{(x,t)∣aTx+bt≥c}
也就是说 e p i f \mathbf{epi}\ f epi f 是所有包含 e p i f \mathbf{epi}\ f epi f 的非垂直的半平面的交集。然后证明:
⋂ ( a , b , c ) ∈ H , b > 0 { ( x , t ) ∣ a T x + b t ≥ c } = ⋂ ( a , b , c ) ∈ H { ( x , t ) ∣ a T x + b t ≥ c } (1) \bigcap_{(a,b,c)\in H,b>0}\{(x,t)|a^Tx+bt\ge c\}=\bigcap_{(a,b,c)\in H}\{(x,t)|a^Tx+bt\ge c\} \tag{1} (a,b,c)∈H,b>0⋂{(x,t)∣aTx+bt≥c}=(a,b,c)∈H⋂{(x,t)∣aTx+bt≥c}(1)
显然左边的包含右边的,现在证假如在左边,那么它一定在右边,用反证法,首先设 ( x ˉ , t ˉ ) (\bar{x},\bar{t}) (xˉ,tˉ) 在左边的集合中,即:
a T x ˉ + b t ˉ ≥ c a^T\bar{x}+b\bar{t}\ge c aTxˉ+btˉ≥c
对于所有的半平面 a T x + b t ≥ c a^Tx+bt\ge c aTx+bt≥c 并且不是垂直的(即 b > 0 b>0 b>0)并且包含 e p i f \mathbf{epi\ } f epi f ,假设 ( x ˉ , t ˉ ) (\bar{x},\bar{t}) (xˉ,tˉ) 不在右边的集合中,即存在 ( a ~ , b ~ , c ~ ) ∈ H (\tilde{a},\tilde{b},\tilde{c})\in H (a~,b~,c~)∈H ( b ~ = 0 \tilde{b}=0 b~=0 也是必要的),使得:
a ~ T x ˉ < c ~ \tilde{a}^T\bar{x}<\tilde{c} a~Txˉ<c~
H H H 至少包含一个元素 ( a 0 , b 0 , c 0 ) (a_0,b_0,c_0) (a0,b0,c0) 其中 b 0 > 0 b_0>0 b0>0 (要不然 e p i f \mathbf{epi\ }f epi f 将会是垂直半平面们的交集了),考虑一个半平面为 ( a ~ , 0 , c ~ ) + ϵ ( a 0 , b 0 , c 0 ) (\tilde{a},0,\tilde{c})+\epsilon(a_0,b_0,c_0) (a~,0,c~)+ϵ(a0,b0,c0) ,其中 ϵ > 0 \epsilon>0 ϵ>0 ,这个半平面是非垂直的,并且对于 ∀ ( x , t ) ∈ e p i f \forall (x,t)\in \mathbf{epi\ }f ∀(x,t)∈epi f ,它是包含 e p i f \mathbf{epi\ }f epi f 的:
( a ~ + ϵ a 0 ) T x + ϵ b 0 t ≥ a ~ T x + ϵ ( a 0 T + b 0 t ) ≥ c ~ + ϵ c 0 (\tilde{a}+\epsilon a_0)^Tx+\epsilon b_0 t\ge\tilde{a}^Tx+\epsilon(a_0^T+b_0t)\ge\tilde{c}+\epsilon c_0 (a~+ϵa0)Tx+ϵb0t≥a~Tx+ϵ(a0T+b0t)≥c~+ϵc0
原因是 a ~ T x ≥ c ~ \tilde{a}^Tx\ge\tilde{c} a~Tx≥c~ 和 a 0 T x + b 0 t ≥ c 0 a_0^Tx+b_0t\ge c_0 a0Tx+b0t≥c0 都包含 e p i f \mathbf{epi\ }f epi f ,但是对于 ϵ > 0 \epsilon>0 ϵ>0 ,有:
( a ~ + ϵ a 0 ) T x + ϵ b 0 t ≥ a ~ T x + ϵ ( a 0 T + b 0 t ) < c ~ + ϵ c 0 (\tilde{a}+\epsilon a_0)^Tx+\epsilon b_0 t\ge\tilde{a}^Tx+\epsilon(a_0^T+b_0t)<\tilde{c}+\epsilon c_0 (a~+ϵa0)Tx+ϵb0t≥a~Tx+ϵ(a0T+b0t)<c~+ϵc0
因此半平面不包含 ( x ˉ , t ˉ ) (\bar{x},\bar{t}) (xˉ,tˉ) ,这和假设矛盾,因此 ( 1 ) (1) (1) 是成立的。
(a)一个凸函数加上一个仿射函数的共轭:定义 g ( x ) = f ( x ) + c T x + d g(x)=f(x)+c^Tx+d g(x)=f(x)+cTx+d ,其中 f f f 是凸的,用 f ∗ f^* f∗ 来表示 g ∗ g^* g∗ :
g ∗ ( y ) = sup ( y T x − f ( x ) − c T x − d ) = sup ( ( y − c ) T x − f ( x ) ) − d = f ∗ ( y − c ) − d \begin{aligned} g^*(y)&=\sup(y^Tx-f(x)-c^Tx-d)\\ &=\sup((y-c)^Tx-f(x))-d\\ &=f^*(y-c)-d \end{aligned} g∗(y)=sup(yTx−f(x)−cTx−d)=sup((y−c)Tx−f(x))−d=f∗(y−c)−d
(b)透视函数的共轭:用 f ∗ f^* f∗ 来表示凸函数 f f f 的透视函数:
g ∗ ( y , s ) = sup x / t ∈ d o m f , t > 0 ( y T x + s t − t ( f ( x / t ) ) ) = sup t > 0 sup x / t ∈ d o m f ( t ( y T ( x / t ) + s − f ( x / t ) ) ) = sup t > 0 t ( s + sup x / t ∈ d o m f ( y T ( x / t ) − f ( x / t ) ) ) = sup t > 0 t ( s + f ∗ ( y ) ) = { 0 s + f ∗ ( y ) ≤ 0 ∞ otherwise. \begin{aligned} g^*(y,s)&=\sup_{x/t\in\mathbf{dom\ }f,t>0}(y^Tx+st-t(f(x/t)))\\ &=\sup_{t>0}\sup_{x/t\in\mathbf{dom\ }f}(t(y^T(x/t)+s-f(x/t)))\\ &=\sup_{t>0}t(s+\sup_{x/t\in\mathbf{dom\ }f}(y^T(x/t)-f(x/t)))\\ &=\sup_{t>0}t(s+f^*(y))\\ &=\begin{cases} 0&s+f^*(y)\le0\\ \infty&\text{otherwise.} \end{cases} \end{aligned} g∗(y,s)=x/t∈dom f,t>0sup(yTx+st−t(f(x/t)))=t>0supx/t∈dom fsup(t(yT(x/t)+s−f(x/t)))=t>0supt(s+x/t∈dom fsup(yT(x/t)−f(x/t)))=t>0supt(s+f∗(y))={0∞s+f∗(y)≤0otherwise.
(c)共轭以及最小:令 f ( x , z ) f(x,z) f(x,z) 为 ( x , z ) (x,z) (x,z) 上的凸函数,定义 g ( x ) = inf z f ( x , z ) g(x)=\inf_zf(x,z) g(x)=infzf(x,z) ,用 f ∗ f^* f∗ 来表示 g ∗ g^* g∗:
g ∗ ( y ) = sup x ( x T y − inf z f ( x , z ) ) = sup x , z ( x T y − f ( x , z ) ) = f ∗ ( y , 0 ) \begin{aligned} g^*(y)&=\sup_x(x^Ty-\inf_zf(x,z))\\ &=\sup_{x,z}(x^Ty-f(x,z))\\ &=f^*(y,0) \end{aligned} g∗(y)=xsup(xTy−zinff(x,z))=x,zsup(xTy−f(x,z))=f∗(y,0)
作为应用,用 h ∗ , A , b h^*,A,b h∗,A,b 来表示函数 g ( x ) = inf z { h ( z ) ∣ A z + b = x } g(x)=\inf_z\{h(z)|Az+b=x\} g(x)=infz{h(z)∣Az+b=x} 的共轭,其中 h h h 是凸的:
首先我们要找到 f ( x , z ) f(x,z) f(x,z):
f ( x , z ) = { h ( z ) A z + b = x ∞ otherwise. f(x,z)=\begin{cases} h(z)&Az+b=x\\ \infty&\text{otherwise.} \end{cases} f(x,z)={h(z)∞Az+b=xotherwise.
则有:
f ∗ ( y , v ) = sup ( y T x + v T z − f ( x , z ) ) = sup A z + b = x ( y T x + v T z − h ( z ) ) = sup z ( y T ( A z + b ) + v T z − h ( z ) ) = b T y + sup z ( y T A z + v T z − h ( z ) ) = b T y + h ∗ ( A T y + v ) \begin{aligned} f^*(y,v)&=\sup(y^Tx+v^Tz-f(x,z))\\ &=\sup_{Az+b=x}(y^Tx+v^Tz-h(z))\\ &=\sup_z(y^T(Az+b)+v^Tz-h(z))\\ &=b^Ty+\sup_z(y^TAz+v^Tz-h(z))\\ &=b^Ty+h^*(A^Ty+v) \end{aligned} f∗(y,v)=sup(yTx+vTz−f(x,z))=Az+b=xsup(yTx+vTz−h(z))=zsup(yT(Az+b)+vTz−h(z))=bTy+zsup(yTAz+vTz−h(z))=bTy+h∗(ATy+v)
我感觉应该是我上面的这种写法,不知道答案为啥这样写:
g ∗ ( y ) = f ∗ ( y , 0 ) = b T y + h ∗ ( A T y ) g^*(y)=f^*(y,0)=b^Ty+h^*(A^Ty) g∗(y)=f∗(y,0)=bTy+h∗(ATy)
(d)共轭的共轭:证明假如 f f f 是凸的且闭的,那么 f = f ∗ ∗ f=f^{**} f=f∗∗ (一个函数其 epigraph 是闭的,则其是闭的),提示:证明 f ∗ ∗ f^{**} f∗∗ 是 f f f 所有的 affine global underestimators 的点式上确界,然后用练习 3.28 的结论。
根据定义:
f ∗ ( y ) = sup x ( y T x − f ( x ) ) f^*(y)=\sup_x(y^Tx-f(x)) f∗(y)=xsup(yTx−f(x))
假如 y ∈ d o m f ∗ y\in\mathbf{dom\ }f^* y∈dom f∗ ,则仿射函数 h ( x ) = y T x − f ∗ ( y ) h(x)=y^Tx-f^*(y) h(x)=yTx−f∗(y) 小于等于 f f f ,反之,假如 h ( x ) = a T x + b h(x)=a^Tx+b h(x)=aTx+b 小于等于 f f f ,则 a ∈ d o m f ∗ a\in\mathbf{dom\ }f^* a∈dom f∗ 并且 f ∗ ( a ) ≤ − b f^*(a)\le-b f∗(a)≤−b ,那么所有小于等于 f f f 的仿射函数的集合正好就等于所以函数 h ( x ) = y T x + c h(x)=y^Tx+c h(x)=yTx+c 的集合,其中:
y ∈ d o m f ∗ , c ≤ − f ∗ ( y ) . y\in\mathbf{dom\ }f^*,\quad c\le-f^*(y). y∈dom f∗,c≤−f∗(y).
因此,根据练习 3.28 ,有:
f ( x ) = sup y ∈ d o m f ∗ ( y T x − f ∗ ( y ) ) = f ∗ ∗ ( y ) f(x)=\sup_{y\in\mathbf{dom\ }f^*}(y^Tx-f^*(y))=f^{**}(y) f(x)=y∈dom f∗sup(yTx−f∗(y))=f∗∗(y)
证明以下函数 f : R n → R f:\mathbf{R}^n\to\mathbf{R} f:Rn→R 是凸的:
(a) f ( x ) = − exp ( − g ( x ) ) f(x)=-\exp(-g(x)) f(x)=−exp(−g(x)) ,其中 g : R n → R g:\mathbf{R}^n\to\mathbf{R} g:Rn→R 定义域是凸的,并且满足:
[ ∇ 2 g ( x ) ∇ g ( x ) ∇ g ( x ) T 1 ] ⪰ 0 \begin{bmatrix} \nabla^2g(x)&\nabla g(x)\\ \nabla g(x)^T&1 \end{bmatrix} \succeq0 [∇2g(x)∇g(x)T∇g(x)1]⪰0
其中 x ∈ d o m g x\in\mathbf{dom\ }g x∈dom g 。
求 f f f 的梯度以及 Hessian:
∇ f ( x ) = e − g ( x ) ∇ g ( x ) ∇ 2 f ( x ) = e − g ( x ) ∇ 2 g ( x ) − e − g ( x ) ∇ g ( x ) ∇ g ( x ) T = e − g ( x ) ( ∇ 2 g ( x ) − ∇ g ( x ) ∇ g ( x ) T ) ⪰ 0 \begin{aligned} \nabla f(x)&=e^{-g(x)}\nabla g(x)\\ \nabla^2f(x)&=e^{-g(x)}\nabla^2g(x)-e^{-g(x)}\nabla g(x)\nabla g(x)^T\\ &=e^{-g(x)}(\nabla^2g(x)-\nabla g(x)\nabla g(x)^T)\\ &\succeq 0 \end{aligned} ∇f(x)∇2f(x)=e−g(x)∇g(x)=e−g(x)∇2g(x)−e−g(x)∇g(x)∇g(x)T=e−g(x)(∇2g(x)−∇g(x)∇g(x)T)⪰0
因此 f f f 凸。
(b)函数:
f ( x ) = max { ∥ A P x − b ∥ ∣ P is a permutation matrix } f(x)=\max\{\|APx-b\||P\text{ is a permutation matrix}\} f(x)=max{∥APx−b∥∣P is a permutation matrix}
其中 A ∈ R m × n , b ∈ R m A\in\mathbf{R}^{m\times n},b\in\mathbf{R}^m A∈Rm×n,b∈Rm 。
因为 f f f 是带有参数 P P P 的 ∥ A P x − b ∥ \|APx-b\| ∥APx−b∥ 的最大值,又因为 ∥ A P x − b ∥ \|APx-b\| ∥APx−b∥ 是凸函数,因此 f f f 凸。