Convex Optimization: 3 Convex functions 作业

3.1, 3.2, 3.22, 3.28, 3.39, A2.23, A2.42, A2.46.

文章目录

    • 3.1
    • 3.2
    • 3.22
    • 3.28
    • 3.39
    • A2.23

3.1

Convex Optimization: 3 Convex functions 作业_第1张图片
这道题考的是凸函数的定义。假设一个函数 f : R → R f:\mathbf{R}\to\mathbf{R} f:RR ,并且 a , b ∈ d o m   f a,b\in\mathbf{dom}\ f a,bdom f a < b aa<b

(a)证明对于所有的 x ∈ [ a , b ] x\in[a,b] x[a,b] 都有:

f ( x ) ≤ b − x b − a f ( a ) + x − a b − a f ( b ) f(x)\le\frac{b-x}{b-a}f(a)+\frac{x-a}{b-a}f(b) f(x)babxf(a)+baxaf(b)

证明:显然 由凸函数的定义,存在 θ ∈ [ 0 , 1 ] \theta\in[0,1] θ[0,1] 使得

f ( θ x + ( 1 − θ ) y ) ≤ θ f ( x ) + ( 1 − θ ) f ( y ) f(\theta x+(1-\theta)y)\le\theta f(x)+(1-\theta)f(y) f(θx+(1θ)y)θf(x)+(1θ)f(y)

y = x , θ = b − x b − a y=x,\theta=\dfrac{b-x}{b-a} y=x,θ=babx,则有:

f ( x ) ≤ b − x b − a f ( a ) + x − a b − a f ( b ) f(x)\le\frac{b-x}{b-a}f(a)+\frac{x-a}{b-a}f(b) f(x)babxf(a)+baxaf(b)

(b)证明对于所有的 x ∈ ( a , b ) x\in(a,b) x(a,b) ,有:

f ( x ) − f ( a ) x − a ≤ f ( b ) − f ( a ) b − a ≤ f ( b ) − f ( x ) b − x \frac{f(x)-f(a)}{x-a}\le\frac{f(b)-f(a)}{b-a}\le\frac{f(b)-f(x)}{b-x} xaf(x)f(a)baf(b)f(a)bxf(b)f(x)

如图:
Convex Optimization: 3 Convex functions 作业_第2张图片
这个说的就是 ab 的斜率要大于 ax 之间的斜率,小于 xb 之间的斜率。

(c)假设 f f f 可微,用 (b) 中的结果证明:

f ′ ( a ) ≤ f ( b ) − f ( a ) b − a ≤ f ′ ( b ) f'(a)\le\frac{f(b)-f(a)}{b-a}\le f'(b) f(a)baf(b)f(a)f(b)

证明:对 (b) 的结果,左边令 x → a x\to a xa,右边令 x → b x\to b xb ,即可得 (c)

(d)假设 f f f 二阶可微,用 (c) 中的结果证明 f ′ ′ ( a ) ≥ 0 f''(a)\ge0 f(a)0 并且 f ′ ′ ( b ) ≥ 0 f''(b)\ge0 f(b)0

证明:由 (c)可得:

f ′ ( b ) − f ′ ( a ) b − a ≥ 0 \frac{f'(b)-f'(a)}{b-a}\ge0 baf(b)f(a)0

取极限 b → a b\to a ba 可得 f ′ ′ ( a ) ≥ 0 f''(a)\ge0 f(a)0 ,同理可得 f ′ ′ ( b ) ≥ 0 f''(b)\ge0 f(b)0

3.2

Convex Optimization: 3 Convex functions 作业_第3张图片
对于第一个图来说,这个可以是 quasiconvex 的,因为根据定义,其 sublevel sets:

S α = { x ∈ d o m   f ∣ f ( x ) ≤ α } S_\alpha=\{x\in\mathbf{dom}\ f|f(x)\le\alpha\} Sα={xdom ff(x)α}

是凸的(你在这个涂横着来一刀,这个面下面和这个函数形成了一个凸集),同理,这个肯定不是 concave 或 quasiconcave ,因为其上面的集合不是凸的;

这个不是凸的,因为沿下图的路径 I 得到的曲线看出来其不是凸的:

Convex Optimization: 3 Convex functions 作业_第4张图片
Convex Optimization: 3 Convex functions 作业_第5张图片
第二个图可能是凹的,也可能是 quasiconcave,但不能是凸的或 quasiconvex 因为其 sublevel sets 不是凸的。

3.22

Convex Optimization: 3 Convex functions 作业_第6张图片
证明以下函数是凸函数:

(a) f ( x ) = − log ⁡ ( − log ⁡ ( ∑ i = 1 m e a i T x + b i ) ) f(x)=-\log(-\log(\sum_{i=1}^me^{a_i^Tx+b_i})) f(x)=log(log(i=1meaiTx+bi)) ,定义域为 { x ∣ ∑ i = 1 m e a i T + b i < 1 } \{x|\sum_{i=1}^me^{a_i^T+b_i<1}\} {xi=1meaiT+bi<1} ,可以直接使用结论: log ⁡ ( ∑ i = 1 n e y i ) \log(\sum_{i=1}^ne^{y_i}) log(i=1neyi) 是凸的(注:log-sum-exp 的凸性是通过二阶导证的)。

首先复习一下 composition rules,对于函数 f ( x ) = h ( g ( x ) ) f(x)=h(g(x)) f(x)=h(g(x)) 来说,满足以下两个条件之一, f f f 就是凸的:

  1. g g g 是凸的, h h h 是凸的,并且 h ~ \tilde{h} h~ 不减
  2. g g g 是凹的, h h h 是凸的,并且 h ~ \tilde{h} h~ 不增

这个怎么记呢?可以这样记:外面函数 h h h 总要求是凸的,里面 g g g 则不同,那么如何记忆 g g g 的凹凸与增减之间的对应的,脑补 f ′ ′ ( x ) f''(x) f(x) 的形式,里面会有一项 h ′ g ′ ′ h'g'' hg ,若 g g g 凸,则 g ′ ′ ≥ 0 g''\ge0 g0,故要求 h ′ ≥ 0 h'\ge0 h0 ,即 h h h 不减;若 g g g 凹,则 g ′ ′ ≤ 0 g''\le0 g0 ,故要求 h ′ ≤ 0 h'\le0 h0,即 h h h 不增。

(证明方法是对 f f f 求二阶导,然后应用链式法则得到 g , h g,h g,h 的相关一二阶导数的要求)(如下)

Convex Optimization: 3 Convex functions 作业_第7张图片
所以对于这道题,令 g ( x ) = − log ⁡ ( ∑ i = 1 m e a i T x + b i ) g(x)=-\log(\sum_{i=1}^me^{a_i^Tx+b_i}) g(x)=log(i=1meaiTx+bi) 则这玩意儿是凹的,所以我们来看上面说的第二个条件。又知 h ( x ) = − log ⁡ ( x ) h(x)=-\log(x) h(x)=log(x) 是凸的,并且不增,因此也满足第二个条件,所以 f f f 是凸的。 Done.

(b) f ( x , u , v ) = − u v − x T x f(x,u,v)=-\sqrt{uv-x^Tx} f(x,u,v)=uvxTx ,定义域为 { ( x , u , v ) ∣ u v > x T x , u , v > 0 } \{(x,u,v)|uv>x^Tx,u,v>0\} {(x,u,v)uv>xTx,u,v>0} ,可以使用结论: x T x / u x^Tx/u xTx/u ( x , u ) , u > 0 (x,u),u>0 (x,u),u>0 上是凸的, − x 1 x 2 -\sqrt{x_1x_2} x1x2 R + + 2 \mathbf{R}_{++}^2 R++2 上是凸的。

f ( x , u , v ) = − u v − x T x = − u ( v − x T x u ) \begin{aligned} f(x,u,v)&=-\sqrt{uv-x^Tx}\\ &=-\sqrt{u(v-\frac{x^Tx}{u})} \end{aligned} f(x,u,v)=uvxTx =u(vuxTx)

外部函数 h ( x 1 , x 2 ) = − x 1 x 2 h(x_1,x_2)=-\sqrt{x_1x_2} h(x1,x2)=x1x2 为凸且单调递减,内部函数 g 1 ( u , v , x ) = u g_1(u,v,x)=u g1(u,v,x)=u 以及 g 2 ( u , v , x ) = v − x T x / u g_2(u,v,x)=v-x^Tx/u g2(u,v,x)=vxTx/u 都是凹函数,因此 f ( u , v , x ) = h ( g ( u , v , x ) ) f(u,v,x)=h(g(u,v,x)) f(u,v,x)=h(g(u,v,x)) 为凸。

(c) f ( x , u , v ) = − log ⁡ ( u v − x T x ) f(x,u,v)=-\log(uv-x^Tx) f(x,u,v)=log(uvxTx) ,定义域为 { ( x , u , v ) ∣ u v > x T x , u , v > 0 } \{(x,u,v)|uv>x^Tx,u,v>0\} {(x,u,v)uv>xTx,u,v>0}

f ( x , u , v ) = − log ⁡ u − log ⁡ ( v − x T x / u ) f(x,u,v)=-\log{u}-\log(v-x^Tx/u) f(x,u,v)=logulog(vxTx/u)

第一项是凸的,第二项内部 v − x T x / u v-x^Tx/u vxTx/u 是凹的,因为 v v v 是线性的, x T x / u x^Tx/u xTx/u { ( x , u ) ∣ u > 0 } \{(x,u)|u>0\} {(x,u)u>0} 上是凸的,又因为外部函数 − log ⁡ t -\log{t} logt 凸且单调减,因此第二部分凸。

(d) f ( x , t ) = − ( t p − ∥ x ∥ p p ) 1 / p f(x,t)=-(t^p-\|x\|_p^p)^{1/p} f(x,t)=(tpxpp)1/p ,其中 p > 1 p>1 p>1 ,并且定义域为 { ( x , t ) ∣ t ≥ ∥ x ∥ p } \{(x,t)|t\ge\|x\|_p\} {(x,t)txp} ,可以使用的结论有: ∥ x ∥ p p / u p − 1 \|x\|_p^p/u^{p-1} xpp/up1 ( x , u ) , u > 0 (x,u),u>0 (x,u),u>0 是凸的(证明见练习3.23),并且 − x 1 / p y 1 − 1 / p -x^{1/p}y^{1-1/p} x1/py11/p R + 2 \mathbf{R}_+^2 R+2 上是凸的(证明见练习3.16)。

f ( x , t ) = − ( t p − 1 ( t − ∥ x ∥ p p t p − 1 ) ) 1 / p = − t 1 − 1 / p ( t − ∥ x ∥ p p t p − 1 ) 1 / p \begin{aligned} f(x,t)&=-(t^{p-1}(t-\frac{\|x\|_p^p}{t^{p-1}}))^{1/p}\\ &=-t^{1-1/p}(t-\frac{\|x\|_p^p}{t^{p-1}})^{1/p}\\ \end{aligned} f(x,t)=(tp1(ttp1xpp))1/p=t11/p(ttp1xpp)1/p

其中外部函数 h ( y 1 , y 2 ) = − y 1 1 / p y 2 1 − 1 / p h(y_1,y_2)=-y_1^{1/p}y_2^{1-1/p} h(y1,y2)=y11/py211/p 是凸的并且单减,内部函数为:

g 1 ( x , t ) = t 1 − 1 / p , g 2 ( x , t ) = t − ∥ x ∥ p p t p − 1 g_1(x,t)=t^{1-1/p},\quad g_2(x,t)=t-\frac{\|x\|_p^p}{t^{p-1}} g1(x,t)=t11/p,g2(x,t)=ttp1xpp

这两个函数都是凹函数,因此总体为凸。

(e) f ( x , t ) = − log ⁡ ( t p − ∥ x ∥ p p ) f(x,t)=-\log(t^p-\|x\|_p^p) f(x,t)=log(tpxpp),其中 p > 1 p>1 p>1 ,定义域为 { ( x , t ) ∣ t > ∥ x ∥ p } \{(x,t)|t>\|x\|_p\} {(x,t)t>xp}

f ( x , t ) = − log ⁡ t p − 1 − log ⁡ ( t − ∥ x ∥ p p / t p − 1 ) = − ( p − 1 ) log ⁡ t − log ⁡ ( t − ∥ x ∥ p p / t p − 1 ) \begin{aligned} f(x,t)&=-\log{t^{p-1}}-\log(t-\|x\|_p^p/t^{p-1})\\ &=-(p-1)\log{t}-\log(t-\|x\|_p^p/t^{p-1}) \end{aligned} f(x,t)=logtp1log(txpp/tp1)=(p1)logtlog(txpp/tp1)

第一项是凸的,第二个内部是一个凹函数,外部是一个单减的凸函数,因此整体是凸。

3.28

Convex Optimization: 3 Convex functions 作业_第8张图片
考的是能够保持凸性的操作。

用仿射函数的 pointwise supremum 来表示一个凸函数。这个问题是对书上 83 页结论的扩展,不同的是此处 d o m f ≠ R n \mathbf{dom}f\neq \mathbf{R}^n domf=Rn,令 f : R n → R n f:\mathbf{R}^n\to\mathbf{R}^n f:RnRn 是一个凸函数,定义 f ~ : R n → R \tilde{f}:\mathbf{R}^n\to\mathbf{R} f~:RnR 为所有 f f f 的全局 unerestimators 的仿射函数的 pointwise supremum:

f ~ ( x ) = sup ⁡ { g ( x ) ∣ g  affine, g ( z ) ≤ f ( z )  for all  z } \tilde{f}(x)=\sup\{g(x)|g\text{ affine,}g(z)\le f(z)\text{ for all }z\} f~(x)=sup{g(x)g affine,g(z)f(z) for all z}

证明:

(a)证明对于 x ∈ i n t   d o m   f x\in\mathbf{int\ dom\ }f xint dom f ,有 f ( x ) = f ~ ( x ) f(x)=\tilde{f}(x) f(x)=f~(x)

令点 ( x , f ( x ) ) (x,f(x)) (x,f(x)) e p i   f \mathbf{epi}\ f epi f 的边界上( e p i   f \mathbf{epi}\ f epi f 就是该函数上面的点集),(不选择 i n t   e p i   f \mathbf{int\ epi\ }f int epi f 是因为当这个点在 i n t   e p i   f \mathbf{int\ epi\ }f int epi f 上时,对于任意小的 ϵ > 0 \epsilon>0 ϵ>0 ( x , f ( x ) − ϵ ) ∈ e p i   f (x,f(x)-\epsilon)\in\mathbf{epi\ }f (x,f(x)ϵ)epi f ,这是不可能的,根据 2.5.2 节的结果,可知对于 ( x , f ( x ) ) (x,f(x)) (x,f(x)) 处的 e p i   f \mathbf{epi\ }f epi f ,存在一个支持超平面,即 a ∈ R n , b ∈ R a\in\mathbf{R}^n,b\in\mathbf{R} aRn,bR ,使得:

a T z + b t ≥ a T x + b f ( x )  for all  ( z , t ) ∈ e p i   f a^Tz+bt\ge a^Tx+bf(x)\text{ for all } (z,t)\in \mathbf{epi\ }f aTz+btaTx+bf(x) for all (z,t)epi f

如果 ( z , t ) ∈ e p i   f (z,t)\in\mathbf{epi\ }f (z,t)epi f ,则 t t t 可以任意大,因此我们得出结论 b ≥ 0 b\ge0 b0

假设 b = 0 b=0 b=0 ,则:

a T z ≥ a T x  for all  z ∈ d o m   f a^Tz\ge a^Tx\text{ for all }z\in\mathbf{dom\ }f aTzaTx for all zdom f

x ∈ i n t   d o m   f x\in\mathbf{int\ dom}\ f xint dom f 相矛盾!因此 b > 0 b>0 b>0 。上述不等式同除以 b b b 得到:

t ≥ f ( x ) + ( a / b ) T ( x − z )  for all  ( z , t ) ∈ e p i   f t\ge f(x)+(a/b)^T(x-z)\text{ for all }(z,t)\in\mathbf{epi}\ f tf(x)+(a/b)T(xz) for all (z,t)epi f

因此仿射函数:

g ( z ) = f ( x ) + ( a / b ) T ( x − z ) g(z)=f(x)+(a/b)^T(x-z) g(z)=f(x)+(a/b)T(xz)

f f f 的 affine global underestimator ,所以根据 f ~ \tilde{f} f~ 的定义:

f ( x ) ≥ f ~ ( x ) ≥ g ( x ) f(x)\ge\tilde{f}(x)\ge g(x) f(x)f~(x)g(x)

但是 g ( x ) = f ( x ) g(x)=f(x) g(x)=f(x),因此必须有 f ( x ) = f ~ ( x ) f(x)=\tilde{f}(x) f(x)=f~(x)

(b)证明如果 f f f 是闭,那么 f = f ~ f=\tilde{f} f=f~ (即 e p i   f \mathbf{epi\ }f epi f 是一个闭集)

  • A3.3 :一个函数 f : R n → R f:\mathbf{R}^n\to\mathbf{R} f:RnR 是闭的,如果对 ∀ α ∈ R \forall\alpha\in\mathbf{R} αR ,其 sublevel set

{ x ∈ d o m   f ∣ f ( x ) ≤ α } \{x\in\mathbf{dom\ }f|f(x)\le\alpha\} {xdom ff(x)α}

是闭的。这等价于 f f f 的 epigraph

e p i   f = { ( x , t ) ∈ R n + 1 ∣ x ∈ d o m   f , f ( x ) ≤ t } \mathbf{epi}\ f=\{(x,t)\in\mathbf{R}^{n+1}|x\in\mathbf{dom\ }f,f(x)\le t\} epi f={(x,t)Rn+1xdom f,f(x)t}

是闭的。

一个闭的凸集是所有包含这个集合半平面的交集(见第二章,例 2.20)。对 e p i   f \mathbf{epi\ }f epi f 使用这个结论,定义:

H = { ( a , b , c ) ∈ R n + 2 ∣ ( a , b ) ≠ 0 , inf ⁡ ( x , t ) ∈ e p i   f ( a T x + b t ) ≥ c } H=\{(a,b,c)\in\mathbf{R}^{n+2}|(a,b)\neq0,\inf_{(x,t)\in\mathbf{epi\ }f}(a^Tx+bt)\ge c\} H={(a,b,c)Rn+2(a,b)=0,(x,t)epi finf(aTx+bt)c}

粗略来说, H H H 是包含 e p i   f \mathbf{epi\ }f epi f 的所有半平面的集合,根据第二章的结论,

e p i   f = ⋂ ( a , b , c ) ∈ H { ( x , t ) ∣ a T + b t ≥ c } \mathbf{epi\ }f=\bigcap_{(a,b,c)\in H}\{(x,t)|a^T+bt\ge c\} epi f=(a,b,c)H{(x,t)aT+btc}

显然 H H H 中所有元素都满足 b ≥ 0 b\ge0 b0 ,实际上 b > 0 b>0 b>0,因此仿射函数:

h ( x ) = − ( a / b ) T x + c / b h(x)=-(a/b)^Tx+c/b h(x)=(a/b)Tx+c/b

≤ f \le f f 的,因为对于 ∀ ( x , t ) ∈ e p i   f \forall(x,t)\in\mathbf{epi}\ f (x,t)epi f,有

t ≥ f ( x ) ≥ − ( a / b ) T x + c / t = h ( x ) t\ge f(x)\ge-(a/b)^Tx+c/t=h(x) tf(x)(a/b)Tx+c/t=h(x)

相反地,假如 h ( − a T x + c ) ≤ f h(-a^Tx+c)\le f h(aTx+c)f ( a , 1 , c ) ∈ H (a,1,c)\in H (a,1,c)H ,需要证明:

e p i   f = ⋂ ( a , b , c ) ∈ H , b > 0 { ( x , t ) ∣ a T x + b t ≥ c } \mathbf{epi\ }f=\bigcap_{(a,b,c)\in H,b>0}\{(x,t)|a^Tx+bt\ge c\} epi f=(a,b,c)H,b>0{(x,t)aTx+btc}

也就是说 e p i   f \mathbf{epi}\ f epi f 是所有包含 e p i   f \mathbf{epi}\ f epi f 的非垂直的半平面的交集。然后证明:

⋂ ( a , b , c ) ∈ H , b > 0 { ( x , t ) ∣ a T x + b t ≥ c } = ⋂ ( a , b , c ) ∈ H { ( x , t ) ∣ a T x + b t ≥ c } (1) \bigcap_{(a,b,c)\in H,b>0}\{(x,t)|a^Tx+bt\ge c\}=\bigcap_{(a,b,c)\in H}\{(x,t)|a^Tx+bt\ge c\} \tag{1} (a,b,c)H,b>0{(x,t)aTx+btc}=(a,b,c)H{(x,t)aTx+btc}(1)

显然左边的包含右边的,现在证假如在左边,那么它一定在右边,用反证法,首先设 ( x ˉ , t ˉ ) (\bar{x},\bar{t}) (xˉ,tˉ) 在左边的集合中,即:

a T x ˉ + b t ˉ ≥ c a^T\bar{x}+b\bar{t}\ge c aTxˉ+btˉc

对于所有的半平面 a T x + b t ≥ c a^Tx+bt\ge c aTx+btc 并且不是垂直的(即 b > 0 b>0 b>0)并且包含 e p i   f \mathbf{epi\ } f epi f ,假设 ( x ˉ , t ˉ ) (\bar{x},\bar{t}) (xˉ,tˉ) 不在右边的集合中,即存在 ( a ~ , b ~ , c ~ ) ∈ H (\tilde{a},\tilde{b},\tilde{c})\in H (a~,b~,c~)H b ~ = 0 \tilde{b}=0 b~=0 也是必要的),使得:

a ~ T x ˉ < c ~ \tilde{a}^T\bar{x}<\tilde{c} a~Txˉ<c~

H H H 至少包含一个元素 ( a 0 , b 0 , c 0 ) (a_0,b_0,c_0) (a0,b0,c0) 其中 b 0 > 0 b_0>0 b0>0 (要不然 e p i   f \mathbf{epi\ }f epi f 将会是垂直半平面们的交集了),考虑一个半平面为 ( a ~ , 0 , c ~ ) + ϵ ( a 0 , b 0 , c 0 ) (\tilde{a},0,\tilde{c})+\epsilon(a_0,b_0,c_0) (a~,0,c~)+ϵ(a0,b0,c0) ,其中 ϵ > 0 \epsilon>0 ϵ>0 ,这个半平面是非垂直的,并且对于 ∀ ( x , t ) ∈ e p i   f \forall (x,t)\in \mathbf{epi\ }f (x,t)epi f ,它是包含 e p i   f \mathbf{epi\ }f epi f 的:

( a ~ + ϵ a 0 ) T x + ϵ b 0 t ≥ a ~ T x + ϵ ( a 0 T + b 0 t ) ≥ c ~ + ϵ c 0 (\tilde{a}+\epsilon a_0)^Tx+\epsilon b_0 t\ge\tilde{a}^Tx+\epsilon(a_0^T+b_0t)\ge\tilde{c}+\epsilon c_0 (a~+ϵa0)Tx+ϵb0ta~Tx+ϵ(a0T+b0t)c~+ϵc0

原因是 a ~ T x ≥ c ~ \tilde{a}^Tx\ge\tilde{c} a~Txc~ a 0 T x + b 0 t ≥ c 0 a_0^Tx+b_0t\ge c_0 a0Tx+b0tc0 都包含 e p i   f \mathbf{epi\ }f epi f ,但是对于 ϵ > 0 \epsilon>0 ϵ>0 ,有:

( a ~ + ϵ a 0 ) T x + ϵ b 0 t ≥ a ~ T x + ϵ ( a 0 T + b 0 t ) < c ~ + ϵ c 0 (\tilde{a}+\epsilon a_0)^Tx+\epsilon b_0 t\ge\tilde{a}^Tx+\epsilon(a_0^T+b_0t)<\tilde{c}+\epsilon c_0 (a~+ϵa0)Tx+ϵb0ta~Tx+ϵ(a0T+b0t)<c~+ϵc0

因此半平面不包含 ( x ˉ , t ˉ ) (\bar{x},\bar{t}) (xˉ,tˉ) ,这和假设矛盾,因此 ( 1 ) (1) (1) 是成立的。

3.39

在这里插入图片描述
Convex Optimization: 3 Convex functions 作业_第9张图片
Convex Optimization: 3 Convex functions 作业_第10张图片
共轭函数的性质。

(a)一个凸函数加上一个仿射函数的共轭:定义 g ( x ) = f ( x ) + c T x + d g(x)=f(x)+c^Tx+d g(x)=f(x)+cTx+d ,其中 f f f 是凸的,用 f ∗ f^* f 来表示 g ∗ g^* g

g ∗ ( y ) = sup ⁡ ( y T x − f ( x ) − c T x − d ) = sup ⁡ ( ( y − c ) T x − f ( x ) ) − d = f ∗ ( y − c ) − d \begin{aligned} g^*(y)&=\sup(y^Tx-f(x)-c^Tx-d)\\ &=\sup((y-c)^Tx-f(x))-d\\ &=f^*(y-c)-d \end{aligned} g(y)=sup(yTxf(x)cTxd)=sup((yc)Txf(x))d=f(yc)d

(b)透视函数的共轭:用 f ∗ f^* f 来表示凸函数 f f f 的透视函数:

g ∗ ( y , s ) = sup ⁡ x / t ∈ d o m   f , t > 0 ( y T x + s t − t ( f ( x / t ) ) ) = sup ⁡ t > 0 sup ⁡ x / t ∈ d o m   f ( t ( y T ( x / t ) + s − f ( x / t ) ) ) = sup ⁡ t > 0 t ( s + sup ⁡ x / t ∈ d o m   f ( y T ( x / t ) − f ( x / t ) ) ) = sup ⁡ t > 0 t ( s + f ∗ ( y ) ) = { 0 s + f ∗ ( y ) ≤ 0 ∞ otherwise. \begin{aligned} g^*(y,s)&=\sup_{x/t\in\mathbf{dom\ }f,t>0}(y^Tx+st-t(f(x/t)))\\ &=\sup_{t>0}\sup_{x/t\in\mathbf{dom\ }f}(t(y^T(x/t)+s-f(x/t)))\\ &=\sup_{t>0}t(s+\sup_{x/t\in\mathbf{dom\ }f}(y^T(x/t)-f(x/t)))\\ &=\sup_{t>0}t(s+f^*(y))\\ &=\begin{cases} 0&s+f^*(y)\le0\\ \infty&\text{otherwise.} \end{cases} \end{aligned} g(y,s)=x/tdom f,t>0sup(yTx+stt(f(x/t)))=t>0supx/tdom fsup(t(yT(x/t)+sf(x/t)))=t>0supt(s+x/tdom fsup(yT(x/t)f(x/t)))=t>0supt(s+f(y))={0s+f(y)0otherwise.

(c)共轭以及最小:令 f ( x , z ) f(x,z) f(x,z) ( x , z ) (x,z) (x,z) 上的凸函数,定义 g ( x ) = inf ⁡ z f ( x , z ) g(x)=\inf_zf(x,z) g(x)=infzf(x,z) ,用 f ∗ f^* f 来表示 g ∗ g^* g

g ∗ ( y ) = sup ⁡ x ( x T y − inf ⁡ z f ( x , z ) ) = sup ⁡ x , z ( x T y − f ( x , z ) ) = f ∗ ( y , 0 ) \begin{aligned} g^*(y)&=\sup_x(x^Ty-\inf_zf(x,z))\\ &=\sup_{x,z}(x^Ty-f(x,z))\\ &=f^*(y,0) \end{aligned} g(y)=xsup(xTyzinff(x,z))=x,zsup(xTyf(x,z))=f(y,0)

作为应用,用 h ∗ , A , b h^*,A,b h,A,b 来表示函数 g ( x ) = inf ⁡ z { h ( z ) ∣ A z + b = x } g(x)=\inf_z\{h(z)|Az+b=x\} g(x)=infz{h(z)Az+b=x} 的共轭,其中 h h h 是凸的:

首先我们要找到 f ( x , z ) f(x,z) f(x,z)

f ( x , z ) = { h ( z ) A z + b = x ∞ otherwise. f(x,z)=\begin{cases} h(z)&Az+b=x\\ \infty&\text{otherwise.} \end{cases} f(x,z)={h(z)Az+b=xotherwise.

则有:

f ∗ ( y , v ) = sup ⁡ ( y T x + v T z − f ( x , z ) ) = sup ⁡ A z + b = x ( y T x + v T z − h ( z ) ) = sup ⁡ z ( y T ( A z + b ) + v T z − h ( z ) ) = b T y + sup ⁡ z ( y T A z + v T z − h ( z ) ) = b T y + h ∗ ( A T y + v ) \begin{aligned} f^*(y,v)&=\sup(y^Tx+v^Tz-f(x,z))\\ &=\sup_{Az+b=x}(y^Tx+v^Tz-h(z))\\ &=\sup_z(y^T(Az+b)+v^Tz-h(z))\\ &=b^Ty+\sup_z(y^TAz+v^Tz-h(z))\\ &=b^Ty+h^*(A^Ty+v) \end{aligned} f(y,v)=sup(yTx+vTzf(x,z))=Az+b=xsup(yTx+vTzh(z))=zsup(yT(Az+b)+vTzh(z))=bTy+zsup(yTAz+vTzh(z))=bTy+h(ATy+v)

我感觉应该是我上面的这种写法,不知道答案为啥这样写:

Convex Optimization: 3 Convex functions 作业_第11张图片
但是结果一样:

g ∗ ( y ) = f ∗ ( y , 0 ) = b T y + h ∗ ( A T y ) g^*(y)=f^*(y,0)=b^Ty+h^*(A^Ty) g(y)=f(y,0)=bTy+h(ATy)

(d)共轭的共轭:证明假如 f f f 是凸的且闭的,那么 f = f ∗ ∗ f=f^{**} f=f (一个函数其 epigraph 是闭的,则其是闭的),提示:证明 f ∗ ∗ f^{**} f f f f 所有的 affine global underestimators 的点式上确界,然后用练习 3.28 的结论。

根据定义:

f ∗ ( y ) = sup ⁡ x ( y T x − f ( x ) ) f^*(y)=\sup_x(y^Tx-f(x)) f(y)=xsup(yTxf(x))

假如 y ∈ d o m   f ∗ y\in\mathbf{dom\ }f^* ydom f ,则仿射函数 h ( x ) = y T x − f ∗ ( y ) h(x)=y^Tx-f^*(y) h(x)=yTxf(y) 小于等于 f f f ,反之,假如 h ( x ) = a T x + b h(x)=a^Tx+b h(x)=aTx+b 小于等于 f f f ,则 a ∈ d o m   f ∗ a\in\mathbf{dom\ }f^* adom f 并且 f ∗ ( a ) ≤ − b f^*(a)\le-b f(a)b ,那么所有小于等于 f f f 的仿射函数的集合正好就等于所以函数 h ( x ) = y T x + c h(x)=y^Tx+c h(x)=yTx+c 的集合,其中:

y ∈ d o m   f ∗ , c ≤ − f ∗ ( y ) . y\in\mathbf{dom\ }f^*,\quad c\le-f^*(y). ydom f,cf(y).

因此,根据练习 3.28 ,有:

f ( x ) = sup ⁡ y ∈ d o m   f ∗ ( y T x − f ∗ ( y ) ) = f ∗ ∗ ( y ) f(x)=\sup_{y\in\mathbf{dom\ }f^*}(y^Tx-f^*(y))=f^{**}(y) f(x)=ydom fsup(yTxf(y))=f(y)

A2.23

Convex Optimization: 3 Convex functions 作业_第12张图片
证明以下函数 f : R n → R f:\mathbf{R}^n\to\mathbf{R} f:RnR 是凸的:

(a) f ( x ) = − exp ⁡ ( − g ( x ) ) f(x)=-\exp(-g(x)) f(x)=exp(g(x)) ,其中 g : R n → R g:\mathbf{R}^n\to\mathbf{R} g:RnR 定义域是凸的,并且满足:

[ ∇ 2 g ( x ) ∇ g ( x ) ∇ g ( x ) T 1 ] ⪰ 0 \begin{bmatrix} \nabla^2g(x)&\nabla g(x)\\ \nabla g(x)^T&1 \end{bmatrix} \succeq0 [2g(x)g(x)Tg(x)1]0

其中 x ∈ d o m   g x\in\mathbf{dom\ }g xdom g

f f f 的梯度以及 Hessian:

∇ f ( x ) = e − g ( x ) ∇ g ( x ) ∇ 2 f ( x ) = e − g ( x ) ∇ 2 g ( x ) − e − g ( x ) ∇ g ( x ) ∇ g ( x ) T = e − g ( x ) ( ∇ 2 g ( x ) − ∇ g ( x ) ∇ g ( x ) T ) ⪰ 0 \begin{aligned} \nabla f(x)&=e^{-g(x)}\nabla g(x)\\ \nabla^2f(x)&=e^{-g(x)}\nabla^2g(x)-e^{-g(x)}\nabla g(x)\nabla g(x)^T\\ &=e^{-g(x)}(\nabla^2g(x)-\nabla g(x)\nabla g(x)^T)\\ &\succeq 0 \end{aligned} f(x)2f(x)=eg(x)g(x)=eg(x)2g(x)eg(x)g(x)g(x)T=eg(x)(2g(x)g(x)g(x)T)0

因此 f f f 凸。

(b)函数:

f ( x ) = max ⁡ { ∥ A P x − b ∥ ∣ P  is a permutation matrix } f(x)=\max\{\|APx-b\||P\text{ is a permutation matrix}\} f(x)=max{APxbP is a permutation matrix}

其中 A ∈ R m × n , b ∈ R m A\in\mathbf{R}^{m\times n},b\in\mathbf{R}^m ARm×n,bRm

因为 f f f 是带有参数 P P P ∥ A P x − b ∥ \|APx-b\| APxb 的最大值,又因为 ∥ A P x − b ∥ \|APx-b\| APxb 是凸函数,因此 f f f 凸。

你可能感兴趣的:(Convex,Optimization)