凸优化基础知识笔记-凸集、凸函数、凸优化问题


文章目录

  • 1. 凸集
  • 2. 凸函数
    • 2.1. 凸函数的一阶条件
    • 2.1. 凸函数例子
  • 3. 凸优化问题
  • 4. 对偶
    • 4.1. Lagrange函数与Lagrange对偶
    • 4.2. 共轭函数
    • 4.3. Lagrange对偶问题
    • 4.4. 强对偶性与Slater约束准则
    • 4.5. 最优性条件
      • 4.5.1. 互补松弛性
      • 4.5.2. KKT最优性条件
      • 4.5.3. 通过解对偶问题求解原问题
  • 5. 利用Lagrange对偶求解最优化问题的例子
    • 5.1. 熵的最大化问题

1. 凸集

集合 C C C被称为凸集,如果C中任意两点间的线段仍然在 C C C中。即对于任意 x 1 , x 2 ∈ C x_1,x_2\in C x1,x2C和满足 0 ≤ θ ≤ 1 0\leq \theta \leq 1 0θ1 θ \theta θ都有
(1-1) θ x 1 + ( 1 − θ ) x 1 ∈ C \theta x_1+(1-\theta)x_1\in C\\ \tag{1-1} θx1+(1θ)x1C(1-1)

2. 凸函数

凸函数的原始定义:

函数 f : R n → R f:{\rm{R}}^n\rightarrow{\rm{R}} f:RnR是凸的,如果 d o m   f {\rm dom}\ f dom f是凸集,且对于任意 x , y ∈ d o m   f x,y\in {\rm dom}\ f x,ydom f和任意 0 ≤ θ ≤ 1 0\leq \theta\leq 1 0θ1,有
(2-1) f ( θ x + ( 1 − θ ) y ) ≤ θ f ( x ) + ( 1 − θ ) f ( y ) f(\theta x+(1-\theta)y)\leq \theta f(x)+(1-\theta)f(y)\tag{2-1} f(θx+(1θ)y)θf(x)+(1θ)f(y)(2-1)

严格凸:上式中当 x ̸ = y x\not=y x̸=y 0 ≤ θ ≤ 1 0\leq \theta \leq 1 0θ1时,不等式严格成立(即取小于号)
几何意义:上述不等式意味着点 ( x , f ( x ) ) (x,f(x)) (x,f(x)) ( y , f ( y ) ) (y,f(y)) (y,f(y))之间的线段在函数 f f f的图像上方。

2.1. 凸函数的一阶条件

假设 f f f可微(即其梯度 ∇ f \nabla f f在开集 d o m   f {\rm dom}\ f dom f内处处存在),则函数 f f f是凸函数的充要条件是 d o m   f {\rm dom}\ f dom f是凸集且对于任意 x , y ∈ d o m   f x,y\in {\rm dom}\ f x,ydom f,下式成立:
(2-2) f ( y ) ≥ f ( x ) + ∇ f ( x ) T ( y − x ) f(y)\geq f(x)+\nabla f(x)^T(y-x)\tag{2-2} f(y)f(x)+f(x)T(yx)(2-2)

几何意义:凸函数的一阶Taylor近似是原函数的一个全局下估计,也即凸函数任意一点处的切线都在原函数图像的下方。反之亦然(充分必要条件)
2.2. 凸函数的二阶条件

假设 f f f二阶可微,即对于开集 d o m   f {\rm dom}\ f dom f内的任意一点,它的Hessian矩阵或者二阶导数 ∇ 2 f \nabla ^2f 2f存在,则函数 f f f是凸函数的充要条件是其Hessian矩阵是半正定阵:即对于所有的 x ∈ d o m   f x\in {\rm dom}\ f xdom f有:
(2-3) ∇ 2 f ( x ) ⪰ 0 \nabla^2f(x)\succeq 0\tag{2-3} 2f(x)0(2-3)

几何意义:函数图像在点 x x x处具有正(向上)的曲率。

2.1. 凸函数例子

常见的凸函数:

  • 指数函数 e a x , ∀ a ∈ R e^{ax},\forall a \in R eax,aR
  • 范数: ∥ x ∥ p = ( ∣ x 1 ∣ p + ∣ x 2 ∣ p + ⋯ + ∣ x n ∣ p ) 1 / p , p ≥ 1 \lVert x\rVert_p=\left(\lvert x_1\rvert^p+\lvert x_2\rvert^p+\cdots+\lvert x_n\rvert^p\right)^{1/p},p\geq 1 xp=(x1p+x2p++xnp)1/p,p1 R n 上 的 任 意 范 数 均 为 凸 函 数 {\rm R}^n上的任意范数均为凸函数 Rn
  • 负熵函数:函数 x l o g x xlog{x} xlogx在其定义域( R + + 或 者 R X R_{++}或者R_X R++RX)上是凸函数。

3. 凸优化问题

优化问题的标准形式
(3-1) m i n    f 0 ( x ) s . t .    f i ( x ) ≤ 0 , i = 1 , 2 , ⋯   , m h i ( x ) = 0 , i = 1 , 2 , ⋯   , p \begin{aligned} min\ \ &f_0(x)\\ s.t.\ \ &f_i(x)\leq 0,i=1,2,\cdots,m\\ &h_i(x)=0,i=1,2,\cdots,p\\ \tag{3-1} \end{aligned} min  s.t.  f0(x)fi(x)0,i=1,2,,mhi(x)=0,i=1,2,,p(3-1)
我们称 x ∈ R n x\in R^n xRn优化变量,称函数 f 0 : R n → R f_0:R^n\rightarrow R f0:RnR为为目标函数或代价函数;不等式 f i ( x ) ≤ 0 f_i(x)\leq 0 fi(x)0称为不等式约束, h i : R n → R h_i:R^n\rightarrow R hi:RnR称为等式约束。优化问题的定义域是目标函数和约束函数的定义域的交集。满足约束条件的定义域中的点称为可行点;所有可行点的集合称为可行集。
问题 ( 3 − 1 ) (3-1) (31)的最优值 p ∗ p^* p定义为:
(3-2) p = inf ⁡ { f 0 ( x ) ∣ f i ( x ) ≤ 0 , i = 1 , 2 , ⋯   , m , h i ( x ) = 0 , i = 1 , 2 , ⋯   , p } \begin{aligned} p=\inf\{&f_0(x)|\\ &f_i(x)\leq 0,i=1,2,\cdots,m,h_i(x)=0,i=1,2,\cdots,p\}\\ \tag{3-2} \end{aligned} p=inf{f0(x)fi(x)0,i=1,2,,m,hi(x)=0,i=1,2,,p}(3-2)
如果问题不可行,则 p ∗ = ∞ p^*=\infty p=

凸优化问题的标准形式
(3-3) m i n    f 0 ( x ) s . t .    f i ( x ) ≤ 0 , i = 1 , 2 , ⋯   , m a i T x = b i , i = 1 , 2 , ⋯   , p \begin{aligned} min\ \ &f_0(x)\\ s.t.\ \ &f_i(x)\leq 0,i=1,2,\cdots,m\\ &a_i^Tx=b_i,i=1,2,\cdots,p\\ \tag{3-3} \end{aligned} min  s.t.  f0(x)fi(x)0,i=1,2,,maiTx=bi,i=1,2,,p(3-3)
其中, f 0 , f 1 , ⋯   , f m f_0,f_1,\cdots,f_m f0,f1,,fm是凸函数
凸优化问题与一般优化问题的标准形式的区别在于以下三点:

  • 目标函数必须是凸的
  • 不等式约束函数必须是凸的
  • 等式约束函数必须是仿射函数

至于为什么等式约束必须是仿射函数,这里有个直观的解释:等式约束可以看成要同时满足 h i ( x ) ≤ 0 h_i(x)\leq 0 hi(x)0 − h i ( x ) ≤ 0 -h_i(x)\leq 0 hi(x)0,为了满足不等式约束的条件,要求 h i ( x ) h_i(x) hi(x)同时是凸函数和凹函数,这样的函数只能是仿射函数。

凸优化问题有一个很好的性质:任意局部最优解也是全局最优解。
对于无约束条件的凸优化问题, x x x是其最优解的充要条件是:
(3-2) ∇ f 0 ( x ) = 0 \nabla f_0 (x)=0 \\ \tag{3-2} f0(x)=0(3-2)

4. 对偶

4.1. Lagrange函数与Lagrange对偶

回到前面提到的标准形式的优化问题:
(4-1) m i n    f 0 ( x ) s . t .    f i ( x ) ≤ 0 , i = 1 , 2 , ⋯   , m h i ( x ) = 0 , i = 1 , 2 , ⋯   , p \begin{aligned} min\ \ &f_0(x)\\ s.t.\ \ &f_i(x)\leq 0,i=1,2,\cdots,m\\ &h_i(x)=0,i=1,2,\cdots,p\\ \tag{4-1} \end{aligned} min  s.t.  f0(x)fi(x)0,i=1,2,,mhi(x)=0,i=1,2,,p(4-1)
注意,这里没有要求是凸优化问题。
Lagrange对偶的基本思想是,在目标函数中考虑 ( 4 − 1 ) (4-1) (41)的约束条件,即添加约束条件的加权和,得到增广的目标函数,称之为Lagrange函数:
(4-2) L ( x , λ , ν ) = f 0 ( x ) + ∑ i = 1 m λ i f i ( x ) + ∑ i = 1 p ν i h i ( x ) L(x,\lambda,\nu)=f_0(x)+\sum_{i=1}^{m}{\lambda _if_i(x)} + \sum_{i=1}^{p}{\nu _ih_i(x)}\\ \tag{4-2} L(x,λ,ν)=f0(x)+i=1mλifi(x)+i=1pνihi(x)(4-2)
注意,Lagrange函数的定义域是 D × R m × R p D\times R^m\times R^p D×Rm×Rp,在后面的讨论中,我们会假设 λ i ≥ 0 \lambda_i\geq 0 λi0
向量 λ \lambda λ ν \nu ν成为对偶变量,或者是问题 ( 4 − 1 ) (4-1) (41)的Lagrange乘子向量。
Lagrange对偶函数定义为Lagrange函数关于x取得的最小值:
(4-3) g ( λ , ν ) = i n f x ∈ D L ( x , λ , ν ) = i n f x ∈ D ( f 0 ( x ) + ∑ i = 1 m λ i f i ( x ) + ∑ i = 1 p ν i h i ( x ) ) \begin{aligned} g(\lambda,\nu)&=\mathop{inf}\limits_{x\in D}L(x,\lambda,\nu)\\ &= \mathop{inf}\limits_{x\in D}\left(f_0(x)+\sum_{i=1}^{m}{\lambda _if_i(x)} + \sum_{i=1}^{p}{\nu _ih_i(x)}\right)\\ \tag{4-3} \end{aligned} g(λ,ν)=xDinfL(x,λ,ν)=xDinf(f0(x)+i=1mλifi(x)+i=1pνihi(x))(4-3)
Lagrange对偶函数是Lagrange函数的逐点下确界有,有个很重要的性质:无论原问题是不是凸的,Lagrange对偶函数都是凹函数。下面分别从理论上进行证明,以及从几何上形象地解释。
理论证明
不难看出, g ( λ , ν ) g(\lambda,\nu) g(λ,ν)是关于 λ , ν \lambda,\nu λ,ν的仿射函数,为了书写简简洁,我们用一个长的向量 μ \mu μ代表 ( λ , ν ) (\lambda,\nu) (λ,ν)
要想证明 g ( λ , ν ) g(\lambda,\nu) g(λ,ν)是凹函数,只需证明 ∀ μ 1 , μ 2 \forall \mu_1,\mu_2 μ1,μ2下式都成立:
(4-4) g ( θ μ 1 + ( 1 − θ ) μ 2 ) ≥ θ g ( μ 1 ) + ( 1 − θ ) g ( μ 2 ) g(\theta \mu_1+(1-\theta)\mu_2)\geq \theta g(\mu_1)+(1-\theta)g(\mu_2)\\ \tag{4-4} g(θμ1+(1θ)μ2)θg(μ1)+(1θ)g(μ2)(4-4)
下面是证明过程:
(4-5) g ( θ μ 1 + ( 1 − θ ) μ 2 ) = m i n x L ( x , θ μ 1 + ( 1 − θ ) μ 2 ) = m i n x ( θ L ( x , μ 1 ) + ( 1 − θ ) L ( x , μ 2 ) ) ≥ m i n x ( θ L ( x , μ 1 ) ) + m i n x ( ( 1 − θ ) L ( x , μ 2 ) ) = θ m i n x ( L ( x , μ 1 ) ) + ( 1 − θ ) m i n x ( L ( x , μ 2 ) ) = θ g ( μ 1 ) + ( 1 − θ ) g ( μ 2 ) \begin{aligned} g(\theta \mu_1+(1-\theta)\mu_2)&=\mathop{min}\limits_{x}L(x,\theta \mu_1+(1-\theta)\mu_2)\\ &=\mathop{min}\limits_{x}\left(\theta L(x, \mu_1)+(1-\theta)L(x, \mu_2)\right)\\ &\geq \mathop{min}\limits_{x}\left(\theta L(x, \mu_1)\right)+\mathop{min}\limits_{x}\left((1-\theta)L(x, \mu_2)\right)\\ &=\theta\mathop{min}\limits_{x}\left( L(x, \mu_1)\right)+(1-\theta)\mathop{min}\limits_{x}\left(L(x, \mu_2)\right)\\ &=\theta g(\mu_1)+(1-\theta)g(\mu_2)\\ \tag{4-5} \end{aligned} g(θμ1+(1θ)μ2)=xminL(x,θμ1+(1θ)μ2)=xmin(θL(x,μ1)+(1θ)L(x,μ2))xmin(θL(x,μ1))+xmin((1θ)L(x,μ2))=θxmin(L(x,μ1))+(1θ)xmin(L(x,μ2))=θg(μ1)+(1θ)g(μ2)(4-5)
得证!
注意,第一步到第二步是因为 L ( x , μ ) L(x,\mu) L(x,μ)是关于 u u u的仿射函数;第二步到第三步是因为,地二步中取得最小值时,括号中两项中的 x x x是取相同的值的,而第三步中两项分别取最小值不要求 x x x一定取相同值(也即能够比第二步涵盖更多情况),因此第三步可能取到的最小值肯定小于或等于第二步的最小值。
几何解释如下:
由于 L ( x , μ ) L(x,\mu) L(x,μ)是关于 u u u的仿射函数,我们将 μ \mu μ退化为1维来形象地解释。 L ( x , μ ) L(x,\mu) L(x,μ)可以看成是许多的直线簇组成。 g ( x , μ ) g(x,\mu) g(x,μ)可以理解成:当 μ \mu μ取某一个值时,取曲线簇在这个值上的最小值,遍历所有 μ \mu μ,将曲线簇的一些最小值作为 g ( x , μ ) g(x,\mu) g(x,μ)的值域。因此, g ( x , μ ) g(x,\mu) g(x,μ)可以看成下图中黄色区域的边界线,显然是一个凹函数。

此外,Lagrange对偶函数还有如下性质:
∀ λ ⪰ 0 \forall \lambda \succeq 0 λ0(每一维都大于0)和 ν \nu ν,都有
(4-6) g ( λ , ν ) ≤ p ∗ g(\lambda,\nu)\leq p^*\\ \tag{4-6} g(λ,ν)p(4-6)
其中 p ∗ p^* p是原问题的最优值。也即,对偶函数构成了原问题的最优值的下界。

4.2. 共轭函数

设函数 f : R n → R f:R^n\rightarrow R f:RnR,定义 f ∗ : R n → R f^*:R^n\rightarrow R f:RnR为:
(4-7) f ∗ ( y ) = s u p x ∈ d o m   f ( y T x − f ( x ) ) f^*(y)=\mathop{sup}\limits_{x\in dom\ f}\left(y^Tx-f(x)\right)\\ \tag{4-7} f(y)=xdom fsup(yTxf(x))(4-7)
此函数成为函数 f f f的共轭函数。共轭函数是一系列仿射函数的逐点上确界,所以必然是一个凸函数。
对于负熵函数 x l o g x xlog{x} xlogx,它的共轭函数不难推导出是 f ∗ ( y ) = e y − 1 f^*(y)=e^{y-1} f(y)=ey1,这在后面会用到

4.3. Lagrange对偶问题

( 4 − 6 ) (4-6) (46)可以看到,对于任意一组 ( λ , ν ) (\lambda,\nu) (λ,ν),其中 λ ⪰ 0 \lambda \succeq0 λ0,Lagrange对偶函数给出了优化问题 ( 4 − 1 ) (4-1) (41)的最优值 p ∗ p^* p的一个下界。我们来看一下从Lagrange函数得到的最好下界。该问题可以表述为如下优化问题:
(4-8) m a x i m i z e    g ( λ , ν ) s u b j e c t   t o    λ ⪰ 0 \begin{aligned} maximize\ \ g(\lambda,\nu)\\ subject\ to\ \ \lambda\succeq 0 \tag{4-8} \end{aligned} maximize  g(λ,ν)subject to  λ0(4-8)
上述问题被称为原问题Lagrange对偶问题
满足 λ ⪰ 0 \lambda \succeq 0 λ0 g ( λ , ν ) > 0 g(\lambda,\nu)>0 g(λ,ν)>0的一组 ( λ , ν ) (\lambda,\nu) (λ,ν)被称为一组对偶可行解。如果一组 ( λ ∗ , ν ∗ ) (\lambda^*,\nu^*) (λ,ν)是对偶问题的最优解,那么称它是对偶最优解或者最优Lagrange乘子
由于 g ( λ , ν ) > 0 g(\lambda,\nu)>0 g(λ,ν)>0必然是凹函数,且约束条件是凸函数,所以问题 ( 4 − 8 ) (4-8) (48)必然是一个凸优化问题。
因此Lagrange对偶问题是一个凸优化问题,与原问题的凸性无关

记Lagrange对偶问题的最优值为 d ∗ d^* d,原问题的最优值为 p ∗ p^* p。显然有 d ∗ ≤ p ∗ d^*\leq p^* dp,这个性质称为弱对偶性

4.4. 强对偶性与Slater约束准则

如果前面的有 d ∗ = p ∗ d^*=p^* d=p,则强对偶性成立。
强对偶性成立的一个简单的约束条件是:存在一点 x ∈ r e l i n t   D x\in relint\ D xrelint D使得下式成立:
(4-9) f i ( x ) < 0 , i 1 , ⋯   , m , A x = b f_i(x)< 0,i1,\cdots,m,Ax=b\\ \tag{4-9} fi(x)<0,i1,,m,Ax=b(4-9)
如果不等式约束函数中有一些是仿射函数时,Slater条件可以进一步改进为:不是仿射函数的那些不等式约束函数需要满足 ( 4 − 9 ) (4-9) (49)。换言之,仿射不等式不需要严格成立。
由此可以得到一个推论:当所有约束条件是线性等式或线性不等式且 d o m   f 0 dom\ f_0 dom f0是开集时,改进的Slater条件就是可行性条件。也即只要问题是可行的,强对偶性就成立。
Boyd的《Convex Optimization》一书中,证明了当原问题是凸问题且Slater条件成立时,强对偶性成立。

4.5. 最优性条件

注意,此小节讨论的问题并不要求是凸问题。

4.5.1. 互补松弛性

如果强对偶性成立,则有:
(4-10) f 0 ( x ∗ ) = g ( λ ∗ , ν ∗ ) = i n f x ( f 0 ( x ) + ∑ i = 1 m λ i ∗ f i ( x ) + ∑ i = 1 p ν i ∗ h i ( x ) ) ) ≤ f 0 ( x ∗ ) + ∑ i = 1 m λ i ∗ f i ( x ∗ ) + ∑ i = 1 p ν i ∗ h i ( x ∗ ) ≤ f 0 ( x ∗ ) \begin{aligned} f_0(x^*)&=g(\lambda^*,\nu^*)\\ &=\mathop{inf}\limits_{x}\left(f_0(x)+\sum_{i=1}^{m}{\lambda _i^*f_i(x)} + \sum_{i=1}^{p}{\nu _i^*h_i(x)}\right))\\ &\leq f_0(x^*)+\sum_{i=1}^{m}{\lambda _i^*f_i(x^*)} + \sum_{i=1}^{p}{\nu _i^*h_i(x^*)}\\ &\leq f_0(x^*)\\ \tag{4-10} \end{aligned} f0(x)=g(λ,ν)=xinf(f0(x)+i=1mλifi(x)+i=1pνihi(x)))f0(x)+i=1mλifi(x)+i=1pνihi(x)f0(x)(4-10)
上式可以得到几个有用的结论:

  • 由于第三个不等式取等号,说明 L ( x , λ ∗ , ν ∗ ) L(x,\lambda^*,\nu^*) L(x,λ,ν) x ∗ x^* x处取得局部最小值,也即该点处导数为0
  • λ i ∗ f i ( x ∗ ) = 0 , i = 1 , 2 , ⋯   , m \lambda_i^*f_i(x^*)=0,i=1,2,\cdots,m λifi(x)=0,i=1,2,,m,这个称为互补松弛条件,意味着在最优点处,不等式约束要么取等号 ( f i ( x ∗ ) = 0 ) (f_i(x^*)=0) (fi(x)=0),要么它对应的Lagrange乘子为零 λ i ∗ = 0 \lambda_i^*=0 λi=0

4.5.2. KKT最优性条件

这小节讨论的目标函数 f 0 f_0 f0和约束函数 f 1 , f 2 , ⋯   , f m , h 1 , h 2 , ⋯   , h p f_1,f_2,\cdots,f_m,h_1,h_2,\cdots,h_p f1,f2,,fm,h1,h2,,hp是可微的,但并不要求它们都是凸函数。
结合上一小节的内容,我们可以推出,对于目标函数和约束函数可微的任意优化问题,如果强对偶性成立,则任一对偶问题的最优解和对偶问题的最优解必须满足下列的式子:
(4-9) f i ( x ∗ ) ≤ 0 , i = 1 , 2 , ⋯   , m h i ( x ∗ ) = 0 , i = 1 , 2 , ⋯   , p λ i ∗ ≥ 0 , i = 1 , 2 , ⋯   , m λ i ∗ f i ( x ∗ ) = 0 , i = 1 , 2 , ⋯   , m ∇ f 0 ( x ∗ ) + ∑ i = 1 m λ i ∗ ∇ f i ( x ∗ ) + ∑ i = 1 p ν i ∗ ∇ h i ( x ∗ ) = 0 \begin{aligned} f_i(x^*)&\leq 0 ,i=1,2,\cdots,m\\ h_i(x^*)&=0,i=1,2,\cdots,p\\ \lambda_i^*&\geq 0,i=1,2,\cdots,m\\ \lambda_i^*f_i(x^*)&=0,i=1,2,\cdots,m\\ \nabla f_0(x^*)+\sum_{i=1}^{m}{\lambda _i^*\nabla f_i(x^*)} + \sum_{i=1}^{p}{\nu _i^*\nabla h_i(x^*)}&=0\\ \tag{4-9} \end{aligned} fi(x)hi(x)λiλifi(x)f0(x)+i=1mλifi(x)+i=1pνihi(x)0,i=1,2,,m=0,i=1,2,,p0,i=1,2,,m=0,i=1,2,,m=0(4-9)
上式被称为非凸问题的KKT条件
如果原问题是凸问题,则满足KKT条件的点也是原、对偶问题的最优解。这个定理很重要!
上述定理的证明:前面两个条件说明了 x ∗ x^* x是原问题的可行解;因为 λ ∗ ≥ 0 \lambda^*\geq 0 λ0,所以 L ( x , λ ∗ , ν ∗ ) L(x,\lambda^*,\nu^*) L(x,λ,ν)是x的凸函数;最优一个条件说明了Lagrange函数在 x ∗ x^* x处导数为零,也即Lagrange函数取得全局最小值,因此此时有:
(4-10) g ( λ ∗ , ν ∗ ) = L ( x ∗ , λ ∗ , ν ∗ ) = f 0 ( x ∗ ) + ∑ i = 1 m λ i ∗ f i ( x ∗ ) + ∑ i = 1 p ν i ∗ h i ( x ∗ ) = f 0 ( x ∗ ) \begin{aligned} g(\lambda^*,\nu^*)&=L(x^*,\lambda^*,\nu^*)\\ &=f_0(x^*)+\sum_{i=1}^{m}{\lambda _i^*f_i(x^*)} + \sum_{i=1}^{p}{\nu _i^*h_i(x^*)}\\ &=f_0(x^*)\\ \tag{4-10} \end{aligned} g(λ,ν)=L(x,λ,ν)=f0(x)+i=1mλifi(x)+i=1pνihi(x)=f0(x)(4-10)
上述意味着对偶间隙为0,强对偶性成立,因此得证。

4.5.3. 通过解对偶问题求解原问题

由前面可知,如果强对偶性成立,且存在一个对偶最优解 ( λ ∗ , ν ∗ ) (\lambda^*,\nu^*) (λ,ν),那么任意原问题最优点也是 L ( x , λ ∗ , ν ∗ ) L(x,\lambda^*,\nu^*) L(x,λ,ν)的最优解。利用这个性质,我们可以从对偶最优方程中去求解原问题最优解。确切的讲,如果强对偶性成立,对偶最优解 ( λ ∗ , ν ∗ ) (\lambda^*,\nu^*) (λ,ν)已知,并且下列问题的解唯一:
(4-11) m i n   f 0 ( x ) + ∑ i = 1 m λ i f i ( x ) + ∑ i = 1 p ν i h i ( x ) min\ f_0(x)+\sum_{i=1}^{m}{\lambda _if_i(x)} + \sum_{i=1}^{p}{\nu _ih_i(x)}\tag{4-11} min f0(x)+i=1mλifi(x)+i=1pνihi(x)(4-11)
(Lagrange函数是严格凸函数时上述最优化问题的解是唯一的),如果上式问题的解是原问题的可行解,那么它就是原问题的最优解;如果它不是原问题的可行解,那么原问题不存在最优解(或者无法达到)。当对偶问题比原问题更容易求解时,上述方法很有意义。

5. 利用Lagrange对偶求解最优化问题的例子

5.1. 熵的最大化问题

这个例子在机器学习中可能会经常遇到。问题描述如下:

(5-1) m i n   f 0 ( x ) = ∑ i = 1 n x i l o g x i s . t .   A x ⪯ b 1 T x = 1 \begin{aligned} min\ f_0(x)&=\sum_{i=1}^{n}{x_ilog{x_i}}\\ s.t.\ Ax&\preceq b\\ 1^Tx&=1\\ \tag{5-1} \end{aligned} min f0(x)s.t. Ax1Tx=i=1nxilogxib=1(5-1)
定义域为 R + + R_{++} R++
记目标函数为 f 0 ( x ) f_0(x) f0(x)Lagrange函数为:
(5-2) L ( x , λ , ν ) = f 0 ( x ) + λ T ( A x − b ) + ν ( 1 ⃗ T x − 1 ) \begin{aligned} L(x,\lambda,\nu)=f_0(x)+\lambda^T(Ax-b)+\nu(\vec 1^Tx-1)\\ \tag{5-2} \end{aligned} L(x,λ,ν)=f0(x)+λT(Axb)+ν(1 Tx1)(5-2)
Lagrange对偶函数为:
(5-3) g ( λ , ν ) = i n f x   ( f 0 ( x ) + λ T ( A x − b ) + ν ( 1 T x − 1 ) ) = − b T λ − ν + i n f x   ( f 0 ( x ) + ( A T λ + 1 ⃗ ν ) T x ) = − b T λ − ν − s u p x   ( − f 0 ( x ) − ( A T λ + 1 ⃗ ν ) T x ) = − b T λ − ν − f 0 ∗ ( − ( A T λ + 1 ⃗ ν ) ) \begin{aligned} g(\lambda,\nu)&=\mathop{inf}\limits_{x}\ \left(f_0(x)+\lambda^T(Ax-b)+\nu(1^Tx-1)\right)\\ &=-b^T\lambda-\nu+\mathop{inf}\limits_{x}\ \left(f_0(x)+(A^T\lambda+\vec 1\nu)^Tx\right)\\ &=-b^T\lambda-\nu-\mathop{sup}\limits_{x}\ \left(-f_0(x)-(A^T\lambda+\vec 1\nu)^Tx\right)\\ &=-b^T\lambda-\nu-f_0^*\left(-(A^T\lambda+\vec 1\nu)\right)\\ \tag{5-3} \end{aligned} g(λ,ν)=xinf (f0(x)+λT(Axb)+ν(1Tx1))=bTλν+xinf (f0(x)+(ATλ+1 ν)Tx)=bTλνxsup (f0(x)(ATλ+1 ν)Tx)=bTλνf0((ATλ+1 ν))(5-3)
其中 f 0 ∗ f_0^* f0 f 0 f_0 f0的共轭函数。对于负熵函数 x l o g x xlog{x} xlogx,它的共轭函数不难推导出是 f ∗ ( y ) = e y − 1 f^*(y)=e^{y-1} f(y)=ey1,因此不难得出 ( 5 − 3 ) (5-3) (53)可进一步化为:
(5-3) g ( λ , ν ) = i n f x   ( f 0 ( x ) + λ T ( A x − b ) + ν ( 1 T x − 1 ) ) = − b T λ − ν − ∑ i = 1 n e ( − a i T λ − ν − 1 ) \begin{aligned} g(\lambda,\nu)&=\mathop{inf}\limits_{x}\ \left(f_0(x)+\lambda^T(Ax-b)+\nu(1^Tx-1)\right)\\ &=-b^T\lambda-\nu-\sum_{i=1}^{n}e^{\left(-a_i^T\lambda-\nu-1\right)}\\ \tag{5-3} \end{aligned} g(λ,ν)=xinf (f0(x)+λT(Axb)+ν(1Tx1))=bTλνi=1ne(aiTλν1)(5-3)

假设原问题可行,也即Slater条件成立(注意这里的约束条件都是仿射函数),那么此时强对偶性成立。因此对Lagrange函数求最小值即可求得原问题的最小值解。注意到Lagrange函数是严格凸函数,很容易求得最小值点
(5-4) x i ∗ = e x p ( − ( a i T λ ∗ + ν ∗ + 1 ) ) , i = 1 , 2 , ⋯   , n x_i^*=exp\left(-(a_i^T\lambda^*+\nu^*+1)\right),i=1,2,\cdots,n\\ \tag{5-4} xi=exp((aiTλ+ν+1)),i=1,2,,n(5-4)

其中 a i a_i ai A A A的列向量,如果 x ∗ x^* x是原问题的可行解,则必定是原问题的最优解。

你可能感兴趣的:(理论学习,学习笔记)