前面讲了凸优化问题的定义,以及一些常见的凸优化问题类型,这一章就要引入著名的拉格朗日函数和对偶问题了。通过对偶问题,我们可以将一些非凸问题转化为凸优化问题,还可以求出原问题的非平凡下界,这对复杂优化问题是很有用的。
考虑凸优化问题
minimize f 0 ( x ) subject to f i ( x ) ≤ 0 , i = 1 , … , m h i ( x ) = 0 , i = 1 , … , p \begin{aligned} \text { minimize } \quad& f_{0}(x)\\ \text { subject to } \quad& f_{i}(x) \leq 0, \quad i=1, \ldots, m\\ &h_{i}(x)=0, \quad i=1, \ldots, p \end{aligned} minimize subject to f0(x)fi(x)≤0,i=1,…,mhi(x)=0,i=1,…,p
假设 x ∈ R n x\in R^n x∈Rn,定义域为 D \mathcal{D} D,最优解为 p ⋆ p^\star p⋆。
我们定义**拉格朗日函数(Lagrangian)**为 L : R n × R m × R p → R L:R^n\times R^m\times R^p\to R L:Rn×Rm×Rp→R, dom L = D × R m × R p \text{dom}L=\mathcal{D}\times R^m\times R^p domL=D×Rm×Rp
L ( x , λ , ν ) = f 0 ( x ) + λ T f ( x ) + ν T h ( x ) L(x,\lambda,\nu)=f_0(x)+\lambda^Tf(x)+\nu^Th(x) L(x,λ,ν)=f0(x)+λTf(x)+νTh(x)
再取下确界得到拉格朗日对偶函数(Lagrange dual function) g : R m × R p → R g:R^m\times R^p\to R g:Rm×Rp→R
g ( λ , ν ) = inf x ∈ D ( f 0 ( x ) + λ T f ( x ) + ν T h ( x ) ) g(\lambda,\nu)=\inf_{x\in\mathcal{D}}\left(f_0(x)+\lambda^Tf(x)+\nu^Th(x)\right) g(λ,ν)=x∈Dinf(f0(x)+λTf(x)+νTh(x))
这个拉格朗日对偶函数可不得了啦!他有两个很重要的性质:
- g ( λ , ν ) g(\lambda,\nu) g(λ,ν) 是凹函数(不论原问题是否为凸问题)
- 如果 λ ⪰ 0 \lambda\succeq 0 λ⪰0,那么 g ( λ , ν ) ≤ p ⋆ g(\lambda,\nu)\le p^\star g(λ,ν)≤p⋆(对任意 λ ⪰ 0 , ν \lambda\succeq0,\nu λ⪰0,ν 都成立)
Remarks:上面两个性质为什么重要呢?首先由于 g ( λ , ν ) ≤ p ⋆ g(\lambda,\nu)\le p^\star g(λ,ν)≤p⋆,这可以给出原问题最优解的一个不平凡下界,这意味着如果原问题很难求解的时候,我们可以转变思路,求解一个新的优化问题:
maximize g ( λ , ν ) subject to λ ⪰ 0 \begin{aligned} \text { maximize } \quad& g(\lambda,\nu)\\ \text { subject to } \quad& \lambda\succeq0 \end{aligned} maximize subject to g(λ,ν)λ⪰0
另一方面,由于不论原函数是否为凸优化问题,新的问题都是凸的,因此可以方便求解。下面举几个例子。
例子 1:原问题为
maximize x T x subject to A x = b \begin{aligned} \text { maximize } \quad& x^Tx\\ \text { subject to } \quad& Ax=b \end{aligned} maximize subject to xTxAx=b
那么可以很容易得到拉格朗日函数为 L ( x , ν ) = x T x + ν T ( A x − b ) L(x,\nu)=x^Tx+\nu^T(Ax-b) L(x,ν)=xTx+νT(Ax−b),对偶函数为 g ( ν ) = − ( 1 / 4 ) ν T A A T ν − b T ν g(\nu)=-(1/4)\nu^TAA^T\nu-b^T\nu g(ν)=−(1/4)νTAATν−bTν,也即
p ⋆ ≥ g ( ν ) p^\star\ge g(\nu) p⋆≥g(ν)。
例子 2:标准形式的线性规划(LP)
maximize c T x subject to A x = b , x ⪰ 0 \begin{aligned} \text { maximize } \quad& c^Tx\\ \text { subject to } \quad& Ax=b,\quad x\succeq0 \end{aligned} maximize subject to cTxAx=b,x⪰0
按照定义容易得到对偶问题为
maximize − b T ν subject to A T ν + c ⪰ 0 \begin{aligned} \text { maximize } \quad& -b^T\nu\\ \text { subject to } \quad& A^T\nu+c\succeq0 \end{aligned} maximize subject to −bTνATν+c⪰0
例子 3:原问题为最小化范数
maximize ∥ x ∥ subject to A x = b \begin{aligned} \text { maximize } \quad& \Vert x\Vert\\ \text { subject to } \quad& Ax=b \end{aligned} maximize subject to ∥x∥Ax=b
对偶函数为
g ( ν ) = inf x ( ∥ x ∥ + ν T ( b − A x ) ) = { b T ν ∥ A T ν ∥ ∗ ≤ 1 − ∞ o . w . g(\nu)=\inf_{x} (\Vert x\Vert+\nu^T(b-Ax)) =\begin{cases}b^T\nu & \Vert A^T\nu\Vert_* \le1 \\ -\infty & o.w.\end{cases} g(ν)=xinf(∥x∥+νT(b−Ax))={bTν−∞∥ATν∥∗≤1o.w.
这个推导过程中用到了共轭函数的知识。实际上上面三个例子都是线性等式约束,这种情况下,我们应用定义推导过程中可以很容易联想到共轭函数。(实际上加上线性不等式约束也可以)
例子 4:(原问题非凸)考虑 Two-way partitioning (不知道怎么翻译了…)
maximize x T W x subject to x i 2 = 1 , i = 1 , . . . , n \begin{aligned} \text { maximize } \quad& x^TWx\\ \text { subject to } \quad& x_i^2=1,\quad i=1,...,n \end{aligned} maximize subject to xTWxxi2=1,i=1,...,n
对偶函数为
g ( ν ) = inf x ( x T ( W + diag ( ν ) ) x ) − 1 T ν = { − 1 T ν W + diag ( ν ) ⪰ 0 − ∞ otherwise \begin{aligned} g(\nu)=\inf_{x}\left( x^{T}(W+\operatorname{diag}(\nu)) x \right)-\mathbf{1}^{T} \nu =\left\{\begin{array}{ll} -\mathbf{1}^{T} \nu & W+\operatorname{diag}(\nu) \succeq 0 \\ -\infty & \text { otherwise } \end{array}\right. \end{aligned} g(ν)=xinf(xT(W+diag(ν))x)−1Tν={−1Tν−∞W+diag(ν)⪰0 otherwise
于是可以给出原问题最优解的下界为 p ⋆ ≥ − 1 T ν p^\star\ge-\mathbf{1}^{T} \nu p⋆≥−1Tν if W + diag ( ν ) ⪰ 0 W+\operatorname{diag}(\nu) \succeq 0 W+diag(ν)⪰0。这个下界是不平凡的,比如可以取 ν = − λ min ( W ) 1 \nu=-\lambda_{\min}(W)\mathbf{1} ν=−λmin(W)1,可以给出 p ⋆ ≥ n λ min ( W ) p^\star\ge n\lambda_{\min}(W) p⋆≥nλmin(W)。
上面已经多次提到**对偶问题(Lagrange dual problem)**了
maximize g ( λ , ν ) subject to λ ⪰ 0 \begin{aligned} \text { maximize } \quad& g(\lambda,\nu)\\ \text { subject to } \quad& \lambda\succeq0 \end{aligned} maximize subject to g(λ,ν)λ⪰0
假如对偶问题的最优解为 d ⋆ = max g ( λ , ν ) d^\star=\max g(\lambda,\nu) d⋆=maxg(λ,ν),那么我们有 p ⋆ ≥ d ⋆ p^\star \ge d^\star p⋆≥d⋆。
现在我们当然想知道什么情况下可以取等号,也即 p ⋆ = d ⋆ p^\star = d^\star p⋆=d⋆,此时我们只需要求解对偶问题就可以获得原问题的最优解了。在此之前,我们先引入两个概念:强对偶和弱对偶。
弱对偶(weak duality):满足 p ⋆ ≥ d ⋆ p^\star \ge d^\star p⋆≥d⋆,原问题不论是否为凸,弱对偶总是成立;
强对偶(strong duality):满足 p ⋆ = d ⋆ p^\star = d^\star p⋆=d⋆,强对偶并不总是成立,如果原问题为凸优化问题,一般情况下都成立。在凸优化问题中,保证强对偶成立的条件为被称为 constraint qualifications。
有很多种不同的 constraint qualifications,常用到的一种为 Slater’s constraint qualification(SCQ),其表述为
SCQ:对于凸优化问题
minimize f 0 ( x ) subject to f i ( x ) ≤ 0 , i = 1 , … , m A x = b \begin{aligned} \text { minimize } \quad& f_{0}(x)\\ \text { subject to } \quad& f_{i}(x) \leq 0, \quad i=1, \ldots, m\\ &Ax=b \end{aligned} minimize subject to f0(x)fi(x)≤0,i=1,…,mAx=b如果存在可行解 x ∈ int D x\in\text{int}\mathcal{D} x∈intD,使得
A x = b , f i ( x ) < 0 , , i = 1 , . . . , m Ax=b,\quad f_i(x)<0,\quad,i=1,...,m Ax=b,fi(x)<0,,i=1,...,m那么就能保证强对偶性。
Remarks:
- 由于存在线性等式约束,因此实际定义域可能不存在内点,可以将这一条件放松为相对内点 x ∈ relint D x\in\text{relint}\mathcal{D} x∈relintD;
- 如果不等式约束中存在线性不等式,那么他也不必严格小于0。也即如果 f i ( x ) = C T x + d f_i(x)=C^Tx+d fi(x)=CTx+d,则只需要满足 f i ( x ) ≤ 0 f_i(x)\le0 fi(x)≤0 即可。
下面再举几个例子,看一看他们的 SCQ 条件是什么。
例子 1:还是考虑线性规划(LP) 或者二次规划(QP)
minimize c T x ( or x T P x ) subject to A x ⪯ b \begin{aligned} \text { minimize } \quad& c^Tx \quad(\text{ or }x^TPx)\\ \text { subject to } \quad& Ax\preceq b \end{aligned} minimize subject to cTx( or xTPx)Ax⪯b
那么根据 SCQ 可以得到,如果想得到强对偶性,应该有 ∃ x , s.t. A x ⪯ b \exist x, \text{ s.t. } Ax\preceq b ∃x, s.t. Ax⪯b。
例子 2:(原问题非凸) Trust Region Methods
minimize x T A x + 2 b T x subject to x T x ≤ 1 \begin{aligned} \text { minimize } \quad& x^TAx+2b^Tx\\ \text { subject to } \quad& x^Tx\le1 \end{aligned} minimize subject to xTAx+2bTxxTx≤1
其中 A ⋡ 0 A\nsucceq 0 A⋡0,因此原问题不是凸的。他的对偶函数就是
g ( λ ) = inf x ( x T ( A + λ I ) x + 2 b T x − λ ) = { − b T ( A + λ I ) † b − λ A + λ I ⪰ 0 , b ∈ R ( A + λ I ) − ∞ o . w . g(\lambda)=\inf_x\left(x^T\left(A+\lambda I\right)x+2b^Tx-\lambda\right) =\begin{cases}-b^T(A+\lambda I)^\dagger b-\lambda & A+\lambda I\succeq0,b\in \mathcal{R}(A+\lambda I) \\ -\infty & o.w. \end{cases} g(λ)=xinf(xT(A+λI)x+2bTx−λ)={−bT(A+λI)†b−λ−∞A+λI⪰0,b∈R(A+λI)o.w.
注意如果不满足 A + λ I ⪰ 0 A+\lambda I\succeq0 A+λI⪰0 或 b ∈ R ( A + λ I ) b\in \mathcal{R}(A+\lambda I) b∈R(A+λI),则 g ( λ ) → − ∞ g(\lambda)\to-\infty g(λ)→−∞。那么就可以得到对偶问题为
maximize − b T ( A + λ I ) † b − λ subject to A + λ I ⪰ 0 b ∈ R ( A + λ I ) \begin{aligned} \text {maximize} \quad& -b^{T}(A+\lambda I)^{\dagger} b -\lambda\\ \text {subject to} \quad& A+\lambda I \succeq 0\\ &b \in \mathcal{R}(A+\lambda I) \end{aligned} maximizesubject to−bT(A+λI)†b−λA+λI⪰0b∈R(A+λI)
也可以等价转换为 SDP
maximize − t − λ subject to [ A + λ I b b T t ] ⪰ 0 \begin{aligned} \text {maximize} \quad& -t-\lambda\\ \text {subject to}\quad& \left[\begin{array}{cc}A+\lambda I & b \\ b^{T} & t\end{array}\right] \succeq 0 \end{aligned} maximizesubject to−t−λ[A+λIbTbt]⪰0
Remarks:这里用到了舒尔补(Schur complement)的知识。考虑矩阵
X = [ A B B T C ] X = \left[\begin{array}{cc}A & B \\ B^{T} & C\end{array}\right] X=[ABTBC]其中 det A ≠ 0 , S = C − B T A − 1 B \det A\ne0,S=C-B^TA^{-1}B detA=0,S=C−BTA−1B。那么有以下及条性质:
- X ≻ 0 ⟺ A ≻ 0 , S ≻ 0 X\succ0 \iff A\succ0,S\succ0 X≻0⟺A≻0,S≻0
- 若 A ≻ 0 A\succ0 A≻0,则 X ⪰ 0 ⟺ S ⪰ 0 X\succeq0 \iff S\succeq 0 X⪰0⟺S⪰0
- X ⪰ 0 ⟺ A ⪰ 0 , ( I − A A † ) B = 0 , S = C − B T A † B ⪰ 0 X\succeq0 \iff A\succeq0,(I-AA^\dagger)B=0,S=C-B^TA^{\dagger}B\succeq0 X⪰0⟺A⪰0,(I−AA†)B=0,S=C−BTA†B⪰0
关于第 3 条中的第二个要求 ( I − A A † ) B = 0 (I-AA^\dagger)B=0 (I−AA†)B=0,对 A A A 进行奇异值分解,有 A = U Σ V A=U\Sigma V A=UΣV,那么我们对任意 v v v,有 ( I − A A † ) B v = ( I − U U T ) B v = 0 (I-AA^\dagger)Bv=(I-UU^T)Bv=0 (I−AA†)Bv=(I−UUT)Bv=0,而 U U T UU^T UUT 实际上就是向 R ( A ) \mathcal{R}(A) R(A) 的投影矩阵,因此就要求 B v ∈ R ( A ) Bv\in\mathcal{R}(A) Bv∈R(A)。
前面给出的是 SCQ 的代数描述,那么如何证明呢?另外如何从几何角度直观理解呢?
首先我们可以考虑最简单的优化问题
minimize f 0 ( x ) subject to f 1 ( x ) \begin{aligned} \text { minimize } \quad& f_0(x)\\ \text { subject to } \quad& f_1(x) \end{aligned} minimize subject to f0(x)f1(x)
定义集合 G = { ( f 1 ( x ) , f 0 ( x ) ) ∣ x ∈ D } \mathcal{G}=\{(f_1(x),f_0(x))|x\in\mathcal{D}\} G={(f1(x),f0(x))∣x∈D},那么对偶函数为
g ( λ ) = inf ( u , t ) ∈ G ( t + λ u ) g(\lambda)=\inf_{(u,t)\in\mathcal{G}}(t+\lambda u) g(λ)=(u,t)∈Ginf(t+λu)
如果我们画出下面这张图,阴影部分就是可行区域 G \mathcal{G} G,而 ( λ , 1 ) T (\lambda,1)^T (λ,1)T 则正好定义了一个支撑超平面, g ( λ ) g(\lambda) g(λ) 就等于 t t t 轴的交点。通过取不同的 λ \lambda λ 我们就可以得到不同的支撑超平面,也可以得到不同的 g ( λ ) g(\lambda) g(λ),最终会有某一个 λ ⋆ \lambda^\star λ⋆ 对应的是 d ⋆ = g ( λ ⋆ ) d^\star=g(\lambda^\star) d⋆=g(λ⋆)。还需要注意这里的支撑超平面永远不可能是竖直的。
( λ , 1 ) T (\lambda,1)^T (λ,1)T 正好定义了一个支撑超平面 | 每个 λ \lambda λ 对应一个支撑超平面 |
那么 p ⋆ p^\star p⋆ 体现在哪个点呢?由于对于原优化问题,我们有 f 1 ( x ) ≤ 0 f_1(x)\le0 f1(x)≤0,因此体现在这个图里面就是 u ≤ 0 u\le0 u≤0,也就是上面左图当中的红色区域,而 p ⋆ = min f 0 ( x ) = min t p^\star=\min f_0(x)=\min t p⋆=minf0(x)=mint。
理解了这张图,我们现在开始证明两件事:
注:在此之前,我们不妨加入等式约束,也即 g ( λ , μ ) = inf ( u , v , t ) ∈ G ( t + λ T u + μ T v ) g(\lambda,\mu)=\inf_{(u,v,t)\in\mathcal{G}}(t+\lambda^T u+\mu^T v) g(λ,μ)=inf(u,v,t)∈G(t+λTu+μTv)。
弱对偶性的证明:我们有 λ ≥ 0 \lambda\ge0 λ≥0
p ⋆ = inf { t ∣ ( u , v , t ) ∈ G , u ≤ 0 , v = 0 } ≥ inf { t + λ T u + μ T v ∣ ( u , v , t ) ∈ G , u ≤ 0 , v = 0 } ≥ inf { t + λ T u + μ T v ∣ ( u , v , t ) ∈ G } = g ( λ , μ ) \begin{aligned} p^\star &= \inf\{t|(u,v,t)\in\mathcal{G},u\le0,v=0\} \\ &\ge \inf\{t+\lambda^Tu+\mu^Tv|(u,v,t)\in\mathcal{G},u\le0,v=0\} \\ &\ge \inf\{t+\lambda^Tu+\mu^Tv|(u,v,t)\in\mathcal{G}\} \\ &= g(\lambda,\mu) \end{aligned} p⋆=inf{t∣(u,v,t)∈G,u≤0,v=0}≥inf{t+λTu+μTv∣(u,v,t)∈G,u≤0,v=0}≥inf{t+λTu+μTv∣(u,v,t)∈G}=g(λ,μ)
强对偶性条件 SCQ 的证明:由 g ( λ , μ ) = inf ( u , v , t ) ∈ G ( t + λ T u + μ T v ) g(\lambda,\mu)=\inf_{(u,v,t)\in\mathcal{G}}(t+\lambda^T u+\mu^Tv) g(λ,μ)=inf(u,v,t)∈G(t+λTu+μTv) 可以得到
( λ , μ , 1 ) T ( u , v , t ) ≥ g ( λ , μ ) , ∀ ( u , v , t ) ∈ G (\lambda,\mu,1)^T(u,v,t)\ge g(\lambda,\mu),\quad \forall (u,v,t)\in\mathcal{G} (λ,μ,1)T(u,v,t)≥g(λ,μ),∀(u,v,t)∈G
这实际上定义了 G \mathcal{G} G 的一个超平面。特别的有 ( 0 , 0 , p ⋆ ) ∈ bd G (0,0,p^\star)\in\text{bd}\mathcal{G} (0,0,p⋆)∈bdG,因此也有
( λ , μ , 1 ) T ( 0 , 0 , p ⋆ ) ≥ g ( λ , μ ) (\lambda,\mu,1)^T(0,0,p^\star)\ge g(\lambda,\mu) (λ,μ,1)T(0,0,p⋆)≥g(λ,μ)
这个不等式可以自然地导出弱对偶性,当“=”成立时则可以导出强对偶性。那么什么时候取等号呢?点 ( 0 , 0 , p ⋆ ) (0,0,p^\star) (0,0,p⋆) 为支撑点的时候!也就是说
如果在边界点 ( 0 , 0 , p ⋆ ) (0,0,p^\star) (0,0,p⋆) 处存在一个非竖直的支撑超平面,那么我们就可以找到 λ , μ \lambda,\mu λ,μ 使得上面的等号成立,也就是得到了强对偶性。
注意前面的分析中我们并没有提到 SCQ,那么 SCQ 是如何保证强对偶性的呢?注意 SCQ 要求存在 x ∈ D x\in\mathcal{D} x∈D 使得 f ( x ) < 0 f(x)<0 f(x)<0,这也就意味着 G \mathcal{G} G 在 u < 0 u< 0 u<0 半平面上有点,因此如果支撑超平面存在的话,就一定不是垂直的。
但这又引出另一个问题,那就是支撑超平面一定存在吗?答案是一定存在,这是由原问题的凸性质决定的。为了证明这一点,我们可以引入一个类似于 epigraph 的概念:
A = G + ( R + m × { 0 } × R + ) = { ( u , v , t ) ∣ ∃ x ∈ D , s . t . f ( x ) ≤ u , h ( x ) = v , f 0 ( x ) ≤ t } \begin{aligned} \mathcal{A} &= \mathcal{G} + (R^m_+\times \{0\}\times R_+) \\ &= \left\{(u,v,t) |\ \exist x\in\mathcal{D},s.t. f(x)\le u,h(x)=v,f_0(x)\le t\right\} \end{aligned} A=G+(R+m×{0}×R+)={(u,v,t)∣ ∃x∈D,s.t.f(x)≤u,h(x)=v,f0(x)≤t}
由于原优化问题为凸的,可以应用定义证明集合 A \mathcal{A} A 也是凸的,同时 ( 0 , 0 , p ⋆ ) ∈ bd A (0,0,p^\star)\in\text{bd}\mathcal{A} (0,0,p⋆)∈bdA,那么集合 A \mathcal{A} A 在 ( 0 , 0 , p ⋆ ) (0,0,p^\star) (0,0,p⋆) 点就一定存在一个支撑超平面。又由 SCQ 可知这个支撑超平面一定不是竖直的,因此就可以得到强对偶性了。
注: ( λ , μ , 1 ) T ( u , v , t ) ≥ g ( λ , μ ) , ∀ ( u , v , t ) ∈ A (\lambda,\mu,1)^T(u,v,t)\ge g(\lambda,\mu),\quad \forall (u,v,t)\in\mathcal{A} (λ,μ,1)T(u,v,t)≥g(λ,μ),∀(u,v,t)∈A 也成立。
前面讨论拉格朗日函数的时候都只考虑了标量函数,如果约束函数为广义不等式,也即
minimize f 0 ( x ) subject to f i ( x ) ⪯ K i 0 , i = 1 , … , m h i ( x ) = 0 , i = 1 , … , p \begin{aligned} \text { minimize } \quad& f_{0}(x)\\ \text { subject to } \quad& f_{i}(x) \preceq_{K_i} 0, \quad i=1, \ldots, m\\ &h_{i}(x)=0, \quad i=1, \ldots, p \end{aligned} minimize subject to f0(x)fi(x)⪯Ki0,i=1,…,mhi(x)=0,i=1,…,p
那么他的拉格朗日函数就是
L ( x , λ 1 , ⋯ , λ m , ν ) = f 0 ( x ) + ∑ i = 1 m λ i T f i ( x ) + ∑ i = 1 p ν i h i ( x ) L\left(x, \lambda_{1}, \cdots, \lambda_{m}, \nu\right)=f_{0}(x)+\sum_{i=1}^{m} \lambda_{i}^{T} f_{i}(x)+\sum_{i=1}^{p} \nu_{i} h_{i}(x) L(x,λ1,⋯,λm,ν)=f0(x)+i=1∑mλiTfi(x)+i=1∑pνihi(x)
对偶函数就是
g ( λ 1 , … , λ m , ν ) = inf x ∈ D L ( x , λ 1 , ⋯ , λ m , ν ) g\left(\lambda_{1}, \ldots, \lambda_{m}, \nu\right)=\inf _{x \in \mathcal{D}} L\left(x, \lambda_{1}, \cdots, \lambda_{m}, \nu\right) g(λ1,…,λm,ν)=x∈DinfL(x,λ1,⋯,λm,ν)
其同样满足 p ⋆ ≥ g ( λ 1 , … , λ m , ν ) p^\star\ge g\left(\lambda_{1}, \ldots, \lambda_{m}, \nu\right) p⋆≥g(λ1,…,λm,ν)。对偶问题为
maximize g ( λ 1 , … , λ m , ν ) subject to λ i ⪰ K i ∗ 0 , i = 1 , . . . , m \begin{aligned} \text {maximize} \quad& g\left(\lambda_{1}, \ldots, \lambda_{m}, \nu\right) \\ \text {subject to}\quad& \lambda_i\succeq_{K_i^*}0,i=1,...,m \end{aligned} maximizesubject tog(λ1,…,λm,ν)λi⪰Ki∗0,i=1,...,m
强对偶性以及 Slater’s Condition 是类似的。
对于 SDP 问题
maximize c T x subject to x 1 F 1 + ⋯ + x n F n ⪯ G \begin{aligned} \text {maximize} \quad& c^Tx \\ \text {subject to}\quad& x_1F_1+\cdots +x_nF_n\preceq G \end{aligned} maximizesubject tocTxx1F1+⋯+xnFn⪯G
拉格朗日函数就是
L ( x , Z ) = c T x + tr ( Z ( x 1 F 1 + ⋯ + x n F n − G ) ) L(x, Z)=c^{T} x+\operatorname{tr}\left(Z\left(x_{1} F_{1}+\cdots+x_{n} F_{n}-G\right)\right) L(x,Z)=cTx+tr(Z(x1F1+⋯+xnFn−G))
对偶函数为
g ( Z ) = inf x L ( x , Z ) = { − tr ( G Z ) tr ( F i Z ) + c i = 0 , i = 1 , … , n − ∞ otherwise g(Z)=\inf _{x} L(x, Z)=\left\{\begin{array}{ll} -\operatorname{tr}(G Z) & \operatorname{tr}\left(F_{i} Z\right)+c_{i}=0, \quad i=1, \ldots, n \\ -\infty & \text { otherwise } \end{array}\right. g(Z)=xinfL(x,Z)={−tr(GZ)−∞tr(FiZ)+ci=0,i=1,…,n otherwise
对偶问题就是
maximize − tr ( G Z ) subject to Z ⪰ 0 , tr ( F i Z ) + c i = 0 , i = 1 , … , n \begin{aligned} \text {maximize} \quad& -\operatorname{tr}(G Z)\\ \text {subject to} \quad& Z \succeq 0, \quad \operatorname{tr}\left(F_{i} Z\right)+c_{i}=0, \quad i=1, \ldots, n \end{aligned} maximizesubject to−tr(GZ)Z⪰0,tr(FiZ)+ci=0,i=1,…,n
强对偶性以及 Slater’s Condition 是类似的。
注意我们说强对偶性需要严格满足不等式约束(也即最优解需要满足 h ( x ⋆ ) < 0 h(x^\star)<0 h(x⋆)<0 而不能是 h ( x ⋆ ) ≤ 0 h(x^\star)\le0 h(x⋆)≤0),但如果存在线性不等式约束,则可以取到等号(也即 A x ⋆ + b ≤ 0 Ax^\star+b\le0 Ax⋆+b≤0)。这就会出现下面的现象:
最后给我的博客打个广告,欢迎光临
https://glooow1024.github.io/
https://glooow.gitee.io/
前面的一些博客链接如下
凸优化专栏
凸优化学习笔记 1:Convex Sets
凸优化学习笔记 2:超平面分离定理
凸优化学习笔记 3:广义不等式
凸优化学习笔记 4:Convex Function
凸优化学习笔记 5:保凸变换
凸优化学习笔记 6:共轭函数
凸优化学习笔记 7:拟凸函数 Quasiconvex Function
凸优化学习笔记 8:对数凸函数
凸优化学习笔记 9:广义凸函数
凸优化学习笔记 10:凸优化问题
凸优化学习笔记 11:对偶原理