凸优化中的对偶(Duality in General Programs)

Intorduction

在上节中,我们讨论了线性规划中的对偶,引入了对偶的基本概念和对偶的两种解释。对偶相当于给当前的优化问题找到了一个下界,通过提升这个下界来找到原问题的最优解。本节将进一步介绍对偶在一般规划问题中的推广。

拉格朗日对偶函数

考虑一般的最小化问题:
min ⁡ x f ( x ) s u b j e c t   t o h i ( x ) ≤ 0 ,   i = 1 , . . . , m l i ( x ) = 0 ,   j = 1 , . . . , r \begin{aligned} \min_{x}\quad &f(x)\\ {\rm subject\ to}\quad &h_i(x)\leq 0,\ i=1,...,m\\ &l_i(x)=0,\ j=1,...,r \end{aligned} xminsubject tof(x)hi(x)0, i=1,...,mli(x)=0, j=1,...,r

这里不需要一定是凸函数,当然我们主要研究凸函数的情况。我们定义拉格朗日方程(Lagrangian)为:
L ( x , u , v ) = f ( x ) + ∑ i = 1 m u i h i ( x ) + ∑ j = 1 r v i l i ( x ) L(x,u,v)=f(x)+\sum^m_{i=1}u_ih_i(x)+\sum^r_{j=1}v_il_i(x) L(x,u,v)=f(x)+i=1muihi(x)+j=1rvili(x)

新变量 u ∈ R m , v ∈ R r u\in R^m, v\in R^r uRm,vRr,且 u ≥ 0 u\geq 0 u0。其一个重要的特性是,对于所有可行点 x x x
f ( x ) ≥ L ( x , u , v ) f(x)\geq L(x,u,v) f(x)L(x,u,v)

正如上节所示,如果 C C C表示原问题的可行域, f ∗ f^* f表示原问题的最优解,那么对于任意 u u u v ≥ 0 v\geq 0 v0
f ∗ ≥ min ⁡ x ∈ C L ( x , u , v ) ≥ min ⁡ x L ( x , u , v ) : = g ( u , v ) f^*\geq \min_{x\in C}L(x,u,v)\geq \min_x L(x,u,v):=g(u,v) fxCminL(x,u,v)xminL(x,u,v):=g(u,v)

我们称 g ( u , v ) g(u,v) g(u,v)为拉格朗日对偶函数(Lagrange dual function)。它给出了 f ∗ f^* f的一个下限。其中, u ≥ 0 u\geq 0 u0 v v v称之为对偶变量。

例子:二次规划
考虑二次规划问题::
min ⁡ x 1 2 x T Q x + c T x s u b j e c t   t o A x = b ,   x ≥ 0 \begin{aligned} \min_{x}\quad &\frac{1}{2}x^TQx+c^Tx\\ {\rm subject\ to}\quad &Ax=b,\ x\geq 0 \end{aligned} xminsubject to21xTQx+cTxAx=b, x0

其中, Q ≻ 0 Q\succ 0 Q0。拉格朗日方程为:
L ( x , u , v ) = 1 2 x T Q x + c T x − u T x + v T ( A x − b ) L(x,u,v)=\frac{1}{2}x^TQx+c^Tx-u^Tx+v^T(Ax-b) L(x,u,v)=21xTQx+cTxuTx+vT(Axb)

拉格朗日对偶函数为:
g ( u , v ) = min ⁡ x L ( x , u , v ) = − 1 2 ( c − u + A T v ) T Q − 1 ( c − u + A T v ) − b T v g(u,v)=\min_x L(x,u,v)=-\frac{1}{2}(c-u+A^Tv)^TQ^{-1}(c-u+A^Tv)-b^Tv g(u,v)=xminL(x,u,v)=21(cu+ATv)TQ1(cu+ATv)bTv

对于任意 u ≥ 0 u\geq 0 u0 v v v g ( u , v ) g(u,v) g(u,v)作为下界约束着原函数最优解 f ∗ f^* f的取值。

拉格朗日对偶问题

已知对于任意 u ≥ 0 u\geq 0 u0 v v v f ∗ ≥ g ( u , v ) f^*\geq g(u,v) fg(u,v)。因此最好的下界是:在 u , v u,v u,v可行域上最大化 g ( u , v ) g(u,v) g(u,v)。这就得到了拉格朗日对偶问题(Lagrange dual problem):
max ⁡ u , v g ( u , v ) s u b j e c t   t o u ≥ 0 \begin{aligned} \max_{u,v}\quad &g(u,v)\\ {\rm subject\ to}\quad &u\geq 0 \end{aligned} u,vmaxsubject tog(u,v)u0

一个关键的性质称为弱对偶(weak duality):如果对偶最优解为 g ∗ g^* g,那么 f ∗ ≥ g ∗ f^*\geq g^* fg
另一个关键性质是:对偶问题总是凸优化问题
无论原问题是不是凸的,这两个性质总是成立的。

强对偶

弱对偶告诉我们 f ∗ ≥ g ∗ f^*\geq g^* fg总是成立的。而在一些问题中,我们可以得到 f ∗ = g ∗ f^*=g^* f=g,该性质称之为强对偶。

Slater条件

Slater’s condition: 如果原问题是凸优化问题(即 f f f h 1 , . . . , h m h_1,...,h_m h1,...,hm是凸函数, l 1 , . . . , l r l_1,...,l_r l1,...,lr是放射函数),那么至少存在一个严格可行点 x ∈ R n x\in R^n xRn,即
h 1 ( x ) < 0 , . . . , h m ( x ) < 0 h_1(x)<0,...,h_m(x)<0 h1(x)<0,...,hm(x)<0 l 1 ( x ) = 0 , . . . , l r ( x ) = 0 l_1(x)=0,...,l_r(x)=0 l1(x)=0,...,lr(x)=0满足强对偶。

可以验证的是,对于线性规划问题,LP对偶的对偶就是原LP问题。且LP问题总是有强对偶性。

例子:支持向量机
给定 y ∈ { − 1 , 1 } n y\in \{-1,1\}^n y{1,1}n X ∈ R n × p X\in R^{n\times p} XRn×p有行向量 x 1 , . . . , x n x_1,...,x_n x1,...,xn,则支持向量机(SVM)定义为:
min ⁡ β , β 0 , ξ 1 2 ∥ β ∥ 2 2 + C ∑ i = 1 n ξ i s u b j e c t   t o ξ i ≥ 0 ,   i = 1 , . . . , n y i ( x i T β + β 0 ) ≥ 1 − ξ i ,   i = 1 , . . . , n \begin{aligned} \min_{\beta,\beta_0,\xi}\quad &\frac{1}{2}\|\beta\|^2_2+C\sum^n_{i=1}\xi_i\\ {\rm subject\ to}\quad & \xi_i\geq 0,\ i=1,...,n\\ &y_i(x_i^T\beta + \beta_0) \geq1-\xi_i,\ i=1,...,n \end{aligned} β,β0,ξminsubject to21β22+Ci=1nξiξi0, i=1,...,nyi(xiTβ+β0)1ξi, i=1,...,n

引入对偶变量 v , w ≥ 0 v,w\geq 0 v,w0,可以得到拉格朗日方程:
L ( β , β 0 , ξ , v , w ) = 1 2 ∥ β ∥ 2 + C ∑ i = 1 n ξ i − ∑ i = 1 n v i ξ i + ∑ i = 1 n w i ( 1 − ξ i − y i ( x i T β + β 0 ) ) L(\beta, \beta_0, \xi, v, w)=\frac{1}{2}\|\beta\|^2+C\sum^n_{i=1}\xi_i-\sum^n_{i=1}v_i\xi_i+\sum^n_{i=1}w_i(1-\xi_i-y_i(x^T_i\beta + \beta_0)) L(β,β0,ξ,v,w)=21β2+Ci=1nξii=1nviξi+i=1nwi(1ξiyi(xiTβ+β0))

则拉格朗日对偶函数为:
min ⁡ β , β 0 , ξ L = g ( v , w ) = { − 1 2 w T X ~ X ~ T w + 1 T w i f   w = C 1 − v ,   w T y = 0 − ∞ o t h e r w i s e \min_{\beta,\beta_0,\xi}L = g(v,w)=\left\{ \begin{aligned} &-\frac{1}{2}w^T\tilde{X}\tilde{X}^Tw+1^Tw &{\rm if}\ w=C1-v,\ w^Ty=0\\ &-\infty &otherwise \end{aligned} \right. β,β0,ξminL=g(v,w)=21wTX~X~Tw+1Twif w=C1v, wTy=0otherwise

其中, X ~ = d i a g ( y ) X \tilde{X}={\rm diag}(y)X X~=diag(y)X。因此,SVM的对偶问题消除了松弛变量 v v v
max ⁡ w − 1 2 w T X ~ X ~ T w + 1 T w s u b j e c t   t o 0 ≤ w ≤ C 1 ,   w T y = 0 \begin{aligned} \max_{w}\quad &-\frac{1}{2}w^T\tilde{X}\tilde{X}^Tw+1^Tw\\ {\rm subject\ to}\quad &0\leq w\leq C1,\ w^Ty=0 \end{aligned} wmaxsubject to21wTX~X~Tw+1Tw0wC1, wTy=0

可以看到,Slater条件是满足的,因而SVM是有强对偶性的。

对偶间隙

给定原变量 x x x和对偶变量 u , v u,v u,v,则 f ( x ) − g ( u , v ) f(x)-g(u,v) f(x)g(u,v)称为对偶间隙(duality gap)。注意到 f ( x ) − f ∗ ≤ f ( x ) − g ( u , v ) f(x)-f^*\leq f(x)-g(u,v) f(x)ff(x)g(u,v),所以当对偶间隙为0时, x x x就是原问题的最优解(同时, u , v u,v u,v也是对偶问题的最优解)。
从算法角度来看,只要给定一个停止阈值: f ( x ) − g ( u , v ) ≤ ϵ f(x)-g(u,v)\leq \epsilon f(x)g(u,v)ϵ,那么就可以保证 f ( x ) − f ∗ ≤ ϵ f(x)-f^*\leq \epsilon f(x)fϵ

你可能感兴趣的:(凸优化及其应用,数学理论)