在上节中,我们讨论了线性规划中的对偶,引入了对偶的基本概念和对偶的两种解释。对偶相当于给当前的优化问题找到了一个下界,通过提升这个下界来找到原问题的最优解。本节将进一步介绍对偶在一般规划问题中的推广。
考虑一般的最小化问题:
min x f ( x ) s u b j e c t t o h i ( x ) ≤ 0 , i = 1 , . . . , m l i ( x ) = 0 , j = 1 , . . . , r \begin{aligned} \min_{x}\quad &f(x)\\ {\rm subject\ to}\quad &h_i(x)\leq 0,\ i=1,...,m\\ &l_i(x)=0,\ j=1,...,r \end{aligned} xminsubject tof(x)hi(x)≤0, i=1,...,mli(x)=0, j=1,...,r
这里不需要一定是凸函数,当然我们主要研究凸函数的情况。我们定义拉格朗日方程(Lagrangian)为:
L ( x , u , v ) = f ( x ) + ∑ i = 1 m u i h i ( x ) + ∑ j = 1 r v i l i ( x ) L(x,u,v)=f(x)+\sum^m_{i=1}u_ih_i(x)+\sum^r_{j=1}v_il_i(x) L(x,u,v)=f(x)+i=1∑muihi(x)+j=1∑rvili(x)
新变量 u ∈ R m , v ∈ R r u\in R^m, v\in R^r u∈Rm,v∈Rr,且 u ≥ 0 u\geq 0 u≥0。其一个重要的特性是,对于所有可行点 x x x,
f ( x ) ≥ L ( x , u , v ) f(x)\geq L(x,u,v) f(x)≥L(x,u,v)
正如上节所示,如果 C C C表示原问题的可行域, f ∗ f^* f∗表示原问题的最优解,那么对于任意 u u u和 v ≥ 0 v\geq 0 v≥0,
f ∗ ≥ min x ∈ C L ( x , u , v ) ≥ min x L ( x , u , v ) : = g ( u , v ) f^*\geq \min_{x\in C}L(x,u,v)\geq \min_x L(x,u,v):=g(u,v) f∗≥x∈CminL(x,u,v)≥xminL(x,u,v):=g(u,v)
我们称 g ( u , v ) g(u,v) g(u,v)为拉格朗日对偶函数(Lagrange dual function)。它给出了 f ∗ f^* f∗的一个下限。其中, u ≥ 0 u\geq 0 u≥0和 v v v称之为对偶变量。
例子:二次规划
考虑二次规划问题::
min x 1 2 x T Q x + c T x s u b j e c t t o A x = b , x ≥ 0 \begin{aligned} \min_{x}\quad &\frac{1}{2}x^TQx+c^Tx\\ {\rm subject\ to}\quad &Ax=b,\ x\geq 0 \end{aligned} xminsubject to21xTQx+cTxAx=b, x≥0
其中, Q ≻ 0 Q\succ 0 Q≻0。拉格朗日方程为:
L ( x , u , v ) = 1 2 x T Q x + c T x − u T x + v T ( A x − b ) L(x,u,v)=\frac{1}{2}x^TQx+c^Tx-u^Tx+v^T(Ax-b) L(x,u,v)=21xTQx+cTx−uTx+vT(Ax−b)
拉格朗日对偶函数为:
g ( u , v ) = min x L ( x , u , v ) = − 1 2 ( c − u + A T v ) T Q − 1 ( c − u + A T v ) − b T v g(u,v)=\min_x L(x,u,v)=-\frac{1}{2}(c-u+A^Tv)^TQ^{-1}(c-u+A^Tv)-b^Tv g(u,v)=xminL(x,u,v)=−21(c−u+ATv)TQ−1(c−u+ATv)−bTv
对于任意 u ≥ 0 u\geq 0 u≥0和 v v v, g ( u , v ) g(u,v) g(u,v)作为下界约束着原函数最优解 f ∗ f^* f∗的取值。
已知对于任意 u ≥ 0 u\geq 0 u≥0和 v v v, f ∗ ≥ g ( u , v ) f^*\geq g(u,v) f∗≥g(u,v)。因此最好的下界是:在 u , v u,v u,v可行域上最大化 g ( u , v ) g(u,v) g(u,v)。这就得到了拉格朗日对偶问题(Lagrange dual problem):
max u , v g ( u , v ) s u b j e c t t o u ≥ 0 \begin{aligned} \max_{u,v}\quad &g(u,v)\\ {\rm subject\ to}\quad &u\geq 0 \end{aligned} u,vmaxsubject tog(u,v)u≥0
一个关键的性质称为弱对偶(weak duality):如果对偶最优解为 g ∗ g^* g∗,那么 f ∗ ≥ g ∗ f^*\geq g^* f∗≥g∗。
另一个关键性质是:对偶问题总是凸优化问题。
无论原问题是不是凸的,这两个性质总是成立的。
弱对偶告诉我们 f ∗ ≥ g ∗ f^*\geq g^* f∗≥g∗总是成立的。而在一些问题中,我们可以得到 f ∗ = g ∗ f^*=g^* f∗=g∗,该性质称之为强对偶。
Slater’s condition: 如果原问题是凸优化问题(即 f f f和 h 1 , . . . , h m h_1,...,h_m h1,...,hm是凸函数, l 1 , . . . , l r l_1,...,l_r l1,...,lr是放射函数),那么至少存在一个严格可行点 x ∈ R n x\in R^n x∈Rn,即
h 1 ( x ) < 0 , . . . , h m ( x ) < 0 h_1(x)<0,...,h_m(x)<0 h1(x)<0,...,hm(x)<0且 l 1 ( x ) = 0 , . . . , l r ( x ) = 0 l_1(x)=0,...,l_r(x)=0 l1(x)=0,...,lr(x)=0满足强对偶。
可以验证的是,对于线性规划问题,LP对偶的对偶就是原LP问题。且LP问题总是有强对偶性。
例子:支持向量机
给定 y ∈ { − 1 , 1 } n y\in \{-1,1\}^n y∈{−1,1}n, X ∈ R n × p X\in R^{n\times p} X∈Rn×p有行向量 x 1 , . . . , x n x_1,...,x_n x1,...,xn,则支持向量机(SVM)定义为:
min β , β 0 , ξ 1 2 ∥ β ∥ 2 2 + C ∑ i = 1 n ξ i s u b j e c t t o ξ i ≥ 0 , i = 1 , . . . , n y i ( x i T β + β 0 ) ≥ 1 − ξ i , i = 1 , . . . , n \begin{aligned} \min_{\beta,\beta_0,\xi}\quad &\frac{1}{2}\|\beta\|^2_2+C\sum^n_{i=1}\xi_i\\ {\rm subject\ to}\quad & \xi_i\geq 0,\ i=1,...,n\\ &y_i(x_i^T\beta + \beta_0) \geq1-\xi_i,\ i=1,...,n \end{aligned} β,β0,ξminsubject to21∥β∥22+Ci=1∑nξiξi≥0, i=1,...,nyi(xiTβ+β0)≥1−ξi, i=1,...,n
引入对偶变量 v , w ≥ 0 v,w\geq 0 v,w≥0,可以得到拉格朗日方程:
L ( β , β 0 , ξ , v , w ) = 1 2 ∥ β ∥ 2 + C ∑ i = 1 n ξ i − ∑ i = 1 n v i ξ i + ∑ i = 1 n w i ( 1 − ξ i − y i ( x i T β + β 0 ) ) L(\beta, \beta_0, \xi, v, w)=\frac{1}{2}\|\beta\|^2+C\sum^n_{i=1}\xi_i-\sum^n_{i=1}v_i\xi_i+\sum^n_{i=1}w_i(1-\xi_i-y_i(x^T_i\beta + \beta_0)) L(β,β0,ξ,v,w)=21∥β∥2+Ci=1∑nξi−i=1∑nviξi+i=1∑nwi(1−ξi−yi(xiTβ+β0))
则拉格朗日对偶函数为:
min β , β 0 , ξ L = g ( v , w ) = { − 1 2 w T X ~ X ~ T w + 1 T w i f w = C 1 − v , w T y = 0 − ∞ o t h e r w i s e \min_{\beta,\beta_0,\xi}L = g(v,w)=\left\{ \begin{aligned} &-\frac{1}{2}w^T\tilde{X}\tilde{X}^Tw+1^Tw &{\rm if}\ w=C1-v,\ w^Ty=0\\ &-\infty &otherwise \end{aligned} \right. β,β0,ξminL=g(v,w)=⎩⎨⎧−21wTX~X~Tw+1Tw−∞if w=C1−v, wTy=0otherwise
其中, X ~ = d i a g ( y ) X \tilde{X}={\rm diag}(y)X X~=diag(y)X。因此,SVM的对偶问题消除了松弛变量 v v v:
max w − 1 2 w T X ~ X ~ T w + 1 T w s u b j e c t t o 0 ≤ w ≤ C 1 , w T y = 0 \begin{aligned} \max_{w}\quad &-\frac{1}{2}w^T\tilde{X}\tilde{X}^Tw+1^Tw\\ {\rm subject\ to}\quad &0\leq w\leq C1,\ w^Ty=0 \end{aligned} wmaxsubject to−21wTX~X~Tw+1Tw0≤w≤C1, wTy=0
可以看到,Slater条件是满足的,因而SVM是有强对偶性的。
给定原变量 x x x和对偶变量 u , v u,v u,v,则 f ( x ) − g ( u , v ) f(x)-g(u,v) f(x)−g(u,v)称为对偶间隙(duality gap)。注意到 f ( x ) − f ∗ ≤ f ( x ) − g ( u , v ) f(x)-f^*\leq f(x)-g(u,v) f(x)−f∗≤f(x)−g(u,v),所以当对偶间隙为0时, x x x就是原问题的最优解(同时, u , v u,v u,v也是对偶问题的最优解)。
从算法角度来看,只要给定一个停止阈值: f ( x ) − g ( u , v ) ≤ ϵ f(x)-g(u,v)\leq \epsilon f(x)−g(u,v)≤ϵ,那么就可以保证 f ( x ) − f ∗ ≤ ϵ f(x)-f^*\leq \epsilon f(x)−f∗≤ϵ。