凸优化——Lasso

凸优化问题实例:LASSO

熟悉机器学习算法里面的线性回归或者逻辑回归的同学因该明白LASSO问题,其定义为:

minβRpsubjecttoyXβ22β1s minβ∈Rp∥y−Xβ∥22subjectto∥β∥1≤s

LASSO是Tibshirani(对就是Tibshirani)在1996年JRSSB上的一篇文章上《Regression shrinkage and selection via lasso》提出的。所谓lasso,其全称是least absolute shrinkage and selection operator,其含义是在限制了 β1s ∑∥β∥1≤s的情况下,求使得残差平和达到最小的参数的估值。Tibshirani指出,对于回归算法,当 s s足够小的时候,会使得某些回归系数的估值是0,可以起到变量选择的作用,是逐步回归的一种表现。

因此,对于LASSO算法,其是否是凸优化问题?它的解集合是否是唯一的点?

答案是,LASSO问题是凸优化问题,因为 f(x)=yXβ22 f(x)=∥y−Xβ∥22 g(x)=β1s g(x)=∥β∥1−s均是凸函数,因此该问题为凸优化问题;如果样本数目 n n大于特征数目 p p,且X满秩,那么 2f(β)=2XTX0 ∇2f(β)=2XTX⪰0,关于 β β二阶微分恒为半正定p.s.d.,因此,解是唯一的;但是,如果样本数目 n n小于特征数目 p p,那么会造成高维特征空间上的维数灾难问题,此时,X为奇异矩阵,则解不唯一。

另一个实例是SVM算法,SVM算法的理论部分我就不多介绍了,会在机器学习算法篇章中对SVM做着重介绍,如果我们记SVM为:

minβ,β0,ξsubjectto12β22+Cinξiξi0,i=1,,nyi(xTiβ+β0)1ξi,i=1,,n minβ,β0,ξ12∥β∥22+C∑inξisubjecttoξi≥0,i=1,…,nyi(xiTβ+β0)≥1−ξi,i=1,…,n

其中, 1β 1∥β∥为下图两个虚线边界的距离, ξ ξ为引入分类错误的代价,代表下图错分样本点距正确分类边界的距离。具体如下图:

那么,该问题是否为凸优化问题呢?它的解是否是唯一?

答案是,SVM目标函数是凸优化问题,但是,它的解并不唯一,因为它不是严格凸函数。有兴趣的同学可以留言来解释为什么SVM是凸优化问题!

4. 局部最小值就是全局最小值

局部最优解的定义为:如果 R>0 ∃R>0,使得 f(x)f(y) f(x)≤f(y),其中y满足 xy2R ∥x−y∥2≤R,则点x为优化问题的局部最优解(locally optimal)。

对于凸优化问题,凸函数有一个特别的性质,即局部最优解是全剧最优解(local minima are global minima),即如果 xD x∈D,同时 x x满足所有约束,那么对于局部 y,xy2ρ y,∥x−y∥2≤ρ,当 f(x)f(y) f(x)≤f(y)时,对于所有可行解 y,f(x)f(y) y,f(x)≤f(y)。相反,非凸优化问题则不具有该性质,如下图所示。

那么我们需要证明的是为什么凸优化问题的局部最优值就是全局最优值?

证明:这里,我们采用反证法来证明该理论,假设x为凸优化问题的局部最优解,意味着函数在 ρ ρ范围内的点的值都小于 f(x) f(x)。如果我们假设定理是错误的,那么必然存在一点 z z,使得 f(z)<f(x) f(z),且 zx2>ρ ∥z−x∥2>ρ

此时,假设存在一点 y y,使得 y=tz+(1t)x y=tz+(1−t)x,其中 t[0,1] t∈[0,1],那么:

  • yD y∈D,因为 xD x∈D,同时 zD z∈D,二者线性组合也必然存在于D;

  • gi(y)=tgi(z)+(1t)gi(x)0 gi(y)=tgi(z)+(1−t)gi(x)≤0,因为 gi(z)gi(x)0 gi(z),gi(x)≤0

  • hi(j)=aTj(tz+(1t)x)+bj=aTj(tz+(1t)x)+tbj+(1t)bj=0 hi(j)=ajT(tz+(1−t)x)+bj=ajT(tz+(1−t)x)+tbj+(1−t)bj=0

因此,意味着 y y同样也是是凸优化问题的可行解。

然后,因为点 y y t[0,1] t∈[0,1]内均成立,所以我们可以假设 t t足够小,但大于0,使得 y y可以落在点 x x ρ ρ为半径的圆内,这时,对于凸优化问题中可行解的两个点 z,x z,x之间的点 y y,我们可以得到如下公式:

f(y)tf(z)+(1t)f(x) f(y)≤tf(z)+(1−t)f(x)

又因为 t0 t→0,且之前假设 f(z)<f(x) f(z),所以 tf(z)<tf(x) tf(z),因此 f(y)<f(x) f(y),这就与之前最开始假设x为局部最优解的定义相违背,因此,我们最终证明得到local minima are global minima

5. 凸优化问题的一些性质和Trick

  • First-order optimality condition:对于凸优化问题 minf(x),subjecttoxC minf(x),subjecttox∈C,如果函数 f f可微,那么当且仅当满足下式时,可行解(feasible point x x为最优解。
f(x)T(yx)0yC ∇f(x)T(y−x)≥0∀y∈C
  • Partial optimization:如果 x=(x1,x2)Rn1+n2 x=(x1,x2)∈Rn1+n2,那么优化问题

minx1,x2s.t.f(x1,x2)g1(x)0,g2(x2)0 minx1,x2f(x1,x2)s.t.g1(x)≤0,g2(x2)≤0

    等价于:

minx1s.t.f~(x1)g1(x1)0 minx1f~(x1)s.t.g1(x1)≤0

    其中 f~(x1)=min{f(x1,x2):g2(x2)0} f~(x1)=min{f(x1,x2):g2(x2)≤0}

    SVM采用的hinge loss就是利用的partial optimization的思想。如果我们把SVM优化问题的目标函数记为:

minβ,β0,ξsubjectto12β22+Cinξiξi0,yi(xTiβ+β0)1ξi minβ,β0,ξ12∥β∥22+C∑inξisubjecttoξi≥0,yi(xiTβ+β0)≥1−ξi

    那么我们可以将约束改写为 ξimax{0,1yi(xTiβ+β0)} ξi≥max{0,1−yi(xiTβ+β0)},SVM在优化过程中选用的hinge form就是将约束中的大于等于改写为等于,即:

ξi=max{0,1yi(xTiβ+β0)} ξi=max{0,1−yi(xiTβ+β0)}

    因此,优化目标函数就变为:

minβ,β012β22+Ci=1n[1yi(xTiβ+β0)]+ minβ,β012∥β∥22+C∑i=1n[1−yi(xiTβ+β0)]+

    上式就是SVM求解目标函数的最终形式,可称为hinge form of SVMs

  • Transformations of variables:如果函数 h h为单调递增函数,那么凸优化问题等价于:
minf(x),subjecttoxCminh(f(x)),subjecttoxC minf(x),subjecttox∈C⟺minh(f(x)),subjecttox∈C

    优化方法中的最大似然估计MLE就采用log函数对目标函数进行变换,就是采用的这个思想。

  • Introducing slack variables:凸优化可以通过引入松弛因子(slack variables)来消除约束(constraints)中的不等式,我们可以把凸优化问题转换为:

minsubjecttof(x)si0,i=1,,mgi(x)+si=0,i=1,,mAx=b minf(x)subjecttosi≥0,i=1,…,mgi(x)+si=0,i=1,…,mAx=b

    SVM算法都引入slack variables来允许训练误差的出现,防止模型过拟合。

5. 凸优化问题分类

凸优化问题根据目标函数和约束函数的形式分为:

  • linear programs:线性规划;
  • Quadratic programs:二次规划;
  • Semidefinite programs:半正定规划;
  • Cone programs:锥规划。

Ryan教授给了一个非常形象的例子来解释凸优化问题在优化问题领域的位置,以及以上几种优化问题间的关联关系,如下图:

线性规划问题(LPs)定义是优化问题满足以下形式,线性规划的实例包括diet problem, transportation problem, basis pursuit和Dantzig selector等:

minxsubjecttocTxDxdAx=b minxcTxsubjecttoDx≤dAx=b

二次规划问题(QPs)定义是优化问题满足以下形式,二次规划的实例包括portfolio optimization, lasso, SVM等:

minxsubjecttoCTx+12xTQxDxdAx=b minxCTx+12xTQxsubjecttoDx≤dAx=b

其中, Q0 Q⪰0是半正定。这里需要注意的是,当Q不是半正定的时候,上述问题则不属于凸优化问题。同样,当 Q=0 Q=0时,二次规划问题就变为线性规划问题。

半正定规划问题(SDPs)定义是优化问题满足以下形式:

minxsubjecttpcTxx1F1++xnFnF0Ax=b minxcTxsubjecttpx1F1+…+xnFn⪰F0Ax=b

其中, FjSd Fj∈Sd,同时, ARm×n A∈Rm×n。从上面的定义可以看出,和线性规划的定义基本一样,这里SDPs要求 Fj Fj为矩阵,而LPs为向量,所以线性规划一定隶属于半正定规划的一个特例。

你可能感兴趣的:(科学理论)