凸优化笔记

基本概念

凸优化问题具有如下形式:

minf0(x)subjecttofi(x)bi,i=1,...,m
其中,函数 f0,...,fm:RnR 为凸函数,即对任意 x,yRn,α,βR α+β=1,α0,β0 这些函数满足
fi(αx+βy)αfi(x)+βfi(y)

凸优化的常见的特殊形式有:最小二乘问题和线性规划问题。

最小二乘问题是这样一类优化问题,它没有约束条件(即m=0),目标函数是若干项的平方和,每一项具有形式 xTiayi ,具体形式如下:

minf0(x)=||XaY||22=i=1i=K(xTiyi)2
其中, XRkn(kn),xTi 是矩阵 X 的行向量,向量 aRn 是优化变量。
在多输入多输出中, yi=a1ix1+a2ix2+...+anixn
yT=xTA
其中, yT=[y1,...,yp],xT=[x1,...,xp]T
A=a11...ap1............a1n...apn

设输入输出的第 i 次观测值为 xT(i),yT(i),i=1,...,k. 若记 Y=[y(1),...,y(k)]T,A=[a1,...,an]T
X=x1(1)...x1(k)............xp(1)...xp(k)

XA=Y
X 是k*p的矩阵,Y是k*p矩阵,当上述方程无解时,问题就转化为求矛盾方程组的最小二乘解,即求A使下列非负定矩阵达到最小 JA=(YXATYXA)=min

凸优化算法

无约束优化问题

优化的目的是求出使目标函数 F(x) 最小化的 x 的值,所有将要讨论的算法为迭代的。
首先,给定一个初始猜测值 X0 ,然后按照等式 Xk+1=Xk+αkPk 逐步修改猜测,根据搜索方向 Pk 的不同可以得到不同的算法,其中大于零的学习率 αk 也有不同的确定方法。

最速下降算法

Xk+1=Xkαkgk
这里, gk=F(x)|X=Xk

稳定学习速度( αk=α ,常数)

α<2λmax
这里 {λ1,λ2,...,λn} 为赫森矩阵 A 的特征值
沿直线 Xk+1=Xk+αkPk 的最小化的学习速度
αk=gTkPkPTkAPk()

牛顿法

Xk+1=XkA1kgk
其中,
Ak=2F(X)|X=Xk

共轭梯度算法

Xk=αkPk
沿直线 Xk+1=Xk+αkPk 的最小化确定学习速度 αk ,
P0=g0Pk=gk+βkPk1βk=δgTk1gkδgTk1Pk1

等式约束优化

不等式约束优化

不等式优化的问题形式

minw f(w)s.t.gi(w)0,i=1,...,khi(w)=0,i=1,...,l

1.引入拉格朗日函数
L(w.α,β)=f(w)+αigi(w)+βihi(w)
上式与原优化问题不等价,下面步骤2解决这个问题。
2.构造与原问题等价的极小极大拉格朗日函数
θp(w)=maxα,β:α0 L(w,α,β)=f(w),,if w satisfies primal constraintsotherwise.

这样原问题中的 min f(w) 可以转化为求
minw θp(w)=minw maxα,β:αi0 L(w,α,β)
如果直接求解上述问题,则先是求 max 需要考虑两个参数 α,β αi0 为不等式条件,不易求解,则引进上式的对偶式。
3.拉格朗日对偶式
minw maxα,β:αi0 L(w,α,β)=maxα,β:αi0 minw L(w,α,β)
将原问题转换为其对偶问题,只是交换了 min max 的顺序,而一般交换顺序后的结果为 max min(x)min max(x) .而此处两者是相等的,因为 w,α,β 满足KKT条件,下面具体说明。
假设函数 f(w) gi(w) 是凸函数, hi(w) 是放射函数,并且不等式约束 gi(w) 是严格可行的,则 w,α,β 是原始问题和对偶问题的解的充分必要条件是, w,α,β 满足KKT条件:
wL(w,α,β)=0αL(w,α,β)=0βL(w,α,β)=0αigi(w)=0,i=1,2,...,kgi(w)0,i=1,2,...,kαi0,i=1,2,...,khj(w)=0,j=1,2,...,l
其中, αigi(w)=0,i=1,2,...,k 为对偶互补条件,若 αi>0 ,则 gi(w)=0 .

参考文献

1.李航,统计学习方法
2.http://www.cnblogs.com/liqizhou/archive/2012/05/11/2495689.html
3.

你可能感兴趣的:(牛顿法,KKT,最小二乘,凸优化)