基本概念
凸优化问题具有如下形式:
minf0(x)subjecttofi(x)≤bi,i=1,...,m
其中,函数
f0,...,fm:Rn→R 为凸函数,即对任意
x,y∈Rn,α,β∈R 且
α+β=1,α≥0,β≥0 这些函数满足
fi(αx+βy)≤αfi(x)+βfi(y)
凸优化的常见的特殊形式有:最小二乘问题和线性规划问题。
最小二乘问题是这样一类优化问题,它没有约束条件(即m=0),目标函数是若干项的平方和,每一项具有形式 xTia−yi ,具体形式如下:
minf0(x)=||Xa−Y||22=∑i=1i=K(xTi−yi)2
其中,
X∈Rk∗n(k≥n),xTi 是矩阵
X 的行向量,向量
a∈Rn 是优化变量。
在多输入多输出中,
yi=a1ix1+a2ix2+...+anixn 或
yT=xTA
其中,
yT=[y1,...,yp],xT=[x1,...,xp]T
A=⎡⎣⎢a11...ap1............a1n...apn⎤⎦⎥
设输入输出的第
i 次观测值为
xT(i),yT(i),i=1,...,k. 若记
Y=[y(1),...,y(k)]T,A=[a1,...,an]T
X=⎡⎣⎢x1(1)...x1(k)............xp(1)...xp(k)⎤⎦⎥
XA=Y
X 是k*p的矩阵,Y是k*p矩阵,当上述方程无解时,问题就转化为求矛盾方程组的最小二乘解,即求A使下列非负定矩阵达到最小
J(A)=(Y−XA)T(Y−XA)=min
凸优化算法
无约束优化问题
优化的目的是求出使目标函数 F(x) 最小化的 x 的值,所有将要讨论的算法为迭代的。
首先,给定一个初始猜测值 X0 ,然后按照等式 Xk+1=Xk+αkPk 逐步修改猜测,根据搜索方向 Pk 的不同可以得到不同的算法,其中大于零的学习率 αk 也有不同的确定方法。
最速下降算法
Xk+1=Xk−αkgk
这里,
gk=∇F(x)|X=Xk
稳定学习速度( αk=α ,常数)
α<2λmax
这里
{λ1,λ2,...,λn} 为赫森矩阵
A 的特征值
沿直线 Xk+1=Xk+αkPk 的最小化的学习速度
αk=−gTkPkPTkAPk(用于二次函数)
牛顿法
Xk+1=Xk−A−1kgk
其中,
Ak=∇2F(X)|X=Xk
共轭梯度算法
∇Xk=αkPk
沿直线
Xk+1=Xk+αkPk 的最小化确定学习速度
αk ,
P0=−g0Pk=−gk+βkPk−1βk=δgTk−1gkδgTk−1Pk−1
等式约束优化
不等式约束优化
不等式优化的问题形式
minw f(w)s.t.gi(w)≤0,i=1,...,khi(w)=0,i=1,...,l
1.引入拉格朗日函数
L(w.α,β)=f(w)+∑αigi(w)+∑βihi(w)
上式与原优化问题不等价,下面步骤2解决这个问题。
2.构造与原问题等价的极小极大拉格朗日函数
θp(w)=maxα,β:α≥0 L(w,α,β)=⎧⎩⎨f(w),∞,if w satisfies primal constraintsotherwise.
这样原问题中的
min f(w) 可以转化为求
minw θp(w)=minw maxα,β:αi≥0 L(w,α,β)
如果直接求解上述问题,则先是求
max 需要考虑两个参数
α,β 且
αi≥0 为不等式条件,不易求解,则引进上式的对偶式。
3.拉格朗日对偶式
minw maxα,β:αi≥0 L(w,α,β)=maxα,β:αi≥0 minw L(w,α,β)
将原问题转换为其对偶问题,只是交换了
min 和
max 的顺序,而一般交换顺序后的结果为
max min(x)≤min max(x) .而此处两者是相等的,因为
w∗,α∗,β∗ 满足KKT条件,下面具体说明。
假设函数
f(w) 和
gi(w) 是凸函数,
hi(w) 是放射函数,并且不等式约束
gi(w) 是严格可行的,则
w∗,α∗,β∗ 是原始问题和对偶问题的解的充分必要条件是,
w∗,α∗,β∗ 满足KKT条件:
∂wL(w∗,α∗,β∗)=0∂αL(w∗,α∗,β∗)=0∂βL(w∗,α∗,β∗)=0α∗igi(w∗)=0,i=1,2,...,kgi(w∗)≤0,i=1,2,...,kαi≥0,i=1,2,...,khj(w∗)=0,j=1,2,...,l
其中,
α∗igi(w∗)=0,i=1,2,...,k 为对偶互补条件,若
α∗i>0 ,则
gi(w∗)=0 .
参考文献
1.李航,统计学习方法
2.http://www.cnblogs.com/liqizhou/archive/2012/05/11/2495689.html
3.