无约束优化理论基础
在无约束优化问题中,我们通过寻找实数变量来使得目标函数变为最小。在尤其是在机器学习领域,有大量问题需要无约束优化理论进行分析,比如线性回归、Logistic Regression等。通常无约束问题典型算法有Gradient descent(梯度下降)、Stochastic GD(随机梯度下降)、TR(迁移学习)到CG(Conjugate gradient)、Newton、(L-)BFGS等。
无约束优化问题的数学表达为:
and for is a real vector with n>1 components and is a smooth function.
Global solution & Local solution
全局优化:
A point is a global minimizer if for all
局部优化(弱局部优化):
A point is a local minimizer(AKA weak local minimizer) if there is a neighborhood of such that for all
局部优化(强局部优化):
A point is a strict local minimizer (AKA strong local minimizer) if there is a neighborhood of that the is the only local minimizer in .
Recognizing a local minimum
When the function is smooth, if the function is twice differentiable, by examing the gradient and the Hessian matrix can tell if a local minimizer(Even a Strict local minimizer).
1. Taylor's Theorem: 泰勒公式是一个用函数在某点的信息描述其附近取值的公式。如果函数满足一定的条件,泰勒公式可以用函数在某一点的各阶导数值做系数构建一个多项式来近似表达这个函数
若函数 在包含 的开区间 上具有阶导数, 那么对于任一 :
对于优化问题:
is continuously differentiable and that , for
twice differentiable, for
2. First-order Necessary Conditions 局部最小的一阶必要条件
If is a local minimizer and is continuously differentiable in an open neighborhood of ,then .
如果 为局部最优解并且函数 一阶可导,则在 的邻域内 .
3. Second-order Necessary Conditions 局部最小的二阶必要条件
If is a local minimizer of and exists and is continuous in an open neighborhood of , then and is positive definite.
如果 为局部最优解并且一阶和二阶可导,则并且 正定.
4. Second-order Necessary Conditions 局部最小的二阶充分条件
Suppose thatis continuous in an open neighborhood of and that and is positive definite. Then is a strict local minimizer of .
如果函数在 处满足并且正定,则 为局部最优解.
5.凸函数最优解
When is convex, any local minimizer is a global minimizer of . If in addition is differentiable, then any stationary point is a global minimizer of .
如果函数为凸函数,则的任何局部最优解都为全局最优解。
Nonsmooth Problems
如果函数为连续但在某点不可微分,我们可以使用 次梯度(Subgradient) 或者 广义梯度(Generalized gradient).
Overview of Algorithms 算法概览
1. 从起始点开始, 进行,,...至 的迭代操作,对于此种近进,通常有两种基本方法。
2.线搜索(Line search)和置信域(Trust region)
线搜索:算法在点时沿寻一个方向寻找步长以使得
通常线搜索会创造一小批量的步长进行尝试直至找到最佳情况,到下一个点时,搜索方向和步长会被更新,这个过程是重复性的。
置信域:算法构建一个作为的近似, 通过解决优化问题
是一个candidate step 以保证较好的近似, 需要在一个信赖区域内。如果candidate solution 并不能给予较好的下降,则我们需要缩减置信区域。通常情况下,置信区域是由定义的一个球体,标量 被称为置信域半径。在某些情况下置信域也可使用椭圆或者盒型体。
对于的数学定义为一个近似泰勒二次方程:
其中为scalar,为vector,为matrix, 通常 为Hessian matrix , 或者其他近似矩阵。
3. 优化过程中,LS从一个固定的方向开始,然后确认合适步长. TR先选择一个置信域半径的最大值, 然后在此约束内找寻最佳方向和步长。 如果结果不理想,则进一步减少的值。
Search Directions for Line search methods 线搜索的搜索方向讨论
1.最速下降方向(Steepest descent direction) 是最广泛的应用之一。 通过泰勒公式进行定义,即
沿寻方向,的变化情况即是项的系数, 所以需要寻找
最速下降法在对于复杂问题较为缓慢。
2. 通用搜索方向(General descent)
从上述公式中可以看出,只要满足 都可作为搜索方向, 但是下降速度会较慢。
3.牛顿方向(Newton direction), 从泰勒公式二次项 (Second-order series)推导出来。
需要为正定(Positive definite), 通过解决 来寻找牛顿方向,deriviate to zero.
当非正定矩阵时,可能不存在,不能满足下降条件。
4.拟牛顿方向(Quasi-Newton direction) (AKA 伪牛顿/准牛顿方向), 由于Hessian的计算复杂性,通过使用近似取代Hessian matrix 大致推导过程为:根据泰勒公式
此时,令 ,为Hessian Approximation.
(AKA Secant equation 正割公式)
通常要求 有一些附加条件,如 对称,低秩(Low rank) etc.
5.两个拟牛顿方向近似算法: Symmetric-rank-one(SR1) & BFGS
Symmetric-rank-one(SR1) :
BFGS:
6. 非线性共轭梯度法(Nonlinear conjugate gradient methods)
Models for trust-region methods 信頼域模型讨论
对于, 令, 且定义置信域在欧式范数中(欧几里得空间距离), 则问题可变为
这是一个由置信域半径定义的简单最速下降步长,在此情况下LS 和TR 的求解过程相同。
如果 在 中被定义为拟牛顿近似, 则是一个 置信域拟牛顿法。
Scaling讨论
Poorly scaled:函数在某个方向的变动远大于其他方向。
办法:更改变量的度量或者重新定义
最速下降法对于Poorly scaled 较为敏感,而例如牛顿法则几乎不受影响,通过引入尺度不变性(Scale inveriance)来设计算法。