在求解最优化问题中,线搜索是一类非常重要的迭代算法。线搜索的迭代过程是 xk+1=xk+αkpk 。其中 αk 和 pk 分别表示搜索步长和搜索方向,因此线搜索需要解决如何求解步长和确定搜索方向,该小结主要介绍
1. 步长 αk 的选择
2. 步长的实现算法
2. 线搜索的收敛性
3. 牛顿方法的优化
根据迭代算法 xk+1=xk+αkpk ,根据之前的介绍搜索方向 pk 需要满足,它是一个下降方向,即满足 ∇fkpk≤0 ,则 pk=−B−1k∇fk ,B为对称非奇异矩阵,根据 Bk 的选择会产生以下几个方向:
1. Bk=I 时,搜索方向为负梯度方向,该方法为最速下降方向。
2. Bk=∇2fk 时,该方法为牛顿方法。
3. Bk 需要满足对称正定矩阵,该方法为拟牛顿方法。
当搜索方向确定后,下一步就要确定步长。
求解步长需要解决的一个最优化问题是,在确定了下降方向 pk 后,求解一个一元最优化问题
对于一个一元二次问题,最优解形式为 ∇Tf(xk+αpk)pk=0 ,即 ∇Tfk+1pk=0
性质:对于最速下降法,当选择最优步长时,每一步的搜索方向和上一步是正交的,即 pTk+1pk=0
证明:由于当选择为最优步长时满足 ∇Tfk+1pk=0 。因此性质成立, pk+1=−∇fTk+1
非精确算法的思路就是寻找步长 α 的一个区间,通过逐步二分的方法去寻找满足条件的点。当搜索结束时,需要满足该步长能够对目标函数带来充分的减少。为提高非精确算法的搜索效率, α 需要满足一定的条件。
Armijo是一个相对比较简单的条件,即目标函数需要充分小。
Curvature条件是指:
把上面两个条件组合后就是Wolfe条件,即需要满足
定理:假设目标函数f是一个连续可导的,并且搜索方向 pk 为下降方向,同时函数f是有界的,在射线 xk+αpk 之下,则如果 0<c1<c2<1 ,存在步长 α 满足Wolfe条件和强Wolfe条件。
证明:由于f在被限定在射线 xk+αpk 之下,则函数 ϕ(α)=f(xk+αpk) 和函数 l(α)=fk+αc1∇fTkpk 存在交点。
1. 记最小的交点为 α′ ,则小于 α′ 的区间都满足Wolfe的第一个条件。交点满足
该条件类似于Wolfe条件,但是需要步长减少的不能太少。该条件为
根据上面的介绍,我们可以知道求解步长,需要解决的问题是
使用插值法的目标是寻找一个步长的递减序列,直到找到一个满足约束的步长。
根据Armijo条件,步长的选择应该满足使得目标函数充分减小,该条件为
如果上述\alpha_1满足约束条件则结束,否则需要进行三次插值,即寻找插值函数 ϕc(α) 满足一下值相等, ϕ(0),ϕ′(0),ϕ(α0),ϕ(α1) 。假设求得 ϕc(α) 为
对于牛顿或者拟牛顿法,初始化步长可以选择为1,对于其他非scaled的方法,初始化比较重要。
1. 方法一假设在 xk和xk−1 处一阶梯度改变相同,即满足 α0∇fTkpk=αk−1∇fTk−1pk−1
2. 在 f(xk−1),f(xk),∇fTk−1pk−1 处进行二次插值,此时 α0=2(fk−fk−1)ϕ′(0)
寻找满足强Wolfe条件的步长,该条件为
在调用zoom算法前,寻找一个步长的下界使得在该区间内包含最优解 α∗ ,算法描述如下
算法主要包含以下4步
1. 评价当前步长,判断是否满足充分小条件,如果不满足说明最优解在 (αi−1,αi) 之间。
2. 否则满足强Wolfe的条件1,验证条件2是否满足,如果满足则结束。
3. 如果不满足条件2,并且当前梯度为正值时,交互上一个步长调用zoom算法结束(为什么调换,看zoom算法介绍)
4. 求解下一个步长点,可以采用插值法。
下图描述了需要调用zoom算法的两类条件,分别对应1和3:
zoom算法的输入比较特殊,输入需要满足 (αl,αh)
1. 该区间内包含满足强Wolfe条件的步长
2. 步长 αl 是两个值中目标函数值较小的一个
3. 选择 αh 如果该点满足 ϕ′(αl)(αh−αl)<0,表明该区间是一个连续下降的区间
zoom算法描述如下
算法流程为
1. 检查是否满足Wolfe的条件一,如果不满足缩减区间。
2. 检查是否满足条件2 ,如果满足则返回
3. 检查是否是递增区间,如果是进行调整,使其满足zoom输入条件。
当搜索方向为最优下降方向是,为线性收敛速度。
当搜索方向为牛顿方向,即 pNk=−∇2f−1k∇fk ,如果 ∇2fk 正定,则牛顿法为二次收敛。(但是牛顿方向不总是为正定,因此Hessian在使用时需要进一步调整)
当搜索方向为伪牛顿方向时,收敛速度为超线性。
牛顿方法中,Hessian矩阵不总是正定的,会导致搜索方向不总是下降方向,从而导致牛顿方法不总能找到最优解。
但是可以找到一些替代方法,例如
通过该章的学习,能够了解
1. 线搜索的基本形式以及需要解决的问题
2. 常见步长 α 需要满足的条件以及实现算法
3. 线搜索的收敛速度
4. 牛顿方法的优化