统计学习方法-牛顿法和拟牛顿法

牛顿法和拟牛顿法

  牛顿法和拟牛顿法是求解无约束最优化问题的常用方法,有收敛速度快的优点。牛顿法是迭代算法,每一步需要求解目标函数的海赛矩阵的逆矩阵,计算比较复杂。拟牛顿法通过正定矩阵近似海赛矩阵的逆矩阵或海赛矩阵,简化了计算过程。

一、背景

Taylor展式

f(x)二阶导连续,将f(x)xkTaylor展开:

上述迭代公式,即牛顿法。该方法可以直接推广到多维:用方向导数代替一阶导,用Hessian矩阵代替二阶导。

二、牛顿法的特点

1. 牛顿法具有二阶收敛性,在某些目标函数(如线性回归、Logistic回归等)的问题中,它的收敛速度比梯度下降要快。

2. 经典牛顿法虽然具有二次收敛性,但是要求初始点需要尽量靠近极小点,否则有可能不收敛。

(1)如果Hessian矩阵奇异,牛顿方向可能根本不存在。

(2)Hessian矩阵不是正定,则牛顿方向有可能是反方向。

3. 计算过程中需要计算目标函数的二阶偏导数的逆,时间复杂度较大。

三、拟牛顿的思路

Hessian矩阵的逆影响算法效率,同时,搜索方向并非严格需要负梯度方向或牛顿方向;因此,可以用近似矩阵代替Hessian矩阵,只要满足该矩阵正定、容易求逆,或者可以通过若干步递推公式计算得到。由此产生以下两种优秀的算法:

(1)DFPDavidonFletcherPowell

(2)BFGSBroydenFletcherGoldfarb - Shanno

 

下面详细推导两个算法,首先它们有一个共同的地方,那就是都得有一个二阶近似地过程:



你可能感兴趣的:(机器学习算法)