《深度学习Ng》课程学习笔记02week2——优化算法

http://blog.csdn.net/u011239443/article/details/78066082

2.1 Mini-batch 梯度下降法

《深度学习Ng》课程学习笔记02week2——优化算法_第1张图片
《深度学习Ng》课程学习笔记02week2——优化算法_第2张图片

2.2 理解 mini-batch 梯度下降法

《深度学习Ng》课程学习笔记02week2——优化算法_第3张图片
《深度学习Ng》课程学习笔记02week2——优化算法_第4张图片
《深度学习Ng》课程学习笔记02week2——优化算法_第5张图片

2.3 指数加权平均

对温度做指数加权平均曲线:

《深度学习Ng》课程学习笔记02week2——优化算法_第6张图片

β = 0.98 时,会得到更加平缓的曲线,如图绿色。
β = 0.5 时,会得到更加波动的曲线,如图黄色。

《深度学习Ng》课程学习笔记02week2——优化算法_第7张图片

2.4 理解指数加权平均

《深度学习Ng》课程学习笔记02week2——优化算法_第8张图片
《深度学习Ng》课程学习笔记02week2——优化算法_第9张图片

2.5 指数加权平均的偏差修正

当在训练刚刚开始的时候,v会很小,为了修正这种偏差,我们可以使用以下方法:


《深度学习Ng》课程学习笔记02week2——优化算法_第10张图片

2.6 动量梯度下降法(momentun)

梯度下降中,随着迭代次数的增加,我们需要将变化的幅度越来越小。这就使用到了动量梯度下降法:


《深度学习Ng》课程学习笔记02week2——优化算法_第11张图片
《深度学习Ng》课程学习笔记02week2——优化算法_第12张图片

之所以叫动量梯度下降法,是因为从另外一个角度看,是在改变下降的速度:



v’ = 摩擦力影响比率*原来速度v + 加速

2.7 RMSprop

《深度学习Ng》课程学习笔记02week2——优化算法_第13张图片

2.8 Adam 优化算法

Adam 就是 momentun 和 RMSprop的结合:

《深度学习Ng》课程学习笔记02week2——优化算法_第14张图片

2.9 学习率衰减

减小幅度还可以用学习率衰减:


《深度学习Ng》课程学习笔记02week2——优化算法_第15张图片
《深度学习Ng》课程学习笔记02week2——优化算法_第16张图片

2.10 局部最优的问题

当特征维度非常大时,我们的最优化问题通常不是一个局部极小点或者局部极大点,而是鞍点。
当 Hessian 是正定的(所有特征值都是正的),则该临界点是局部极小点。当 Hessian 是负定的(所有特征值都是负的),这个点就是局部极大点。在多维情况下,实际上我们可以找到确定该点是否为鞍点的积极迹象(某些情况下)。如果 Hessian 的特征值中至少一个是正的且至少一个是负的,那么 x 是 f 某个横截面的局部极大点,却是另一个横截面的局部极小点。


《深度学习Ng》课程学习笔记02week2——优化算法_第17张图片

走去鞍点的平缓区的方法是使用如Adam、momentun 和 RMSprop算法。

《深度学习Ng》课程学习笔记02week2——优化算法_第18张图片

你可能感兴趣的:(《深度学习Ng》课程学习笔记02week2——优化算法)