机器学习与深度学习系列连载: 第二部分 深度学习(四)深度学习技巧1(Deep learning tips- RMSProp + Momentum=Adam)

深度学习技巧(Deep learning tips1)

深度学习中我们总结出5大技巧:
机器学习与深度学习系列连载: 第二部分 深度学习(四)深度学习技巧1(Deep learning tips- RMSProp + Momentum=Adam)_第1张图片

我们先从Adaptive Learning Rate 谈起,我Gradient Decent 中我们已经讨论了:
AdaGrad :
机器学习与深度学习系列连载: 第二部分 深度学习(四)深度学习技巧1(Deep learning tips- RMSProp + Momentum=Adam)_第2张图片

紧着AdaGrad的步伐,我们进一步看:

1.RMSProp

神经网络训练的时候,Error Surface 很有可能非常复杂
机器学习与深度学习系列连载: 第二部分 深度学习(四)深度学习技巧1(Deep learning tips- RMSProp + Momentum=Adam)_第3张图片
RMSProp其实和AdaGrad 是一样的思路,但是具体求分母的时候,它考虑了历史gradient和新的g的权重a 。
机器学习与深度学习系列连载: 第二部分 深度学习(四)深度学习技巧1(Deep learning tips- RMSProp + Momentum=Adam)_第4张图片

2. Momentum

如何找到最优的网络参数呢?
optimize loss 的时候,很有可能就会遇到如下三大问题:

  • 慢 very slow
  • 局部最优 local minimal
  • 鞍点 saddle point

我们可以考虑在物理世界的场景进行映射:小球从山上滑落,在局部最低的时候,他的动量让它冲出局部。
机器学习与深度学习系列连载: 第二部分 深度学习(四)深度学习技巧1(Deep learning tips- RMSProp + Momentum=Adam)_第5张图片

我们复习一下梯度下降:Gradient的方向和Movement 的方向相反
机器学习与深度学习系列连载: 第二部分 深度学习(四)深度学习技巧1(Deep learning tips- RMSProp + Momentum=Adam)_第6张图片

当我们考虑运动的动量后:
运动不在是基于梯度,而是基于以前的运动
Movement not just based on gradient, but previous movement.

机器学习与深度学习系列连载: 第二部分 深度学习(四)深度学习技巧1(Deep learning tips- RMSProp + Momentum=Adam)_第7张图片
其中 movement = laststep of movement - present gradient
机器学习与深度学习系列连载: 第二部分 深度学习(四)深度学习技巧1(Deep learning tips- RMSProp + Momentum=Adam)_第8张图片

Momentum 虽然不能保证走出“困境”,但是这是一个巨大的进步
机器学习与深度学习系列连载: 第二部分 深度学习(四)深度学习技巧1(Deep learning tips- RMSProp + Momentum=Adam)_第9张图片

3. Adam 算法

Adam 算法是结合 RMSProp 和 Momentum, 来寻找最优解。看起来比较复杂,
实际上懂 RMSProp 和 Momentum后,也就很快理解了。
机器学习与深度学习系列连载: 第二部分 深度学习(四)深度学习技巧1(Deep learning tips- RMSProp + Momentum=Adam)_第10张图片

本专栏图片、公式很多来自台湾大学李弘毅老师、斯坦福大学cs229,斯坦福大学cs231n 、斯坦福大学cs224n课程。在这里,感谢这些经典课程,向他们致敬!

你可能感兴趣的:(深度学习,神经网络,深度学习)