Adam优化算法原理详解(吴恩达深度学习笔记)

在介绍Adam之前首先介绍一下momentum和RMSprop优化算法。

一、momentum

1、指数加权平均数
指数加权平均数不仅考虑了当前数值也涵盖了以前的数据对现在的影响。
Adam优化算法原理详解(吴恩达深度学习笔记)_第1张图片
解释指数加权平均值名称的由来:
Adam优化算法原理详解(吴恩达深度学习笔记)_第2张图片Adam优化算法原理详解(吴恩达深度学习笔记)_第3张图片指数加权平均值的应用:
使用这种方法进行数据的估计可能不是最精确的,但是这种方法计算简单,节省内存。
指数加权平均数因为设置的第0个值为0,所以对于前几个数都会出现严重的偏差,所以引入了偏差修正。
2.指数加权平均数的偏差修正
Adam优化算法原理详解(吴恩达深度学习笔记)_第4张图片3.momentum算法
此算法是梯度下降算法的一种改进,在神经网络的反向传播过程中,不再只依赖当前参数的下降梯度进行参数的更新,也依赖以前几轮的参数和参数的下降梯度进行当前参数的更新,可以看吴恩达视频中的ppt。这种梯度下降算法的好处是由于参考了以前的参数,可以在达到目标函数的时候将下降速度变慢,更加容易找到最优值。具体实现过程见下图:
Adam优化算法原理详解(吴恩达深度学习笔记)_第5张图片

你可能感兴趣的:(Adam优化算法原理详解(吴恩达深度学习笔记))