优化算法-吴恩达DL学习摘要

  1. 指数加权平均:
    比计算过去N步平均值的好处:内存开销小,只需要存储上一时间节点数据即可,较为巧妙地将过去时间节点累积的数据与接下来的预测联系起来
  2. 动量梯度下降
    两个图
    优化算法-吴恩达DL学习摘要_第1张图片
    优化算法-吴恩达DL学习摘要_第2张图片
  3. RMSprop(root mean square prop)
    计算了指数加权的均方差,然后在梯度下降的基础上让学习率根据指数加权的均方差动态调整,看图
    原始梯度下降
    RMSprop
    第一个图是原始梯度下降,第二个图是RMSprop,相当于在第一个图基础上除以当前计算的均方差
    在这里插入图片描述

“显然,Momentum 和 RMSprop是存在区别的。前者是在梯度的更新方向上做优化,没有考虑数值大小;后者在数值大小上进行优化,在梯度值较大的方向进行适当的减小步伐,在梯度值较小的方向适当增大步伐,没有考虑方向。个人认为,两者在长期的优化效果上基本上是一致的,即减小了个别方向上的震动幅度,加快了收敛速度。”
摘自 https://blog.csdn.net/gaoxueyi551/article/details/105379447

动量梯度下降对动量项和梯度方向两个向量进行运算(乘以系数再相加),新向量改变了方向,相当于优化梯度更新方向,RMSprop相当于动态调整学习率。

学习参考 https://zhuanlan.zhihu.com/p/32230623

你可能感兴趣的:(NLP学习)