深度学习中的RMSprop算法原理

    在 https://blog.csdn.net/gaoxueyi551/article/details/105238182 一文中,说明了基于Momentum的算法,本文介绍的RMSprop算法的引入背景和Momentum算法相同,底层理论依然是指数加权平均。

    但是,两者优化思路存在些微差别。为了和Momentum算法中的符号相区别,引入 \large s_w 和 \large s_b

                                                                   \large s_w = \beta s_w + (1-\beta )dw^2

                                                                    \large s_b = \beta s_b + (1-\beta )db^2

    其中,\large dw^2 和  \large db^2 表示对向量的各个分量计算平方。基于上述定义,梯度更新规则变为

                                                                         \large w=w^{'}-\eta \frac{d_w}{\sqrt{s_w}}

                                                                          \large b=b^{'}-\eta \frac{d_b}{\sqrt{s_b}}

    显然,Momentum 和 RMSprop是存在区别的。前者是在梯度的更新方向上做优化,没有考虑数值大小;后者在数值大小上进行优化,在梯度值较大的方向进行适当的减小步伐,在梯度值较小的方向适当增大步伐,没有考虑方向。个人认为,两者在长期的优化效果上基本上是一致的,即减小了个别方向上的震动幅度,加快了收敛速度。

你可能感兴趣的:(神经网络,概率与统计)