深度学习总结二:优化器

深度学习总结二:优化器

    • 梯度下降
    • momentum
    • Ada
    • RMSProp
    • Adam

对应代码

梯度下降

逻辑回归代码
附梯度下降w变化曲线用于对比
深度学习总结二:优化器_第1张图片

momentum

动量法,原理在于一个方向的速度可以积累,而且越积累越大;通过不同训练样本求得梯度时,在最优的方向的梯度,始终都会增大最优方向上的速度。因此,可以减少许多震荡。
对用代码:

self.w_update = self.gamma * self.w_update + (1 - self.gamma) * w_grad

深度学习总结二:优化器_第2张图片
对比梯度下降,在20处就已经处于稳定。

Ada

假设存在w1和w2,且两者更新速度不一致。如下图:
深度学习总结二:优化器_第3张图片
这样Ada就出现了。
它的原理:使得每一个参数更新都会有自己与众不同的学习率。
对应代码:

self.s += np.power(w_grad, 2)
w = w - self.learning_rate * (w_grad / np.sqrt(self.s))

深度学习总结二:优化器_第4张图片
Ada解决出现的拟合速度不一致问题。缺点:因为梯度要除以距离,长时间优化时距离越大,梯度就越来越小,效率低迷。

RMSProp

RMSProp原理:测试初期因为加了s_correct所以拟合速度会加快,用动量的流平均思想,到了一定时间,总的里程开始不变,解决Ada后期效率低迷问题。
对应代码:

self.s = self.beta * self.s + (1 - self.beta) * (w_grad**2)
s_correct = self.s/(1 - self.beta ** (i+1))
w = w - self.learning_rate * w_grad / np.sqrt(s_correct)

深度学习总结二:优化器_第5张图片

Adam

集合前面几个算法的优点
对应代码:

self.v = self.gamma * self.v + (1 - self.gamma) * w_grad
v_correct = self.v / (1 - self.gamma ** (i+1))
self.s = self.beta * self.s + (1 - self.beta) * (w_grad**2)
s_correct = self.s/(1 - self.beta ** (i+1))
w = w - self.learning_rate * (v_correct/np.sqrt(self.s))

深度学习总结二:优化器_第6张图片

你可能感兴趣的:(深度学习知识点总结)