参数优化

**

优化器的使用:

**
在机器学习与深度学习中,主要应用于梯度下降。比如:传统的优化器主要结合数据集,通过变化单次循环所采用的数据量的大小来对梯度下降进行控制;非传统的优化器则进一步结合数据集的特点和模型的训练时间,以不同的形式变化梯度下降的学习率。
常见的优化器
SGD、BGD、MBGD、Momentum、NAG、Adagrad、RMSprop、Adam
梯度下降的原理:
θn+1=θn−η▽θJ(θ)
其中η为学习率;θn为更新前的参数;θn+1为更新后的参数;▽θJ(θ)是当前参数的导数。
1.SGD(Stochastic Gradient Descent )
SGD随机梯度下降参数更新原则:单条数据就可对参数进行一次更新。
优点:参数更新速度快。
缺点:由于每次参数更新时采用的数据量很小,造成梯度更新时震荡幅度大,但大多数情况都是向着梯度减小的方向。

2.BGD(Batch Gradient Descent )
BGD批量梯度下降参数更新原则:所有数据都参与参数的每一次更新。
优点:由于每次参数更新时采用的数据量很大,梯度更新时很平滑。
缺点:由于每次参数更新时采用的数据量很大,造成参数更新速度慢。

你可能感兴趣的:(计算机,机器学习)