神经网络优化器之随机梯度下降法的理解

随机梯度下降法(SGD)

随机梯度下降方法,在每次更新时用1个样本,随机也就是说我们用样本中的一个例子来近似我所有的样本,由于计算得到的并不是准确的一个梯度,因而不是全局最优的。但是相比于批量梯度,这样的方法更快,更快收敛,因此使用也比较广泛。

小批量随机梯度下降法

在随机梯度下降方法中,每次更新仅使用一个样本,就不太准确,而批量梯度下降,又是使用了全部样本,因此二者折中,在每次更新时用a个样本,用了一些小样本来近似全部的,而且批量的话还是非常可以反映样本的一个分布情况的。这种方法的使用是最为广泛的。

小批量随机梯度下降法其原理和数学中求一个函数的最小值原理类似,根据一个随机点x在其位置上函数f(x)对x的导数来判断x的左右是上升还是下降,这样就能知道函数f(x)的最小值在哪个方向。所以可以沿着那个方向继续去寻找,最终在导数为0的那个x点就是整个函数的最小点。深度学习中首先构造一个损失函数,此函数代表了深读学习模型产出与实际的偏差,这种偏差当然是越小越好。损失函数就是描述这种偏差的一个函数,这个函数如果能够找到一个最小值那是最理想状态。优化模型的方法有很多,随机梯度下降就是比较常用的一种,实现多为小批量随机梯度下降法。

随机梯度下降法的理解

对于随机梯度下降法的理解,可以这么认为,假设一个深读学习模型损失函数为f_loss(x),若想要损失最小,可以用刚才提到的高中数学中的求导思想,但是深读学习模型与高中数学中的求极值是有所不同的,数学函数f(x),求导是根据导数找到一个确定x值比如m,当x=m的时候f(x)最小,而深读学习模型的损失函数f_loss(x)中的x是无法确定的,x是输入,可以是任何值,而且模型的定义是由 weight和b等内部权重矩阵决定的,所以我们训练模型其实是要找到一个最优的定义模型的内部参数组合(不是超参数),虽然我们不是要找那个最优的输入矩阵x,但是我们仍然可以用导数求最小值得思想。根据一个传入的确定的x1,求出此处f_loss(x)对x1的梯度,根据梯度可以找到一个方向,减小梯度,使损失函数变小,由于x1已经确定,那么可以通过修改模型内部的权重(即梯度)来降低损失值。数学函数f(x)是根据导数,改变x降低梯度,来降低f(x)的值,而深读学习是通过修改权重来降低梯度,来降低f_loss(x)的值。由于一个x1并不能代表整个空间的向量,所以只稍微修改一下权重,来让x1的效果好一点,再有一个输入x2进入模型生成新的损失函数后,再稍微修改下权重,这样x2也能使结果变得好一点,理想情况下,当所有的训练数据都走过一轮后,此时的模型是已经对所有训练样本都有了更好的结果,至少整体上是有综合提升,但是由于学习率通常比较小,还没有达到最好效果,所以此时可以多训练几轮(epoch),直到准确率,或者损失达到一定值。当训练集在最终模型上达到较好的效果时,我们认为在整个样本空间表现也会比较好。

以上是我的个人理解,如有偏差请指正。

你可能感兴趣的:(深度学习,神经网络,深度学习,语言模型,人工智能,机器学习)