深度学习笔记(05):梯度下降法

梯度下降的用途:用来更新训练集上的参数W和b。

损失函数可以衡量算法的效果,每一个训练样例都输出一个y_hat,把这个y_hat和真正的标签y进行比较。

成本函数衡量了参数W和b在训练集上的效果,要训练出适合的参数W和b,这些参数使成本函数的值尽可能的小。

深度学习笔记(05):梯度下降法_第1张图片

 

为了更好地找到更好的参数值,我们训练网络时,一般都是随机初始化参数W和b。

梯度下降的实现:W-成本函数对W的偏导数;b-成本函数对b的偏导数

深度学习笔记(05):梯度下降法_第2张图片

 

其中的alpha符号表示学习率。学习率可以控制每一次迭代或者梯度下降法中的步长。在图中表现的就是让成本函数的变化是有意义的。比如说当在A处,公式中的导数是负的,为了让A点逐渐往C点处靠,此时的学习率alpha应该设置为负数,这样求偏导后再乘alpha,梯度就下降了;当在B处时,公式中的导数是正的,为了让B点逐渐往C点处靠,此时的学习率alpha应该设置为正数。总之,alpha就是为了防止在A点求导之后梯度往A点的左边变化,防止在B点求导之后梯度往B的右边变化。

你可能感兴趣的:(深度学习)