深度学习 -- gradient descent(梯度下降)

gradient descent(梯度下降) : 每次找当前点的切线方向,不断接近最低点

  • ▽表示求梯度(求导)

深度学习 -- gradient descent(梯度下降)_第1张图片

深度学习 -- gradient descent(梯度下降)_第2张图片
我们期望学习率开始时大,一定迭代次数后变小,因此可用下图中红点上的公式,使得学习率和迭代次数挂钩
深度学习 -- gradient descent(梯度下降)_第3张图片
深度学习 -- gradient descent(梯度下降)_第4张图片
深度学习 -- gradient descent(梯度下降)_第5张图片
深度学习 -- gradient descent(梯度下降)_第6张图片

不光要考虑一次微分的值,二次微分的值也应当考虑,因此最佳的是用一次微分除以二次微分的值(多个参数的二次微分值不同)
深度学习 -- gradient descent(梯度下降)_第7张图片
深度学习 -- gradient descent(梯度下降)_第8张图片
特征规模:当x大时,对应的w参数相对小,使得每个wx尽量为同一规模,这样loss表示成圆形,每次梯度无论从什么方向都可以快速到达最优解

深度学习 -- gradient descent(梯度下降)_第9张图片
方法:

深度学习 -- gradient descent(梯度下降)_第10张图片

数学(梯度下降):
深度学习 -- gradient descent(梯度下降)_第11张图片
基于泰勒公式
深度学习 -- gradient descent(梯度下降)_第12张图片

深度学习 -- gradient descent(梯度下降)_第13张图片
深度学习 -- gradient descent(梯度下降)_第14张图片
注:梯度下降最快的方向一般为导数的反方向

你可能感兴趣的:(深度学习,神经网络,机器学习)