1.寻找最小Loss—梯度下降(Gradient Descent)算法原理

1.寻找最小Loss—梯度下降(Gradient Descent)算法原理_第1张图片

Gradient Descent 梯度下降

1.寻找最小Loss—梯度下降(Gradient Descent)算法原理_第2张图片

随机选取初始点w0,计算该点处的微分(切线斜率),如果切线斜率为负值,说明该点处loss高于最小loss值,那么就要取一个比w0大的w值;如果切线斜率为正值,也说明该点处loss高于最小loss值
,那么就要取一个比w0小的w值。
1.寻找最小Loss—梯度下降(Gradient Descent)算法原理_第3张图片
而w0增加多少是取决于-(learning rate * 该点处的微分值),(因为该点处的微分值与w0的增加减少是相反的,所以要乘以一个负号)
w0更新后为w1,然后继续重复w0处的操作…
当w的值为wt时,微分值为0,w停在了局部最优(local optimal)wt的位置,这样一来,不同的w0值可能就会找到不同的最小loss值。
但这种情况在线性回归(linear regression)上不会出现。

1.寻找最小Loss—梯度下降(Gradient Descent)算法原理_第4张图片
若loss function有两个参数,随机选取w0、b0,接下来分别计算关于w0、b0的偏微分,再根据学习率和偏微分来求出w1、b1,继续重复以上操作…
1.寻找最小Loss—梯度下降(Gradient Descent)算法原理_第5张图片
在w0,b0处求得(-学习率*dL/db0,-学习率*dL/dw0),该值即为法线方向,根据该值找到下一个点,以此类推…
1.寻找最小Loss—梯度下降(Gradient Descent)算法原理_第6张图片
当出现上图中左图情况时,loss function的最低值与起始值wo、b0有关,就导致了不同的w0、b0值得到的最小loss值不同,即会出现local optimal局部最优。
但这种情况不会在线性回归中出现,因为线性回归如上图中右图所示是凸函数,不管w0、b0值在何处,最终都会找到一个最小loss。
1.寻找最小Loss—梯度下降(Gradient Descent)算法原理_第7张图片

你可能感兴趣的:(深度学习)