梯度下降(Gradient Descent)

梯度下降算法可以将代价函数J最小化。

梯度下降(Gradient Descent)_第1张图片

为了说明问题,只使用θ0,θ1


梯度下降(Gradient Descent)_第2张图片
梯度下降(Gradient Descent)_第3张图片

如图所示,梯度下降会因为初始化的不同而获得不同的局部最优解。


梯度下降(Gradient Descent)_第4张图片

α被称为学习速率,它在梯度下降算法中代表了我们下山时迈多大的步子。

正确的做法是同步更新θ0和θ1。不正确是因为先计算了θ0而θ0更新会影响到θ1的计算。


梯度下降(Gradient Descent)_第5张图片

微分项求导或偏导,其实相当于给θ一个增加或者减少的方向;而α决定了增加和减少的值,即步长大小。


梯度下降(Gradient Descent)_第6张图片

α的大小不同,代表下降步子的大小不同,太大和太小都不好。


如果初始化已经在局部最优点,那么θ不再变化,因为微分项已经为0。

当我们接近局部最低点时,微分项会变小,所以梯度下降会自动的采用较小的幅度。

梯度下降算法,可以用来最小化任何代价函数。

你可能感兴趣的:(梯度下降(Gradient Descent))