梯度下降之BGD、SGD和MBGD总结对比

批梯度下降(BGD, batch gradient descent),计算公式如下,每次梯度下降往样本总体损失函数减少的方向更新.

梯度下降之BGD、SGD和MBGD总结对比_第1张图片 

 优点:以梯度下降最快的方向收敛。

缺点:每次更新参数都要计算全部样本,计算量很大,尤其当样本数量很大的时候。

随机梯度下降(SGD, stochastic gradient descent),计算公式如下,按照每个样本损失函数下降最快的方向更新。

梯度下降之BGD、SGD和MBGD总结对比_第2张图片

优点:每次更新参数计算量小,加快迭代速度

缺点:并不是沿着J(θ)下降最快的方向收敛,而是震荡的方式趋向极小点

二者的收敛情况如下图

梯度下降之BGD、SGD和MBGD总结对比_第3张图片

小批量梯度下降(MBGD, Mini-batch gradient descent),计算公式如下,将样本分为若干个小的batch,按照每个batch损失函数下降最快的方向更新。如下图,每个batch有10个样本,每次更新参数就按照这10个样本的梯度下降方向更新。

梯度下降之BGD、SGD和MBGD总结对比_第4张图片

结合了BGD和SGD的优点,迭代速度比BGD快,且精度比SGD高。

 

你可能感兴趣的:(梯度下降之BGD、SGD和MBGD总结对比)