【2019-01-05】梯度下降、随机梯度下降、批处理

训练数据集

设需要拟合的函数:

====找出,令h逼近y。

梯度下降原理:

定义损失函数:

n训练样本个数

偏导:

最小化损失函数,负梯度方向更新

批量梯度下降法(Batch gradient descent):每次迭代使用所有的样本,全局优化。

随机梯度下降法(Stochastic gradient descent):每次迭代使用一组样本,从样本中随机抽出一组,训练后按梯度更新一次,然后再抽取一组,再更新一次,在样本量及其大的情况下,可能不用训练完所有的样本就可以获得一个损失值在可接受范围之内的模型了。

小批量梯度下降(Mini-batch gradient descent):每次迭代使用b组样本,每次从样本中随机抽取一小批进行训练,而不是一组。


【2019-01-05】梯度下降、随机梯度下降、批处理_第1张图片
原博地址:https://www.cnblogs.com/pinard/p/5970503.html


【2019-01-05】梯度下降、随机梯度下降、批处理_第2张图片
原博地址:https://www.cnblogs.com/pinard/p/5970503.html


【2019-01-05】梯度下降、随机梯度下降、批处理_第3张图片
原博地址:https://www.cnblogs.com/pinard/p/5970503.html

你可能感兴趣的:(【2019-01-05】梯度下降、随机梯度下降、批处理)