机器学习中随机梯度下降算法总结分析

我们为什么要使用梯度下降算法
人类都是渐进学习的,不断从错误中纠正自己的认知,这恰巧就是梯度下降算法的思想。
梯度下降算法
机器学习中随机梯度下降算法总结分析_第1张图片
随机选择一个方向,然后每次迈步都选择最陡的方向,直到这个方向上能达到的最低点。
梯度下降算法的作用都有哪些?
在机器学习中有些算法需要对模型构建损失函数以求得需要的系数,然而在损失函数的计算中,我们可能不能获得最佳方案,而梯度下降算法正是一种对损失函数的优化算法,以便损失函数取得最佳的参数,使损失函数的值最小。而在求解机器学习参数的优化算法中,使用较多的就是基于梯度下降的优化算法(Gradient Descent, GD)。
优点:效率。在梯度下降法的求解过程中,只需求解损失函数的一阶导数,计算的代价比较小,可以在很多大规模数据集上应用
缺点:求解的是局部最优值,即由于方向选择的问题,得到的结果不一定是全局最优步长选择过小使得函数收敛速度慢,过大又容易找不到最优解。
梯度下降算法的实现
1.初始化参数为任意值(可以取到面上任意一点)
2.求解梯度值
在这里插入图片描述
ti梯度的求解方法:求特征向量的偏导数,得到法向量,梯度向量与法向量相互垂直,从而求得梯度的值
3.更新参数
在这里插入图片描述
4.若达到指定迭代次数或者收敛条件,则训练结束
机器学习中随机梯度下降算法总结分析_第2张图片
下面列举一个三维空间求梯度:
梯度下降法为沿着梯度下降的方向求解极小值,而梯度上升法则为以梯度上升的方向求极大值,而机器学习中随机梯度下降算法总结分析_第3张图片

随机梯度下降
随机梯度下降法不是对每个样本集进行求梯度更新参数,而是对一个或者多个样本进行求梯度,更新参数。采集多个样本为样本集再进行如下操作

  1.初始化参数为任意值(可以取到面上任意一点)
  2.对样本集里每个样本进行遍历如下操作
      1.求解梯度值

      2.更新参数
   
  3.若达到指定迭代次数或者收敛条件,则训练结束

梯度下降法分为批量梯度下降法BGD(Batch Gradient Descent)、小批量梯度下降法MBGD(mini-batch Gradient Descent)、随机梯度下降法SGD(stochastic gradient descent)
而SGD可以看成MBGD的一个一个特例,及batch_size=1的情况。在深度学习及机器学习中,基本上都是使用的MBGD算法。

你可能感兴趣的:(机器学习)