梯度下降方法

本文介绍了梯度下降法的推导过程,全梯度下降算法,随机梯度下降算法,随机平均梯度下降算法,小批量梯度下降算法。

关键字 梯度下降推导 全梯度下降算法 随机梯度下降 随机平均下降算法 小批量梯度下降算法

1.梯度下降算法基础介绍

1.1 相关概念
1.2 梯度下降法的推导

2.常见梯度下降法

2.1 全梯度下降算法(Full gradient descent),
2.2 随机梯度下降算法(Stochastic gradient descent),
2.3 小批量梯度下降算法(Mini-batch gradient descent),
2.4 随机平均梯度下降算法(Stochastic average gradient descent)

3.梯度回归算法比较与优化

3.1梯度回归算法比较
3.2梯度回归算法

1.梯度下降算法基础介绍

1.1 相关概念
1.2 梯度下降法的推导

1.1相关概念

步长(Learning rate):

步长决定了在梯度下降迭代的过程中,每一步沿梯度负方向前进的长度。用下山举例,步长就是在当前这一步所在位置沿着最陡峭最易下山的位置走的那一步的长度。

特征(feature):

指的是样本中输入部分,比如2个单特征的样本,则第一个样本特征为,第一个样本输出为

假设函数(hypothesis function):

在监督学习中,为了拟合输入样本,而使用的假设函数,记为.比如对于单个特征的m个样本,可以采用拟合函数为:

损失函数(loss function):

  • 为了评估模型拟合的好坏,通常用损失函数来度量拟合的程度。损失函数极小化,意味着拟合程度最好,对应的模型参数即为最优参数。
  • 在线性回归中,损失函数通常为样本输出和假设函数的差取平方。比如对于m个样本,采用线性回归,损失函数为:

      其中表示第i个样本特征,表示第i个样本对应的输出,为假设函数

1.2 梯度下降法的推导

(1)先决条件:确定假设函数和损失函数

比如对于线性回归,

  • 假设函数表示为
      其中为模型参数,为每个样本的n个特征值。
      当增加一个特征这个假设函数可以简化为:
  • 对应上面的假设函数,损失函数为:

(2)算法相关参数初始化

主要是初始化,算法终止距离以及步长。在没有任何先验知识的时候,可以将所有的初始化为0,将步长初始化为1,调优时再优化。

(3)算法过程

  • 1.确定当前位置的损失函数的梯度,对于,其梯度表达式:(对损失函数求导)
  • 2.用步长乘以损失函数的梯度,得到当前位置下降的距离,即
  • 3.确定是否所有的,梯度下降的距离都小于,如果小于则算法终止,当前所有的即为最终结果,否则进入第4步。
  • 4.更新所有的,对于,其更新表达式如下,更新完毕后继续转入步骤1

2.梯度下降法

2.1 全梯度下降算法(Full gradient descent),
2.2 随机梯度下降算法(Stochastic gradient descent),
2.3 小批量梯度下降算法(Mini-batch gradient descent),
2.4 随机平均梯度下降算法(Stochastic average gradient descent)

2.1全梯度下降算法(FG)

批量梯度下降法,是梯度下降法最常用的形式,具体做法也就是在更新参数时使用所有的样本来进行更新。

权重向量沿其梯度相反的方向移动,从而使当前目标函数减少得最多。其是在整个训练数据集上计算损失函数关于参数的梯度:

由于我们有m个样本,这里求梯度的时候就用了所有m个样本的梯度数据。
注意:

  • 因为在执行每次更新时,我们需要在整个数据集上计算所有的梯度,所以批梯度下降法的速度会很慢,同时,批梯度下降法无法处理超出内存容量限制的数据集。
  • 批梯度下降法同样也不能在线更新模型,即在运行的过程中,不能增加新的样本

2.2随机梯度下降算法(SG)

由于FG每迭代更新一次权重都需要计算所有样本误差,而实际问题中经常有上亿的训练样本,故效率偏低,且容易陷入局部最优解,因此提出了随机梯度下降算法。

其每轮计算的目标函数不再是全体样本误差,而仅是单个样本误差,即每次只代入计算一个样本目标函数的梯度来更新权重,再取下一个样本重复此过程,直到损失函数值停止下降或损失函数值小于某个可以容忍的阈值。

此过程简单,高效,通常可以较好地避免更新迭代收敛到局部最优解。其迭代形式为

但是由于,SG每次只使用一个样本迭代,若遇上噪声则容易陷入局部最优解。

噪声:在实际情形中,训练数据的误标签的情况,输入数据某一维不准确的情况,都可能导致数据信息不精准,产生噪声数据。噪声即数据集中含有的不纯的数据/不合适的数据/不正确的数据的

2.3小批量梯度下降算法(mini-batch)

小批量梯度下降算法是FG和SG的折中方案,在一定程度上兼顾了以上两种方法的优点。
每次从训练样本集上随机抽取一个小样本集,在抽出来的小样本集上采用FG迭代更新权重。
被抽出的小样本集所含样本点的个数称为batch_size,通常设置为2的幂次方,更有利于GPU加速处理。bs通常可以选择1,2,4,8,16,64,128,256,512,1024,2046,4096,......

特别的,若batch_size=1,则变成了SG;若batch_size=n,则变成了FG.其迭代形式为

上式中,也就是我们从m个样本中,选择x个样本进行迭代(1

2.4随机平均梯度下降算法(SAG)

在SG方法中,虽然避开了运算成本大的问题,但对于大数据训练而言,SG效果常不尽如人意,因为每一轮梯度更新都完全与上一轮的数据和梯度无关。

随机平均梯度算法克服了这个问题,在内存中为每一个样本都维护一个旧的梯度,随机选择第i个样本来更新此样本的梯度,其他样本的梯度保持不变,然后求得所有梯度的平均值,进而更新了参数。

如此,每一轮更新仅需计算一个样本的梯度,计算成本等同于SG,但收敛速度快得多。

其迭代形式为:

  • sgd是当前权重减去步长乘以梯度,得到新的权重。sag中的a,就是平均的意思,具体说,就是在第k步迭代的时候,我考虑的这一步和前面n-1个梯度的平均值,当前权重减去步长乘以最近n个梯度的平均值。
  • n是自己设置的,当n=1的时候,就是普通的sgd。
  • 这个想法非常的简单,在随机中又增加了确定性,类似于mini-batch sgd的作用,但不同的是,sag又没有去计算更多的样本,只是利用了之前计算出来的梯度,所以每次迭代的计算成本远小于mini-batch sgd,和sgd相当。效果而言,sag相对于sgd,收敛速度快了很多。这一点下面的论文中有具体的描述和证明。
  • SAG论文链接:https://arxiv.org/pdf/1309.2388.pdf

3.梯度回归算法比较与优化

3.1梯度回归算法比较
3.2梯度回归算法优化

3.1梯度回归算法比较

(1)FG方法由于它每轮更新都要使用全体数据集,故花费的时间成本最多,内存存储最大。

(2)SAG在训练初期表现不佳,优化速度较慢。这是因为我们常将初始梯度设为0,而SAG每轮梯度更新都结合了上一轮梯度值。

(3)综合考虑迭代次数和运行时间,SG表现性能都很好,能在训练初期快速摆脱初始梯度值,快速将平均损失函数降到很低。但要注意,在使用SG方法时要慎重选择步长,否则容易错过最优解。

(4)mini-batch结合了SG的“胆大”和FG的“心细”,它的表现也正好居于SG和FG二者之间。在目前的机器学习领域,mini-batch是使用最多的梯度下降算法,正是因为它避开了FG运算效率低成本大和SG收敛效果不稳定的缺点。

3.2 梯度回归算法优化

以下这些算法主要用于深度学习优化

  • 动量法
    • 其实动量法(SGD with monentum)就是SAG的姐妹版
    • SAG是对过去K次的梯度求平均值
    • SGD with monentum 是对过去所有的梯度求加权平均
  • Nesterov加速梯度下降法
    • 类似于一个智能球,在重新遇到斜率上升时候,能够知道减速
  • Adagrad
    • 让学习率使用参数
    • 对于出现次数较少的特征,我们对其采用更大的学习率,对于出现次数较多的特征,我们对其采用较小的学习率。
  • Adadelta
    • Adadelta是Adagrad的一种扩展算法,以处理Adagrad学习速率单调递减的问题。
  • RMSProp
    • 其结合了梯度平方的指数移动平均数来调节学习率的变化。
    • 能够在不稳定(Non-Stationary)的目标函数情况下进行很好地收敛。
  • Adam
    • 结合AdaGrad和RMSProp两种优化算法的优点。
    • 是一种自适应的学习率算法

参考链接:[https://blog.csdn.net/google19890102/article/details/69942970]

你可能感兴趣的:(梯度下降方法)