资料加载中

【pytorch源码剖析系列】梯度优化算法的概述和实践

本文参加新星计划人工智能(Pytorch)赛道：https://bbs.csdn.net/topics/613989052

写在前言：
前半部分: 本文首先会介绍优化器的发展历程，以及每个优化器有什么特点，解决了什么问题，同时又存在什么问题，后续的改进有哪些，循序渐进，让你学会如何在自己的任务中游刃有余的使用优化器。后半部分：代码的角度，以 pyotrch框架为例，从源码的角度带你理解优化器的由来，实现，作用。

梯度下降法是最受欢迎的优化算法之一，目前为止普遍用于优化神经网络。与此同时，每个机器学习框架都包含各种各样梯度下降优化算法的实现。

pytorch的优化器：管理并更新模型中可学习参数的值，使得模型输出更接近真实标签。

基本概念：

导数：函数在指定坐标轴上的变化率

方向导数：指定方向上的变化率

梯度：一个向量，方向为方向导数取得最大的方向

关于三者的关系的直观解释可以看这里

梯度下降法（Gradient Descent）

梯度下降是通过在在目标函数的梯度的反方向去更新网络所学习的参数，学习率η决定了目标函数达到局部最优所需要的步数。其中下面的所有公式中模型参数表示为为θ，损失函数表示为J(θ)，损失函数J(θ)关于参数θ的偏导数表示为 $\text{[math]}$ ,学习率表示为η。

梯度下降法目前主要是三种方法：区别在于每次参数更新时计算的样本数量不同，批量梯度下降法（BGD,Batch Gradient Descent）,随机梯度下降法（SGD, Stochastic Gradient Descent）及小批量梯度下降法（Mini-batch Gradient Descent）。

批量梯度下降法BGD

批量梯度下降计算代价函数的梯度，并一次性对整个数据集参数θ进行更新。

$\text{[math]}$

由上式可以看出，每进行一次参数更新，需要计算整个数据样本集，因此导致批量梯度下降法的速度比较慢，尤其是数据集非常大的情况下，收敛速度会非常的慢；一次性将整个数据集加载进内存，非常消耗内存；但是每次的下降方向为总体平均梯度，他得到的会是一个全局最优解。

随机梯度下降

随机梯度下降每一次随机对一个训练样本计算梯度，并更新参数θ

$\text{[math]}$

批处理梯度下降对大型数据集执行冗余计算，因为它在每次参数更新之前为类似的例子重新计算梯度。SGD通过一次执行一次更新来消除这种冗余。因此，它通常速度更快，也可以用来在线学习。SGD以高方差执行频繁的更新，导致目标函数剧烈波动(震荡下行)，如图中所述

小批量梯度下降法

小批量梯度下降算法，选择了一个折中的方案，即每次只取整个数据集的一小部分(n个样本)送入网络，计算代价函数，并进行参数更新，是目前普遍采用的方法。

$\text{[math]}$

优点：

减少了参数更新时的方差，即缓解了代价函数下降曲线出现剧烈震荡的现象

挑战：

选择合适的lr比较困难，学习率太低会收敛变慢，学习率过高会使收敛时发生剧烈震荡

学习率调整策略需要预先定义，无法适应数据集的特征，例如每个一定的迭代周期将学习率减小一点。

所有的参数都是用同样的lr，当数据是稀疏的并且我们的特征有着非常不同的频率时，我们希望能够不同程度的更新参数，罕见的特征我们进行较大程度的更新，频繁出现的特征进行小步幅的更新。

SGD容易收敛到局部最优，并且在某些情况下可能被困在鞍点。

为了解决上面的问题，后面的优化算法就提出了基于动量的一系列算法。这里不会去讨论不适合对高维数据集进行参数优化的算法（牛顿法（基于hessian矩阵））

动量优化法

动量优化方法引入物理学中的动量思想，加速梯度下降，有Momentum和Nesterov两种算法。当我们将一个小球从山上滚下来，没有阻力时，它的动量会越来越大，但是如果遇到了阻力，速度就会变小，动量优化法就是借鉴此思想，使得梯度方向在不变的维度上，参数更新变快，梯度有所改变时，更新参数变慢，这样就能够加快收敛并且减少动荡。

SGD without momentum SGD with momentum

Momentum

momentum算法思想：参数更新时在一定程度上保留之前更新的方向，同时又利用当前batch的梯度微调最终的更新方向，简言之就是通过积累之前的动量来加速当前的梯度。假设 $\text{[math]}$ 表示t时刻的动量，γ 表示动量因子，通常取值0.9或者近似值，在SGD的基础上增加动量，则参数更新公式如下：

【pytorch源码剖析系列】梯度优化算法的概述和实践

梯度下降法（Gradient Descent）

批量梯度下降法BGD

随机梯度下降

小批量梯度下降法

动量优化法

Momentum

NAG（Nesterov accelerated gradient）

自适应学习率优化算法

AdaGrad

Adadelta

RMSprop

Adam: Adaptive Moment Estimation

Nadam

经验之谈

梯度下降算法的可视化

pytorch源码分析优化器实现

pytorch中的优化器种类

pytorch使用优化器案例

你可能感兴趣的:(深度学习,pytorch,深度学习,人工智能)