深度学习中的优化算法如何理解--SGD

文章目录

      • 1. SGD算法

学了很久的深度学习,忽然感觉对于知识的摄入只是填鸭式学习,少了主动思考,因此准备就简单问题的理解出发对已经学习知识做系统整理。

提到优化算法那么就要涉及到优化问题,简单介绍一下什么是凸集、凸函数、凸优化。
凸集:集合中任意两个样本连接后的线段仍然属于集合,那么就是凸集。
凸函数:两个自变量的函数值求和总是大于等于自变量中值的函数值。
凸优化:给定变量属于凸集,目标函数是凸函数,那么求解这一问题就是属于凸优化问题。
深度学习中的优化算法如何理解--SGD_第1张图片

(但是深度学习中大多数都是非凸问题…,简单理解,多多指正)

1. SGD算法

【是什么?】SGD算法在深度学习中十分常见,中文名叫随机梯度下降。
【训练流程】首先简单回顾一下深度学习训练流程,模型中参数初始化,一个前向传递(就是过一遍模型),然后计算损失,然后损失进行反向传递计算梯度,最后是优化器对参数进行更新(当然更新之前需要对参数梯度进行清零)。SGD算法就是参数优化策略问题,也就是这里优化器中所指定的优化算法。
【理论】
w ← w − η ∂ L ∂ w (1) w\leftarrow{w-\eta\frac{\partial{L}}{\partial{w}}}\tag{1} wwηwL(1)

由于为了理解原理,所以下标等没有那么严格表示,简单理解即可,简单充实一下:随机梯度下降就是梯度是对一个样本求梯度梯度下降是对所有样本梯度求和再取均值;小批量随机梯度下降是小批次中样本梯度求均值,大多数使用的都是小批量梯度下降

其实之前只是默认了这个更新规则,忽然看见李沐老师对于这个规则进行了进一步的解释。我就简单写一下流程:
深度学习中的优化算法如何理解--SGD_第2张图片
未完待续…

你可能感兴趣的:(深度学习,算法,深度学习)