【学习笔记】第三章深度学习基础——Datawhale X李宏毅苹果书 AI夏令营

局部极小值与鞍点

梯度为0的点我们统称为临界点,包括局部极小值、鞍点等
局部极小值和鞍点的梯度都为0,那如何判断呢?
先请出我们损失函数:L(θ),θ是模型中的参数的取值,是一个向量。
由于网络的复杂性,我们无法直接写出损失函数,不过我们可以写出损失函数的近似取值。根据宋浩老师所讲的大学一年级高等数学的知识,我们可以通过三阶泰勒展开对损失函数在θ附近的取值进行近似:
在这里插入图片描述
其中,θ是模型中的参数的取值,θ’是在θ附近的取值。
H是海森矩阵, H i j H_{ij} Hij是L对 θ i \theta_i θi θ j \theta_j θj的二阶偏导数。
那么如何判断是极值点还是鞍点呢?
当梯度也就是g为0时,第二项可消去,损失函数的值可变为如下形式:
在这里插入图片描述
当所有 ( θ − θ ′ ) T H ( θ − θ ′ ) > 0 (\theta-\theta')^TH(\theta-\theta')>0 (θθ)TH(θθ)>0时, L(θ) < L(θ’),θ为极小值点
当所有 ( θ − θ ′ ) T H ( θ − θ ′ ) < 0 (\theta-\theta')^TH(\theta-\theta')<0 (θθ)TH(θθ)<0时, L(θ) > L(θ’),θ为极大值点
当有的 ( θ − θ ′ ) T H ( θ − θ ′ ) > 0 (\theta-\theta')^TH(\theta-\theta')>0 (θθ)TH(θθ)>0有的<0时, L(θ) > L(θ’),θ为鞍点

批量与动量

批量梯度下降法(BGD): 必须把一整个epoch训练数据都看完,才能够计算损失和梯度,参数才能够更新一次
随机梯度下降法(SGD): batch_size=1进行训练
批量梯度下降相比随机梯度下降,每次更新更稳定、更准确。
其计算量未必大,由于计算单元并行的特性可以对矩阵运算进行优化,其计算效率会随着batch_size的上升而更更接近性能极限。batch_size较小时,增加不会显著影响计算时间,单计算效率在提升,在接近计算单元性能极限时,会变成正比例函数。在模型效果方面,更小的batch_size可以引入噪声,帮助逃离鞍点和局部最优解,更大的batch_size可以使损失函数更加平滑,有利于优化,更快收敛。
所以,我们在训练时,需要选择一个合适的batch_size进行训练。
【学习笔记】第三章深度学习基础——Datawhale X李宏毅苹果书 AI夏令营_第1张图片

你可能感兴趣的:(人工智能,学习,笔记)