视频链接:https://www.bilibili.com/video/BV1JA411c7VT
原视频链接:https://speech.ee.ntu.edu.tw/~hylee/ml/2021-spring.html
Leeml-notes开源项目:https://github.com/datawhalechina/leeml-notes
gradient is zero,梯度为0的点,称为critical point。包含两类,local minima,saddle point,如下:
采用多元函数泰勒展开,()在 = ′处展开如下:
g为函数梯度,为一个向量;H为函数的海森矩阵,表示对不同参数的二阶矩阵:
在critical point处,梯度g=0,简化如下:
Critical Point类型有三类,minima,maxima,Saddle point,依靠 ^ vTHv大小判断:
^ vTHv>0:()> (′),minima
^ vTHv<0:()< (′),maxima
^ vTHv>0 及 <0:Saddle point
也可以通过H的特征值正负性判断三类特殊点。举例: = 1 2 = _1_2 y=w1w2x, 数据(1,1)
损失函数: = ( ^ − 1 2 ) 2 = ( 1 − 1 2 ) 2 = (\hat − _1_2)^2 = (1- _1_2)^2 L=(y^−w1w2x)2=(1−w1w2)2;
计算g与H如下:
依靠海森矩阵H确定鞍点优化方向, may tell us parameter update direction。数学的假设推理如下:
寻找海森矩阵H的一个负的特征向量u,即为L下降方向。
举例:
上述函数,找到鞍点并且寻找下降方向:
M i n i m u m r a t i o = N u m b e r o f P o s i t i v e E i g e n v a l u e s N u m b e r o f E i g e n v a l u e s Minimum ratio = \frac {Number \; of \; Positive \; Eigen \;values} {Number\; of \;Eigen \;values} Minimumratio=NumberofEigenvaluesNumberofPositiveEigenvalues
上图中,通过实证研究,大部分的critical point为鞍点,local minima很少(横坐标1处,为绝对minima)。
一个训练epoch分为数个batch,每一个batch均可以对损失函数参数 θ \theta θ进行更新。每个epoch的batch均会重新分配。
采用GPU并行计算,小批次和大批次在一定范围内耗时基本一致:
但是不同batch之间转换需要更多时间,所以小批次epoch内需要时间更长:
大批次训练,容易导致优化错误(Optimization Fails);小批次训练性能更好:
原因:大批次参数更新次数少,容错率低;小批次参数更新的次数多,可以有更多可能跳出local minima。
小批量测试数据要好,实验结果如下:SB表示小批次,LB表示大批次。
原因仍然是参数更新的问题,train与test的损失函数,认为有一定平移;小批次更容易陷入Sharp Minima,无法更新:
Momentum:学习率动量,在更新参数时,不仅考虑函数的梯度,也考虑之前更新的各个梯度方向:
t = λ t − 1 − η t − 1 ^t = \lambda ^{t-1} − \eta ^{t-1} mt=λmt−1−ηgt−1
综合考虑梯度下降和学习率动量,参数更新如下:
在计算中,可以发现,动量 m i m^i mi包含 g 0 g^0 g0到 g i g^i gi的各个权重之和;
i = − ( λ i − 1 η g 0 + λ i − 2 η 2 g 1 + . . . + λ η i − 1 g i − 2 ) − η g i − 1 ^i = -(\lambda^{i-1} \eta g^0 + \lambda^{i-2} \eta^2 g^1+...+\lambda \eta^{i-1} g^{i-2})-\eta g^{i-1} mi=−(λi−1ηg0+λi−2η2g1+...+ληi−1gi−2)−ηgi−1