李宏毅机器学习-神经网络设计(2021版)

1.局部最小值和鞍点

李宏毅机器学习-神经网络设计(2021版)_第1张图片
local minima:局部最小值
saddle point:鞍点
它们统称为critical point(临界点)。

如何知道是哪个?

李宏毅机器学习-神经网络设计(2021版)_第2张图片

举例

李宏毅机器学习-神经网络设计(2021版)_第3张图片
李宏毅机器学习-神经网络设计(2021版)_第4张图片
这是saddle point。
saddle point比local minima更加常见。

2.批次(Batch)与动量(Momentum)

李宏毅机器学习-神经网络设计(2021版)_第5张图片
李宏毅机器学习-神经网络设计(2021版)_第6张图片
左边没有用batch,右边是使用了batch的。左边的更新所要花的时间更长,结果更加稳定;右边花费的时间短,但是有噪声。
李宏毅机器学习-神经网络设计(2021版)_第7张图片
李宏毅机器学习-神经网络设计(2021版)_第8张图片
小的batch size 有更好的表现,大的batch size优化失败。

为何会出现这个状况?

李宏毅机器学习-神经网络设计(2021版)_第9张图片
李宏毅机器学习-神经网络设计(2021版)_第10张图片
小的batch更容易在一个宽的地方停下来,大的batch更容易在窄的地方停下来,因此大的batch更容易出现坏的结果。

对比结果

李宏毅机器学习-神经网络设计(2021版)_第11张图片

动量+梯度下降

李宏毅机器学习-神经网络设计(2021版)_第12张图片
下一步走的方向取决于gradient的方向和之前的方向。

3.自动调整学习速率(learning rate)

李宏毅机器学习-神经网络设计(2021版)_第13张图片
当没有临界点时训练会十分难,我们希望当梯度很小的时候,learning rate能够调大一点。

李宏毅机器学习-神经网络设计(2021版)_第14张图片
李宏毅机器学习-神经网络设计(2021版)_第15张图片

RMSprop

在这里插入图片描述
李宏毅机器学习-神经网络设计(2021版)_第16张图片

Adam

李宏毅机器学习-神经网络设计(2021版)_第17张图片

如何解决震荡的问题?

李宏毅机器学习-神经网络设计(2021版)_第18张图片
learning rate dacy 随着时间不断进行,参数不断更新,把learning rate减小。

warm up

learning rate先变大,后变小。
李宏毅机器学习-神经网络设计(2021版)_第19张图片

优化总结

李宏毅机器学习-神经网络设计(2021版)_第20张图片

4.classification as regression(回归分类)

李宏毅机器学习-神经网络设计(2021版)_第21张图片
soft-max的计算方法,让结果在0和1之间。
李宏毅机器学习-神经网络设计(2021版)_第22张图片

计算损失函数

李宏毅机器学习-神经网络设计(2021版)_第23张图片
mean square error:均方误差
cross-entropy:交叉熵
李宏毅机器学习-神经网络设计(2021版)_第24张图片

为什么cross-entropy更好?

李宏毅机器学习-神经网络设计(2021版)_第25张图片
在左上角时,loss都非常大,但是mean square非常的平缓,gradient太小。

5.批次标准化(batch normalization)

李宏毅机器学习-神经网络设计(2021版)_第26张图片
不同的维度对
same range 接近的范围

feature normalization

李宏毅机器学习-神经网络设计(2021版)_第27张图片
在每个维度i,求得平均数 mi,标准差在这里插入图片描述
the means of all dims are 0,and the variances are all 1。
李宏毅机器学习-神经网络设计(2021版)_第28张图片
李宏毅机器学习-神经网络设计(2021版)_第29张图片
再次对z做批次化处理,步骤与上相同。参数彼此相关,应该把整个看成一个large network。

testing 阶段

moving average:流动平均数
李宏毅机器学习-神经网络设计(2021版)_第30张图片

为什么batch mormalization是有效的?

李宏毅机器学习-神经网络设计(2021版)_第31张图片
internal covariate shift可能并不是最主要的问题
李宏毅机器学习-神经网络设计(2021版)_第32张图片
李宏毅机器学习-神经网络设计(2021版)_第33张图片

你可能感兴趣的:(笔记,神经网络,深度学习,机器学习)