深度学习基础篇之标准化与归一化

1.为什么需要归一化?

加快网络的收敛,避免出现梯度弥散

2.归一化与标准化的区别?

同:都是一种线性变化,都是按照比例在进行缩放与偏移
不同:归一化是将数据归一化到[-1,1]或者[0,1]的分布,由变量的极值决定其缩放。标准化是将数据转化为均值为零当差为1的正态分布

3.为什么需要进行归一化或者是标准化?

加速训练(结合激活函数及其梯度进行阐述),0与100与0与10之间的区别,转换到相同的特征空间

4.归一化的类型?

[-1,1],[0,1],标准差标准化

5.标准化之LRN、BN

LRN(局部响应归一化):首见于ALEXNet,响应较大的值变得相对更大,并抑制响应较小的值,增加了模型的泛化能力
BN:输入数据进行归一化之后,经过了f(wx+b),f代表激活函数,其数据分布可能发生改变,随着网络的深度更深,其变化不断累计,即InceptionV2中阐述的协方差偏移,为了解决这个问题,将输出的数据分布再次强制转换为标准的正态分布

6.BN的优点?

某些情况下可以取消Dropout以及L2、代替了LRN、破坏了数据的分布,避免了模型的死记硬背,一定程度上减轻了过拟合、较少了梯度消失的情况(结合激活函数及其梯度考虑)、

7.BN适用范围?

bs应该更大、对于数据生成方面并不合适

8.BN的训练与测试?

均值与方式是对整体的训练集进行统计的,每一个批次的均值和方差求平均,但是各种深度学习的开源框架中,其实是用了一种动量的思想来模拟求平均的。测试时便利用该结果

9.BN、LN、IN、GN的对比?

书上

10.BN的前向传播与方向传播的推导?伽马和贝塔的shape?求平均是相对于NHW而言的?

11.BN为什么可以加快收敛?训练速度与收敛速度?为什么可以减轻梯度消失?BN用在激活函数前还是激活函数后?

12.gamma与beta的初始化?mean的shape?var的shape?mommentum?x_hat的shape?y的shape?

你可能感兴趣的:(深度学习基础,深度学习面经,深度学习)