5、BN层的作用及原理?

Normalization是数据标准化(归一化,规范化),Batch 可以理解为批量,加起来就是批量标准化。在CNN中,Batch就是训练网络所设定的图片数量batch_size。

作用(归一化至:均值0、方差为1):

(1)加速网络收敛速度,可以使用较大的学习率来训练网络

(2)改善梯度弥散

(3)提高网络的泛化能力

(4)BN层一般用在线性层和卷积层后面,而不是放在非线性单元后

因为非线性单元的输出分布形状会在训练过程中变化,归一化无法消除他的方差偏移,相反的,全连接和卷积层的输出一般是一个对称,非稀疏的一个分布,更加类似高斯分布,对他们进行归一化会产生更加稳定的分布。

  1. BN层本质上是一个归一化网络层,可以替代局部响应归一化层(Local Response Normalization,LRN层)。
  2. 可以打乱样本训练顺序(这样就不可能出现同一张照片被多次选择用来训练)论文中提到可以提高1%的精度。

原理解释:

管随机梯度下降法对于训练深度网络简单高效,但是它有个毛病,就是需要我们人为的去选择参数,比如学习率、参数初始化、权重衰减系数、Drop out比例等。这些参数的选择对训练结果至关重要,以至于我们很多时间都浪费在这些的调参上,不需要那么刻意的慢慢调整参数。BN算法(Batch Normalization)其强大之处。

  1. 可以选择比较大的初始学习率,让你的训练速度飙涨。
  2. 不用去理会过拟合中drop out、L2正则项参数的选择问题,采用BN算法后,你可以移除这两项了参数,或者可以选择更小的L2正则约束参数了,因为BN具有提高网络泛化能力的特性;
  3. 再也不需要使用使用局部响应归一化层了(局部响应归一化是Alexnet网络用到的方法)
  4. 可以把训练数据彻底打乱(防止每批训练的时候,某一个样本都经常被挑选到,文献说这个可以提高1%的精度)。
  1. 神经网络学习过程本质就是为了学习数据分布,一旦训练数据与测试数据的分布不同,那么网络的泛化能力也大大降低;
  2. 一旦每批训练数据的分布各不相同(batch 梯度下降),那么网络就要在每次迭代都去学习适应不同的分布,这样将会大大降低网络的训练速度;
  3. 把网络中间层在训练过程中,数据分布的改变称之为:“Internal  Covariate Shift”。Paper所提出的算法,就是要解决在训练过程中,中间层数据分布发生改变的情况,于是有了Batch  Normalization。

BN层本质原理:在网络的每一层输入的时候,又插入了一个归一化层,也就是先做一个归一化处理,然后再进入网络的下一层。不过文献归一化层,可不像我们想象的那么简单,它是一个可学习、有参数的网络层。既然说到数据预处理

你可能感兴趣的:(面试问题总结)