深度学习之BN层

注:借鉴整理,仅供自学,侵删

一批数据同通道归一处理

在深度学习中,因为网络的层数非常多,如果数据分布在某一层开始有明显的偏移,随着网络的加深这一问题会加剧(这在BN的文章中被称之为internal covariate shift),进而导致模型优化的难度增加,甚至不能优化。所以,归一化就是要减缓这个问题

博主讲的很好,直接借鉴,嘻嘻
深度学习中 Batch Normalization为什么效果好?
Batch Normalization 学习笔记

BN层的一些优点:
(1)可以选择比较大的初始学习率,使训练速度飙涨。以前还需要慢慢调整学习率,甚至在网络训练到一半的时候,还需要想着学习率进一步调小的比例选择多少比较合适,现在我们可以采用初始很大的学习率,然后学习率的衰减速度也很大,因为这个算法收敛很快。当然这个算法即使你选择了较小的学习率,也比以前的收敛速度快,因为它具有快速训练收敛的特性
(2)不用去理会过拟合中dropout、L2正则项参数的选择问题,采用BN算法后,你可以移除这两项参数,或者可以选择更小的L2正则约束参数了,因为BN具有提高网络泛化能力的特性
(3)不需要使用LRN(局部响应归一化),因为BN本身就是一个归一化网络层;
(4)可以把训练数据彻底打乱(防止每批训练的时候,某一个样本都经常被挑选到,文献说这个可以提高1%的精度,)。

视频讲解(20min开始),详细计算过程,无敌!

你可能感兴趣的:(深度学习相关知识)