深度学习学习笔记——BN

作用:
1、既可以使得训练集测试集同分布,
2、又可以使得每一层和不同batch同分布
使用地方:
每一层激活函数之前,
(1)sigmoid、tanh激活函数之前可以防止梯度衰减梯度消失。
(2)relu激活函数之前可以防止某一层的激活值全部被抑制,防止梯度消失。
目的:
防止梯度消失的同时也可以使得训练集、测试集同分布,不同batch同分布,这些都可以加速训练过程。
方法:深度学习学习笔记——BN_第1张图片
注: 其中,ϵ 是为了防止分母为0,取值10的负8次方。γ和β都是模型的学习参数(如同W和b一样),防止输入分布在激活函数的线性区降低模型表达能力。

Batch Normalization 也起到微弱的正则化效果,用了BN可以不用dropout,但是不要将 Batch Normalization 作为正则化的手段,而是当作加速学习的方式。Batch Normalization主要解决的还是反向传播过程中的梯度问题(梯度消失和爆炸),而正则化解决的是提高泛化能力。
泛化误差=测试误差
深度学习——BN的理解
【深度学习】BN与神经网络调优

你可能感兴趣的:(深度学习学习笔记,深度学习,神经网络,人工智能)