batchnorm(特征数据纵向标准化,全连接使用) LayerNorm(特征数据横向的规范化,nlp,rnn使用) WeightNorm(对参数的规范化) 余弦Norm(对w*x的规范化)
详解深度学习中的Normalization,BN/LN/WN内部协方差漂移深度神经网络很难训练。因为深度神经网络中网络层数太多,在训练过程中,模型参数的更新会引起靠近输出侧各层的输出结果发生剧烈的变化。Google将这一现象总结为InternalCovariateShift(ICS)内部协方差漂移ICS会导致什么问题?简而言之,每个神经元的输入数据不再是“独立同分布”。其一,上层参数需要不断适应新