深度学习入门 (六):梯度消失与梯度爆炸、权重的初始值、Batch Normalization、Group Normalization
目录梯度消失与梯度爆炸权重的初始值权重初始值可以设为0吗?(随机生成初始值的重要性)观察权重初始值对隐藏层激活值分布的影响Xavier初始值He初始值归一化输入(Normalizinginputs)BatchNormalizationBN层的正向传播BN层的反向传播基于计算图进行推导不借助计算图,直接推导代码实现GroupNormalization参考文献梯度消失与梯度爆炸本节参考:梯度消失、爆炸