【pytorch 】nn.init 中实现的初始化函数 normal, Xavier==》为了保证数据的分布(均值方差一致)是一样的,类似BN
为什么要输入和输出的方差相同?有利于信息的传递、、为了使得网络中信息更好的流动,每一层输出的方差应该尽量相等。在考虑线性激活函数的情况下,在初始化的时候使各层神经元的方差保持不变,即使各层有着相同的分布.如果每层都用N(0,0.01)随机初始化的话,各层的数据分布不一致,随着层度的增加,神经元将集中在很大的值或很小的值,不利于传递信息.很多初始化策略都是为了保持每层的分布不变,而BN是通过增加归一