深度学习中初始化方法:xavier和MSRA

Xavier初始化方法

源自论文:Understanding the difficulty of training deep feedforward neural networks         Xavier;Bengio 

思想:正向传播时,每层激活值的均值为0,方差相同,反向传播时,每层状态值的梯度的均值为0,方差相同。

方法:权重满足均匀分布       W\sim U[-\frac{\sqrt{6}}{\sqrt{n_{i}+n_{i+1}}},\frac{\sqrt{6}}{\sqrt{n_{i}+n_{i+1}}}], 如果各层大小相同则方差为1/n。

适用情况:softsign,tanh(接近线性的激活函数;关于0对称)。

MSRA初始化方法

源自论文:Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification       kaiming

思想:针对ReLu,正向传播时,每层状态值的方差保持不变;反向传播时,每层激活值的梯度的方差保持不变。

方法:权重满足均匀分布       W\sim U[0,\sqrt{\frac{2}{n_{i}}}]

适用情况:ReLu及其变形。

你可能感兴趣的:(机器学习)