神经网络中固定每层权重方差的作用

控制输入,防止数值的剧烈变化

方差的相关性质

神经网络中固定每层权重方差的作用_第1张图片
两个随机变量相乘后的方差
这里写图片描述
经过变化得到

D ( x y ) = E ( x 2 ) E ( y 2 ) − E ( x ) 2 E ( y ) 2 D(xy)=E(x^2)E(y^2)-E(x)^2E(y)^2 D(xy)=E(x2)E(y2)E(x)2E(y)2
D ( x y ) = E ( x 2 ) ( D ( y ) + E ( y 2 ) ) − E ( x ) 2 E ( y ) 2 D(xy)=E(x^2)(D(y)+E(y^2))-E(x)^2E(y)^2 D(xy)=E(x2)(D(y)+E(y2))E(x)2E(y)2
D ( x y ) = E ( x 2 ) D ( y ) + E ( x 2 ) E ( y 2 ) − E ( x ) 2 E ( y ) 2 D(xy)=E(x^2)D(y)+E(x^2)E(y^2)-E(x)^2E(y)^2 D(xy)=E(x2)D(y)+E(x2)E(y2)E(x)2E(y)2
D ( x y ) = E ( x 2 ) ( D ( y ) + E ( y ) 2 ( E ( x 2 ) − E ( x ) 2 ) D(xy)=E(x^2)(D(y)+E(y)^2(E(x^2)-E(x)^2) D(xy)=E(x2)(D(y)+E(y)2(E(x2)E(x)2)
D ( x y ) = E ( x 2 ) ( D ( y ) + E ( y ) 2 D ( x ) D(xy)=E(x^2)(D(y)+E(y)^2D(x) D(xy)=E(x2)(D(y)+E(y)2D(x)

  • 输入x可以近似看做一个不变的量, 所以方差, 平均数进行相等 E ( x 2 ) E(x^2) E(x2), D ( x ) D(x) D(x)可以看做为一个常量. 所以最终的结果的范围由权重y所确定, 而权重初始化使用Xavier(在tensorflow叫glorot_uniform)控制整网网络的方差.
  • 如果不控制权重的方差,在网络的不断传播中,一方面可能导致方差不断增大,输出值不断增大,导致产生内存无法存储大叔使得loss变成Nan,而另外一方面方差不断减小,输出值小,小到无法产生有效的梯度。

你可能感兴趣的:(神经网络杂谈)