推荐一篇讲BN讲的很好的博客

bn博客

bn其实有点像whitening,PCA的感觉


此图取自周博磊VALSE视频,视频链接,这图是为了表征某个卷积核对于不同级别模式的相应,因为每一个kernel都是一个pattern detector,比如有的神经元对于狗头很敏感(ImageNet1000类有200多类狗所以这种神经元很多2333),有的对于圆形很敏感,有的对于某种纹理或者颜色敏感(对特定patten响应值更高)等等,博磊自己说大概实验显示每层有40,50%的kernel有比较偏好的响应,另外的50%比较general,学多个模式,如果加了dropout、bn,前者会下降到20%~30%。可以看到有bn后整体敏感度降低,卷积核对pattern的响应更general,让他做的事情变得更多了(有点word2vector的感觉?)(博磊自己在视频里说那些没有语义信息的kernel可能是比较欠训练,比较冗余的,这点我持怀疑态度,这些kernel应该是很重要的,不然为啥加了正则化这些kernel多了结果好了?)

你可能感兴趣的:(推荐一篇讲BN讲的很好的博客)