Improving neural networks by preventing co-adaptation of feature detectors阅读

没有pretraining的情况下,首先训练的时候的更新是采用设置一个bound,如果接触了bound,那么久开始正则化其值。其实这个事比较好的一种方法,感觉,但是bound难以动态调整。因为对于去权重的学习,其实是和训练样本有很大关系的,之所以正则化,就是不希望对于某些变化特别大的点过于敏感,所以学习整体分布,但是人人都收税,似乎不太好,采用能者多劳的方式进行收税感觉会更好一些,L2是能者多劳,设置bound是取消了农业税,本来权重就比较小,那么影响不是很大,就对于特别大的超过bound进行修改就可以了。


因为训练的时候是按照去掉一半网络来进行训练的,所以最后结果都会偏大,偏大的比例和最开始去掉的节点的比例有关。


这个直观解释在文末有提及。个人认为最靠谱的解释就是distributed representation。因为节点之间相关性降低,所以每个节点尽可能学习到单独的特征,所以深层次的特征可以通过多种方式对于浅层进行组合。


参考文献:

1.Ehinton G, Srivastava N, Krizhevsky A. Improving neural networks by preventing co-adaptation of feature detectors[J]., 2012.

dropout原文

2.http://www.cnblogs.com/tornadomeet/p/3258122.html

对于dropout的他人的实现

你可能感兴趣的:(Improving neural networks by preventing co-adaptation of feature detectors阅读)