残差网络小结

在我看来,残差网络要解决的就是在训练极深网络时,出现的退化现在。产生这一现象的原因,主要是梯度问题导致。在文献【2】中,对于残差网络解决梯度传播的问题进行了深入地分析。

原始的kaiming的残差网络,使用了shortcut的方式进行跨层连接。文献[1]中设定的跨层个数是2~3个layer,1个layer并没有看出效果。当去掉跨层连接时,网络就退回成了plain network的形式。跨层连接形成的模块叫bottleneck,在残差网络中大量地使用bottleneck替代plain network。

文献【2】对residual的连接进行了详细分析,并且对bottleneck进行了改进,主要是pre-activation的方式,ele-wise之后的activation改成在bottleneck里进行操作。

文献【3】,在我看来就是模块化的inception-resnet,作者设计了统一模式的网络模块替代resnet。resnext在论文中有三种实现形式,最简单的就是使用group。

参考文献

[1] K. He, X. Zhang, S. Ren, and J. Sun. Deep residuallearning for image recognition. In CVPR, 2016.

[2] K. He, X. Zhang, S. Ren, and J. Sun. Identity mappingsin deep residual networks. In ECCV, 2016.

[3] S. Xie, R. Girshick, Piotr Dollar, Z. Tu, and K. He. Aggregated Residual Transformations for Deep Neural Networks. In CVPR, 2017.

你可能感兴趣的:(Deep,Learning)