Identity Mappings in Deep Residual Networks

https://arxiv.org/pdf/1603.05027.pdf

本文是对于ResNet进一步的分析,并且做了结构上的小小改动,使模型的性能更好。先看一下做的小小改动吧:

Identity Mappings in Deep Residual Networks_第1张图片

    文中先是解释了一下ResNet之所以work的原因是因为由于Residual Unit的存在,feature间数值的传递可以表达为以下的形式:


    所以在梯度传递时,表达形式为:


    这样保证了梯度可以被传递到任意的浅层。而不会在经过重重weights的剥削后消失。

    而当identity shortcut有其他参数介入的情况下,梯度传播就会变为:


这样又会导致梯度的指数倍的膨胀和消失,是不利于梯度传导的。

除了理论上的推导意外,作者当然也尝试了不同的connect方法来做实验,模型结构变化如下:

Identity Mappings in Deep Residual Networks_第2张图片
不同的连接结构


Identity Mappings in Deep Residual Networks_第3张图片
不同连接的error

可以看出新的connect结构的效果都不如原有的结果,这也和理论推导的结论是相同的。

此外,作者继续探索了activation对于模型的影响,不同尝试如下:

Identity Mappings in Deep Residual Networks_第4张图片
不同的activation
Identity Mappings in Deep Residual Networks_第5张图片
不同activation的实验结果

可以看出full pre-activation的结构效果超过了原有结构。作者认为是因为原始结构中每个Unit的输出在进入到weights层之前没有经过BN。

你可能感兴趣的:(Identity Mappings in Deep Residual Networks)