ResNetV2:Identity Mappings in Deep Residual Networks 论文阅读

ResNetV2:Identity Mappings in Deep Residual Networks

作者:Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun

                               Microsoft Research

[pdf] [github]


0. 简介

本文进一步分析了residual building blocks计算传播方式,表明了skip connections 和after-addition activation都是identity mappings,前向和后向的信号能够直接的从一个block 传递到其他任意一个block。所以文中提出了一个新的残差单元,它使得训练变得更简单,同时也提高了网络的泛化能力。

1.Motivation

在ResNet中,对于一个Resdual Unit:
resform
其中有三个很重要的部分,h,f, F:

h(Xl)=XlfReLUF h ( X l ) = X l 代 表 一 个 恒 等 映 射 , f 代 表 R e L U 。 F 表 示 一 个 残 差 函 数

通过设计unit中的3个重要组成是否可以来提升ResNet的效果。

2. Analysis

h(xl)f(yl) 如 果 h ( x l ) 和 f ( y l ) 都 是 恒 等 映 射 , 那 么 在 前 向 和 反 向 阶 段 , 信 号 可 以 直 接 的 从 一 个 单 元 传 递 到 其 他 任 意 一 个 单 元 。

yl=h(xl)+F(xl,Wl) y l = h ( x l ) + F ( x l , W l )

xl+1=f(yl). x l + 1 = f ( y l ) .

如果 f h都是恒等映射的话:
xl+1=xl+F(xl,Wl) x l + 1 = x l + F ( x l , W l )

又递推关系:
xL=xl+i=lLF(xi,Wi) x L = x l + ∑ i = l L F ( x i , W i )

文中指出这里表明任意层之间都是残差关系,同时与传统神将网络递推公式的对比,这里是一系列的加法,传统神经网络中更多的是矩阵之间的连乘,所以ResNet梯度稳定性更好也可以这样理解。
bp公式:
εxl=εxLxLxl=εxL(1+xli=lLF(xi,Wi)) ∂ ε ∂ x l = ∂ ε ∂ x L ∂ x L ∂ x l = ∂ ε ∂ x L ( 1 + ∂ ∂ x l ∑ i = l L F ( x i , W i ) )

与正向传播对应,更高层的梯度都可以通过第一项直接传递给更低的层,同时公式中显示了ResNet不可能出现梯度消失的现象。

3. Experiment

exp on h
文中比较了constant scaling、exclusive gating、short-only gating、1*1 conv shortcut以及dropout shortcut来作为h,具体结构如图:
ResNetV2:Identity Mappings in Deep Residual Networks 论文阅读_第1张图片
对应的实验结果如下表所示:
ResNetV2:Identity Mappings in Deep Residual Networks 论文阅读_第2张图片

  • fig2中的不同结构都没有origal效果好,也就是说其他形似的连接方式都会影响信息的传递。其中1*1conv的结果并不没有想ResNetV1中表现的结果那么好。
  • shortcut-only gating 和1×1的卷积涵盖了Identity Mapping的解空间。然而,它们的训练误差比恒等捷径连接的训练误差要高得多,这表明了这些模型退化问题的原因是优化问题,而不是表达能力的问题。

    exp on f
    文中分析了BN after addition,ReLU before addition,pre-activation方法作为f,研究f对ResNet效果的影响:

    pre-activation:原来的设计中相加操作后面还有一个ReLU激活函数,这个激活函数会影响到残差单元的两个分支,现在将它移到残差函数分支上,快捷连接分支不再受到影响。

ResNetV2:Identity Mappings in Deep Residual Networks 论文阅读_第3张图片
预激活的影响具有两个方面。第一,由于f也是恒等映射,优化变得更加简单(与原始ResNet相比)。第二,在预激活中使用BN能够提高模型的正则化。

cifar上的结果

ResNetV2:Identity Mappings in Deep Residual Networks 论文阅读_第4张图片

ResNetV2:Identity Mappings in Deep Residual Networks 论文阅读_第5张图片

总结

本文可以说是ResultNet的升华,通过大量的对比实验来验证自己的理论推到的正确性,作者把ResNet分成三个部分h(skip connection),f(after-addition activation),F(residual function),ResNet原文对F进行了深入的研究,本文对h与f进行分析讨论,得出了足够简单,有效的结论与实验结果。

你可能感兴趣的:(计算机视觉学习)