residual connection, 残差链接

背景

更深的网络理论上会有更强的表达能力, 但实际训练中遇到的问题是层数加深后, 训练集误差不降反升. 这是因为网络变深后, 梯度消失隐患也会增大, 模型性能会不升反降.
residual connection, 残差链接_第1张图片
图: layer-20 与 layer-56 的比较, 后者训练集误差更大

residual-connection

为了应对梯度消失挑战, ResNet 的设计理念是允许低层的原始信息直接传到后续的高层, 让高层专注残差的学习, 避免模型的退化.

标准实现

residual connection, 残差链接_第2张图片
图: 维度一样, 可以直接相加, 可以是 a+b, 或 tf.add(a,b), 是 element-wise 的op.

维度变化

论文给出了3中选择.

  • A: zero-padding for increasing dimensions, and all shortcuts are parameter free.
  • B: projection shortcuts for increasing dimensions, , and other shortcuts are identity.
  • C: all shorts are projection
    residual connection, 残差链接_第3张图片
    图: A/B/C 三种选择的实验对比, 效果相差不大, 为了降低复杂度, 论文选用了B.

参考

  1. paper,Deep Residual Learning for Image Recognition
  2. 他人blog,深度残差网络RESNET

你可能感兴趣的:(residual connection, 残差链接)