Deep Residual Learning for Image Recognition(阅读)



好久没整理论文了,感觉有点耗时间,总结总结还是不错的,便于记忆和细节学习。

废话少说,

何恺明:地址

PPT讲解:地址

代码:地址

1、Residual networks赢了 ImageNet的detection, localization, 以及COCO数据集上的detection和segmentation

2、问题:立文idea,网络越深,网络性能出现瓶颈,准确率下降,文中称为“degradation problem”?

下面是Highway networks的一个实验结果表明:Cifar-10 上的training/testing error. 网络从20层加到56层,error反而增加了。

Deep Residual Learning for Image Recognition(阅读)_第1张图片

3、思想:“假如目前有一个可以工作的很好的网络A,这时来了一个比它更深的网络B,只需要让B的前一部分与A完全相同,后一部分只实现一个恒等映射,这样B最起码能获得与A相同的性能,而不至于更差。深度残差学习的思想也由此而产生,既然B后面的部分完成的是恒等映射,何不在训练网络的时候加上这一先验,于是构造网络的时候加入了shortcut连接,即每层的输出不是传统神经网络当中输入的映射,而是映射和输入的叠加”,比喻描述来源。

Deep Residual Learning for Image Recognition(阅读)_第2张图片

4、Let us consider H(x)as an underlying mapping to befit by a few stacked layers (not necessarily the entirenet),withxdenoting the inputs to the first of these layers.If one hypothesizes that multiple nonlinear layers can asymptotically approximate complicated functions, then it is equivalent to hypothesize that they can asymptotically approximate the residual functions,i.e.,H(x)x(assuming thatthe input and output are of the same dimensions).Sorather than expect stacked layers to approximateH(x), we explicitly let these layers approximate a residual functionF(x) :=H(x)x. The original function thus becomesF(x)+x. Although both forms should be able to asymptotically approximate the desired functions (as hypothesized),the ease of learning might be different.

大概是什么意思呢?H(x)是一个我们要求得映射函数,F(x)表示残差函数,这样F(x):= H(x)-x , 输出端就是F(x)+x,再输入到Relu函数。这样调参使F(x)为0,当然比直接求H(x)简单多了,F(x)+x前向传播就能求得。x算先验信息这样有利于训练学习。

5、Identity Mapping by Shortcuts

identity mapping意思是什么呢?身份映射?显然不是,identity有一致,单位阵,恒等的意思,大概是恒等映射。就是直接连接,调节不需要权重。

残差表达式:

Ws是在维度匹配的时候才用得到。

6、Plain work:

受VGG启发,设计规则:(i)对于相同输出的特征,滤波器数量;(ii)如果输出特征减半,滤波器的数量加倍,为了每次时间复杂度相同。

7、技巧:

  • 图片resize:(256,480)
  • 裁剪:224*224随机采样,含水平翻转,每个像素 减均值
  • 标准颜色增强
  • 卷积和激活层加batch normalization
  • minibatch-size:256
  • learning-rate: 初始0.1, 当error持平,lr就除以10
  • 模型训练60万次
  • weight decay:0.0001
  • momentum:0.9
  • 没用dropout

8、实验的设计有待学习,这里就不加描述了,参考文献不错,值的学习。




你可能感兴趣的:(论文阅读)