ResNet Note

[1512.03385] Deep Residual Learning for Image Recognition (arxiv.org)

深度学习最有名的网络之一,何凯明大神的佳作

一般也是众多深度学习小白的入门必选,一开始你可能觉得就是一篇普通的“Top paper”顶会,实际上它是一篇跨时代的作品,引领了深度学习时代

ResNet Note_第1张图片

Abstract

ResNet Note_第2张图片

  • 如图所示,以往的模型设计,往往通过增加网络的深度来实现更好的性能,但问题是,层数堆叠多了,一是极易造成梯度消失,二是难以训练,因此先前的模型如果能堆叠到二十多层并成功训练就已经万事大吉了。作者经过研究,发现问题主要出在信息传递这个过程中:每一次传递都没有可以“参考”的东西,只能根据上一层的信息来学习;如果在传递的过程中不断给予“指导”,就能够解决这个问题。

  • 如何理解呢?

  • 举个形象的例子:5个人、10个人、20个人分别进行传话,5个人的时候,传到最后可能还保留不少原始信息,10个人的时候,传到最后可能意思都变了一大半了,但还可以保留一部分有用信息,20个人的时候,传到最后可能已经大相径庭。如果第一个人能不断地提示后面的人,那么传到最后时,信息就能较为完整地保留下来。

  • 深度神经网络很难去训练,本文提出了一个残差学习框架来简化那些非常深的网络的训练,该框架使得层能根据其输入来学习残差函数而非原始函数。本文提出证据表明,这些残差网络的优化更简单,而且通过增加深度来获得更高的准确率

Creative point

  • residual block:
    ResNet Note_第3张图片

  • 从经验来看,网络的深度对模型的性能至关重要,当增加网络层数后,网络可以进行更加复杂的特征模式的提取,所以当模型更深时理论上可以取得更好的结果,但是实验发现深度网络出现了退化问题(Degradation problem)。网络深度增加时,网络准确度出现饱和,甚至出现下降。如下图所示:
    ResNet Note_第4张图片
    没加residual(left) 加了residual(right)

研究者推断残差映射比原始未参考的映射(unreferenced mapping)更容易优化,在极端的情况下,如果某个恒等映射是最优的,那么将残差变为0比用非线性层的堆叠来拟合恒等映射更简单

  • 网络结构参数

ResNet Note_第5张图片

Experiment

ResNet Note_第6张图片

作者做实验对比了plain-18、plain-34和resnet-18、resnet-34之间的训练测试误差,结果如上图所示,resnet-34的训练和测试误差都小于resnet-18的训练测试误差,这说明renset解决了网络的退化问题。

对比实验

ResNet Note_第7张图片

ResNet Note_第8张图片

Datasets

数据集就是一些非常经典的
MS COCO
VOC07+12
ImageNet
CIFAR-10

这篇经典佳作就到这里啦,希望小白们努力学习体会,感受大佬的鬼斧神工(bushi

你可能感兴趣的:(Paper,note,深度学习,计算机视觉,人工智能)