【深度学习】ILSVRC图像分类竞赛----卷积神经网络CNN的发展

提起卷积神经网络,我们总会从LeNet5开始说起,但是LeNet5不是起点也不是终点。下面介绍CNN发展过程中的经典文章。

  1. 1980年推出的neocognitron是第一个真正意义上的级联卷积神经网络,不过它并不完全是现在的卷积的形式。
  2. 1989年Hinton用于处理声音信号的卷积网络TDNN。

1989年,Yann LeCun和Y. Bengio等人开始认真研究卷积神经网络,此后的十年间,LeNet网络开始迭代,直到应用于MNIST数据集的LeNet。

  1. 1998年,LeCun提出LeNet5。这是一个经典的卷积神经网络。

卷积层由卷积,池化,非线性激活函数构成。从1998年至今,经过20年的发展后,卷积神经网络依然遵循着这样的设计思想。其中,卷积发展出了很多的变种,池化则逐渐被带步长的卷积完全替代,非线性激活函数更是演变出了很多的变种。稀疏连接,也就是局部连接,这是以卷积神经网络为代表的技术能够发展至今的最大前提。利用图像的局部相似性,这一区别于传统全连接的方式,推动了整个神经网络技术的发展。虽然LeNet5当时的错误率仍然停留在0.7%的水平,不如同时期最好的SVM方法,但随着网络结构的发展,神经网络方法很快就超过了其他所有方法,错误率也降低到了0.23%,甚至有的方法已经达到了错误率接近0的水平。

2009年斯坦福大学教授李飞飞发布ImageNet数据集,包含超过1400万张图片、多达2.2万个类别的图像数据,并从2010年开始举办每年一届的ImageNet大规模视觉识别挑战赛Large-Scale Visual Recognition Competition,LSVRC。在ImageNet发布的早年里,仍然是以SVM和Boost为代表的分类方法占据优势,直到2012年AlexNet的出现。

  1. 2012年,Hinton弟子Alex Krizhevsky获得比赛冠军,故也称AlexNet。

AlexNet是第一个真正意义上的深度网络,与LeNet5的5层相比,它的层数增加了3层,网络的参数量也大大增加,输入也从28变成了224,同时GPU的面世,也使得深度学习从此进行GPU为王的训练时代。

  1. 2013年ILSVRC分类任务冠军网络是Clarifai,但更为熟知的是Hinton弟子Zeiler和Fergus在研究中利用反卷积技术引入了神经网络的可视化,对网络的中间特征层进行了可视化,为研究人员检验不同特征激活及其与输入空间的关系成为了可能。
  2. GoogleNet和VGG分列2014年LSVRC的冠亚军。

前者来自于Google的Christian Szegedy等人提出的22层的网络,其top-5分类错误率只有6.7%。其核心是Inception Module,它采用并行的方式。一个经典的inception结构,包括有四个成分。1×1卷积,3×3卷积,5×5卷积,3×3最大池化,最后对四个成分运算结果进行通道上组合。这就是Inception Module的核心思想。通过多个卷积核提取图像不同尺度的信息然后进行融合,可以得到图像更好的表征。自此,深度学习模型的分类准确率已经达到了人类的水平(5%~10%)

而VGGNet包括16层和19层两个版本,共包含参数约为550M。全部使用3×3的卷积核和2×2的最大池化核,简化了卷积神经网络的结构。VGGNet很好的展示了如何在先前网络架构的基础上通过简单地增加网络层数和深度就可以提高网络的性能。虽然简单,但是却异常的有效,在今天,VGGNet仍然被很多的任务选为基准模型。

  1. 2015年ResNet夺得冠军。

以3.57%的错误率表现超过了人类的识别水平,并以152层的网络架构创造了新的模型记录。由于ResNet采用了跨层连接的方式,它成功的缓解了深层神经网络中的梯度消散问题,为上千层的网络训练提供了可能。

  1. 2016年ResNeXt赢得分类比赛第二名。

101层的ResNeXt可以达到ResNet152的精确度,却在复杂度上只有后者的一半,核心思想为分组卷积。即首先将输入通道进行分组,经过若干并行分支的非线性变换,最后合并。在ResNet基础上,密集连接的DenseNet在前馈过程中将每一层与其他的层都连接起来。对于每一层网络来说,前面所有网络的特征图都被作为输入,同时其特征图也都被后面的网络层作为输入所利用。DenseNet中的密集连接还可以缓解梯度消失的问题,同时相比ResNet,可以更强化特征传播和特征的复用,并减少了参数的数目。DenseNet相较于ResNet所需的内存和计算资源更少,并达到更好的性能。

  1. 2017年SeNet获得了冠军。2017是ILSVRC图像分类比赛的最后一年,SeNet获得了冠军。

仅仅使用了“特征重标定”的策略来对特征进行处理,通过学习获取每个特征通道的重要程度,根据重要性去降低或者提升相应的特征通道的权重。

至此,图像分类的比赛基本落幕,也接近算法的极限。但是在实际的应用中,却面临着比比赛中更加复杂和现实的问题,如类别不均衡的分类任务,类内方差非常大的细粒度分类任务,以及包含无穷负样本的分类任务需要大家不断积累经验。

最后汇总上述论文地址以及引用量:

年份 模型名 作者 论文名 链接 引用量
Neocognitron 1980 Kunihiko Fukushima(福岛·邦彦) Neocognitron: a self-organizing neural network model for a mechanism of visual pattern recognition https://link.springer.com/article/10.1007/BF00344251 3192
TDNN 1989 A. Waibel、T. Hanazawa、G. Hinton phoneme recognition using time-delay neural networks https://www.cs.toronto.edu/~hinton/absps/waibelTDNN.pdf 2712
LeNet5 1998 Yann LecunLeon BottouY. BengioY. BengioPatrick HaffnerPatrick Haffner gradient based learning applied to document recognition http://yann.lecun.com/exdb/publis/pdf/lecun-01a.pdf 17427
AlexNet 2012 Alex Krizhevsky、Ilya Sutskever、Geoffrey E. Hinton imagenet classification with deep convolutional neural networks https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf 37662
GoogleNet 2014 Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed Going Deeper with Convolutions https://arxiv.org/abs/1409.4842 12478
VGG 2014 Karen Simonyan, Andrew Zisserman VERY DEEP CONVOLUTIONAL NETWORKSFOR LARGE-SCALE IMAGE RECOGNITION https://arxiv.org/abs/1409.1556 21057
ResNet 2015 Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun Deep Residual Learning for Image Recognition https://arxiv.org/abs/1512.03385 19999
ResNeXt 2016 Saining Xie, Ross Girshick, Piotr Dollár, Zhuowen Tu, Kaiming He Aggregated Residual Transformations for Deep Neural Networks https://arxiv.org/abs/1611.05431 812
SeNet 2017 Jie Hu, Li Shen, Samuel Albanie, Gang Sun, Enhua Wu Squeeze-and-Excitation Networks https://arxiv.org/abs/1709.01507 578

以上统计数据截止2019年4月2日.


参考文章:
1.图像与CNN发家简史,集齐深度学习三巨头
2.你真的了解图像分类吗

你可能感兴趣的:(深度学习)