论文笔记--ImageNet Classification with Deep Convolutional Neural Networks

ImageNet Classification with Deep Convolutional Neural Networks

AlexNet–深度学习奠基作之一

摘要

训练了一个既大又深的深度卷积神经网络模型去在120万张高分辨率的图片上做1000类的分类任务。模型共有5个卷积层,其中一些之后有max-pooling层,有3个全连接层和最后的1000个头的softmax。

  • 使训练更快,使用非饱和神经元和两个GPU训练
  • 防止全连接层过拟合,使用dropout正则化方法

1 介绍

首先介绍了当时的背景,GPU的算力、更大的数据集出现等等。接着总结了本文的四个贡献:

  • 在ImageNet的子集上训练了最大的深度卷积神经网络
  • 编写了二维卷积和训练卷积神经网络的所有其他操作的GPU实现
  • 模型中提出了许多新的和不寻常的方法,提高模型的性能并缩短训练时间
  • 使用有效的方法解决过拟合的问题

受GPU内存的影响,作者在两块GPU上训练的该模型

2 数据集

介绍了ImageNet模型,并且指出我们模型的训练直接利用图像中的原始RGB像素(而不是像之前需要先提取图片的特征)

3 模型架构

论文笔记--ImageNet Classification with Deep Convolutional Neural Networks_第1张图片

分为两个GPU去做,共有8个可以学习的层,5个卷积层和3个全连接层

3.1 ReLU非线性

tanh和sigmoid这些饱和的非线性比非饱和的非线性ReLU训练起来要慢,为了提速选择ReLU

  • 现在来看,随着各项技术的进步,ReLU的速度并没有比其他快多少,但仍旧因为简单而使用广泛

3.2 在多个GPU上训练

3.3 局部使用normalization(归一化)

ReLU有一个很好的性质是不需要输入归一化来防止饱和,但是在我们还是在模型层的ReLU之后进行了normalization来防止饱和

3.4 Overlapping Pooling

重叠的池化层

4 减少过饱和

4.1 数据增强

通过对原始数据的细微变化来扩充数据集

4.2 dropout

放在了前两个全连接层上,如果没有dropout过拟合很严重

  • 隐藏层神经元的输出有50%的概率设为0
  • 作者进行这步的思路是想做多模型融合,因为当部分结果输出为0时相当于得到了一个新的模型再对模型进行调整。但现在的研究表明dropout在现行模型上是等价一个L2正则项(是一个正则的效果)

5 学习的细节

  • 使用SGD优化算法
  • 参数的初始化使用标准偏差为0.01的零均值高斯分布
  • 手动下降学习率

6 结果

论文笔记--ImageNet Classification with Deep Convolutional Neural Networks_第2张图片

不仅分类的效果好,用图片去检索相似图片(如上图右)的效果也非常好,这说明模型学习出来的向量在语义空间的表示很好,相似的会放在一起(距离近)。

7 讨论

  • 既大又深的深度卷积神经网络在很大的数据集上仅使用监督训练取得了突破性的结果,但是倘若移走模型中的任一层,模型的性能将会下降很多。
  • 为了简化模型,没有使用无监督的预训练。作者希望可以将该模型运用到video上,因为其相比于图像多了时序信息

原文链接:https://papers.nips.cc/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf

你可能感兴趣的:(人工智能,深度学习,神经网络,人工智能)