AlexNet——ImageNet Classification with Deep Convolutional Neural Networks

目录

  • 摘要
  • 结构
    • ReLU
    • LRN
    • Overlapping pooling
  • 训练技巧
    • Data augmentation
      • 方法一:针对位置
      • 方法二:针对颜色
    • Dropout
  • 实验结果及分析
    • Qualitative evaluations
      • 卷积可视化
      • 特征的相似性
  • 研究意义
  • 研究成果
  • 论文总结

摘要

  1. 在ILSVRC-2010上获最优结果(超出第二名10.9个百分点夺冠),top-1和top-5 error分别为37.5%,17%
  2. Alexnet由5个卷积层和3个全连接层构成,共计6000万参数,65万神经元
  3. 为加快训练采用非饱和激活函数——Relu,采用GPU训练
  4. 为减轻过拟合,采用Dropout

结构

AlexNet——ImageNet Classification with Deep Convolutional Neural Networks_第1张图片
连接情况

  • conv1 --> ReLU --> Pool --> LRN
  • conv2 --> ReLU --> Pool --> LRN
  • conv3 --> ReLU
  • conv4 --> ReLU
  • conv5 --> ReLU --> Pool

计算

  • 150528-dimensional→224×224×3(RGB为3通道)
  • 关于layers的计算:43246=128×13×13×2(2个GPU),其他层同理

AlexNet——ImageNet Classification with Deep Convolutional Neural Networks_第2张图片
卷积输出特征图:
在这里插入图片描述
连接数量计算公式:
在这里插入图片描述
6000万参数可由下得知:
AlexNet——ImageNet Classification with Deep Convolutional Neural Networks_第3张图片

ReLU

AlexNet——ImageNet Classification with Deep Convolutional Neural Networks_第4张图片

  • 使网络训练更快
  • 防止梯度消失
  • 使网络具有稀疏性

LRN

  • Local Response Normalization(局部响应标准化):有助于AlexNet泛化能力的提升,受真实神经元侧抑制(lateral inhibition)启发
  • 侧抑制:细胞分化变为不同时,它会对周围细胞产生抑制信号,阻止它们向相同方向分化,最终表现为细胞命运的不同

AlexNet——ImageNet Classification with Deep Convolutional Neural Networks_第5张图片
k,n,α,β都是常数,分母越大代表越抑制。

Overlapping pooling

  • 如果设置s=z,我们就得到了CNN中通常使用的传统局部池。如果设置s
  • 在整个网络中使用s=2和z=3。与非重叠方案s=2,z=2相比,该方案将TOP-1和TOP-5的错误率分别降低0.4%和0.3%,后者产生相等维度的输出。

训练技巧

参数过多会有过拟合问题,用以下方法来解决:

Data augmentation

方法一:针对位置

训练阶段:

  1. 图片统一缩放至256×256
  2. 随机位置裁剪出224×224区域
  3. 随机进行水平翻转

测试阶段:

  1. 图片统一缩放至256×256
  2. 裁剪出5个224×224区域(分别在左上、左下、右上、右下、中心位置)
  3. 均进行水平翻转,共得到10张224×224图片

方法二:针对颜色

通过PCA方法修改RGB通道的像素值,实现颜色扰动,效果有限,仅在top-1提升一个点(top-1 acc约为62.5%)

Dropout

Dropout即随机失活,每次输入时神经网络都会对不同的体系结构进行采样,但所有这些体系结构都会共享权重。

随机:dropout probability(eg:p=0.5)
失活:weight=0

注意事项:训练和测试两个阶段的数据尺度变化,测试时神经元输出值需要乘以p

实验结果及分析

Qualitative evaluations

卷积可视化

  • 卷积核呈现出不同的频率、方向和颜色
  • 两个GPU还呈现分工学习

特征的相似性

相似图片的第二个全连接层输出特征向量的欧式距离相近

启发:可用AlexNet提取高级特征进行图像检索、图像聚类、图像编码(这里联想到后来谷歌的FaceNet)

研究意义

  • 拉开卷积神经网络统治计算机视觉的序幕
  • 加速计算机视觉应用落地

研究成果

AlexNet——ImageNet Classification with Deep Convolutional Neural Networks_第6张图片

  • SIFT+FVS:ILSVRC-2012分类任务第二名
  • 1 CNN:训练1个AlexNet
  • 5 CNNs:训练5个AlexNet取平均值
  • 1CNN*:在最后一个池化层之后,额外添加6个卷积层,并使用ImageNet(秋)数据集上预训练
  • 7CNNs*:两个预训练微调,与5CNNs取平均值

论文总结

创新点:

  • 采用ReLU加快大型神经网络训练
  • 采用LRN提升大型网络泛化能力
  • 采用Overlapping Pooling提升指标
  • 采用随机裁剪翻转及色彩扰动增加数据多样性
  • 采用Dropout减轻过拟合(FC层)

启发点:

  • 深度与宽度可决定网络能力:Their capacity can be controlled by varying their depth and breadth.
  • 更强大GPU及更多数据可进一步提高模型性能:All of our experiments suggest that our results can be improved simply by waiting for faster GPUs and biggerdatasets to become available.
  • 图片缩放细节,对短边先缩放:Given a rectangular image, we first rescaled the image such that the shorter side was of length 256, and then cropped out the central 256×256 patch from the resulting image.
  • ReLU不需要对输入进行标准化来防止饱和现象,即说明sigmoid/tanh激活函数有必要对输入进行标准化:ReLUs have the desirable property that they do not require input normalization to prevent them from saturating.
  • 卷积核学习到频率、方向和颜色特征:The network has learned a variety of frequency- and orientation-selective kernels, as well as various colored blobs.
  • 相似图片具有“相近”的高级特征:lf two images produce feature activation vectors with a small Euclidean separation, we can say that the higher levelsof the neural network consider them to be similar.
  • 图像检索可基于高级特征,效果应该优于基于原始图像:This should produce a much better image retrieval method than applying autoencoders to the raw pixels.
  • 网络结构具有相关性,不可轻易移除某—层:lt is notable that our network’ s performance degrades if a single convolutional layer is removed.
  • 采用视频数据,可能有新突破:Ultimately we would like to use very large and deep convolutional nets on video sequences.

你可能感兴趣的:(paper,卷积,网络,深度学习,神经网络,计算机视觉)