Alexnet网络模型介绍

1、概述

      AlexNet是2012年ImageNet竞赛冠军获得者Hinton和他的学生Alex Krizhevsky设计的。也是在那年之后,更多的更深的神经网路被提出,比如优秀的VGG,GoogleNet,resnet。其官方提供的数据模型,准确率达到57.1%,top-5 达到80.2%. 这项对于传统的机器学习分类算法而言,已经相当的出色。
      论文原文:http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf

2、网络结构

整体结构为:
Alexnet网络模型介绍_第1张图片
精简版的结构可表示为:

                                                                                      Alexnet网络模型介绍_第2张图片

各层的详细描述:

(1)conv1阶段

      输入数据:227×227×3

      卷积核:11×11×3;步长:4;数量(也就是输出个数):96
      卷积后数据:55×55×96 (原图N×N,卷积核大小n×n,卷积步长大于1为k,输出维度是(N-n)/k+1)
      relu1后的数据:55×55×96
      Max pool1的核:3×3,步长:2
      Max pool1后的数据:27×27×96
      norm1:local_size=5 (LRN(Local Response Normalization) 局部响应归一化)
      最后的输出:27×27×96

      AlexNet采用了Relu激活函数,取代了之前经常使用的S函数和T函数,Relu函数也很简单:

      ReLU(x) = max(x,0)

      AlexNet另一个创新是LRN(Local Response Normalization) 局部响应归一化,LRN模拟神经生物学上一个叫做 侧抑制(lateral inhibitio)的功能,侧抑制指的是被激活的神经元会抑制相邻的神经元。LRN局部响应归一化借鉴侧抑制的思想实现局部抑制,使得响应比较大的值相对更大,提高了模型的泛化能力。LRN只对数据相邻区域做归一化处理,不改变数据的大小和维度。LRN概念是在AlexNet模型中首次提出,在GoogLenet中也有应用,但是LRN的实际作用存在争议,如在2015年Very Deep Convolutional Networks for Large-Scale Image Recognition 论文中指出LRN基本没什么用。

      AlexNet还应用了Overlapping(重叠池化),重叠池化就是池化操作在部分像素上有重合。池化核大小是n×n,步长是k,如果k=n,则是正常池化,如果 k

(2) conv2阶段

      输入数据:27×27×96

      卷积核:5×5;步长:1;数量(也就是输出个数):256
      卷积后数据:27×27×256 (做了Same padding(相同补白),使得卷积后图像大小不变。)
      relu2后的数据:27×27×256
      Max pool2的核:3×3,步长:2
      Max pool2后的数据:13×13×256 ((27-3)/2+1=13 )
      norm2:local_size=5 (LRN(Local Response Normalization) 局部响应归一化)
      最后的输出:13×13×256

      在AlexNet的conv2中使用了same padding,保持了卷积后图像的宽高不缩小。

(3)conv3阶段

      输入数据:13×13×256

      卷积核:3×3;步长:1;数量(也就是输出个数):384
      卷积后数据:13×13×384 (做了Same padding(相同补白),使得卷积后图像大小不变。)
      relu3后的数据:13×13×384
      最后的输出:13×13×384

      conv3层没有Max pool层和norm层

(4)conv4阶段

      输入数据:13×13×384

      卷积核:3×3;步长:1;数量(也就是输出个数):384
      卷积后数据:13×13×384 (做了Same padding(相同补白),使得卷积后图像大小不变。)
      relu4后的数据:13×13×384
      最后的输出:13×13×384

      conv4层也没有Max pool层和norm层

(5)conv5阶段

      输入数据:13×13×384

      卷积核:3×3;步长:1;数量(也就是输出个数):256
      卷积后数据:13×13×256 (做了Same padding(相同补白),使得卷积后图像大小不变。)
      relu5后的数据:13×13×256
      Max pool5的核:3×3,步长:2
      Max pool2后的数据:6×6×256 ((13-3)/2+1=6 )
      最后的输出:6×6×256

      conv5层有Max pool,没有norm层

(6)fc6阶段

      输入数据:6×6×256

      全连接输出:4096×1
      relu6后的数据:4096×1
      drop out6后数据:4096×1
      最后的输出:4096×1

      AlexNet在fc6全连接层引入了drop out的功能。dropout是指在深度学习网络的训练过程中,对于神经网络单元,按照一定的概率(一般是50%,这种情况下随机生成的网络结构最多)将其暂时从网络中丢弃(保留其权值),不再对前向和反向传输的数据响应。注意是暂时,对于随机梯度下降来说,由于是随机丢弃,故而相当于每一个mini-batch都在训练不同的网络,drop out可以有效防止模型过拟合,让网络泛化能力更强,同时由于减少了网络复杂度,加快了运算速度。还有一种观点认为drop out有效的原因是对样本增加来噪声,变相增加了训练样本。

(7)fc7阶段

      输入数据:4096×1
      全连接输出:4096×1
      relu7后的数据:4096×1
      drop out7后数据:4096×1
      最后的输出:4096×1

(8)fc8阶段

      输入数据:4096×1
      全连接输出:1000
      fc8输出一千种分类的概率。

3、AlexNet与在其之前的神经网络相比改进

(1)数据增广(Data Augmentation增强)

      常用的数据增强的方法有 水平翻转、随机裁剪、平移变换、颜色、光照、对比度变换。 增强图片数据集最简单和最常用的方法是在不改变图片核心元素(即不改变图片的分类)的前提下对图片进行一定的变换,比如在垂直和水平方向进行一定的平移,翻转等。

      AlexNet用到的第一种数据增益的方法:是原图片大小为256 * 256中随机的提取224 * 224的图片,以及他们水平方向的映像。

      第二种数据增益的方法就是在图像中每个像素的R、G、B值上分别加上一个数,用到 方法为PCA。对于图像每个像素,增加以下量 :
                                                                     在这里插入图片描述

      pi 是特征向量,λi是特征值,αi是N(0,0.1)高斯分布中采样得到的随机值。此方案名义上得到自然图像的重要特性,也就是说,目标是不随着光照强度和颜色而改变的。此方法将top-1错误率降低了1%。

(2) Dropout
      有效防止过拟合。结合多个模型的预测值是减少错误的有效方法,但是对于训练时间用好几天的大型神经网络太耗费时间。Dropout是有效的模型集成学习方法,具有0.5的概率将隐藏神经元设置输出为0。运用了这种机制的神经元不会干扰前向传递也不影响后续操作。因此当有输入的时候,神经网络采用不同的结构,但是这些结构都共享一个权重,这就减少了神经元适应的复杂性。测试时,用0.5的概率随机失活神经元。dropout减少了过拟合,也使收敛迭代次数增加一倍。

(3) Relu激活函数

      用ReLU代替了传统的simod或者T激活函数,使得训练更快。一般神经元的激活函数会选择sigmoid函数或者tanh函数,然而Alex发现在训练时间的梯度衰减方面,这些非线性饱和函数要比非线性非饱和函数慢很多。在AlexNet中用的非线性非饱和函数是f=max(0,x),即ReLU。实验结果表明,要将深度网络训练至training error rate达到25%的话,ReLU只需5个epochs的迭代,但tanh单元需要35个epochs的迭代,用ReLU比tanh快6倍。

(4)Local Response Normalization 局部响应归一化

      参考了生物学上神经网络的侧抑制的功能,做了临近数据归一化,提高来模型的泛化能力。ReLU本来是不需要对输入进行标准化,但本文发现进行局部标准化能提高性能。
                                                      Alexnet网络模型介绍_第3张图片

      其中a代表在feature map中第i个卷积核(x,y)坐标经过了ReLU激活函数的输出,n表示相邻的几个卷积核。N表示这一层总的卷积核数量。k, n, αβ是hyper-parameters,他们的值是在验证集上实验得到的,其中k = 2,n = 5,α = 0.0001,β = 0.75。这种归一化操作实现了某种形式的横向抑制,这也是受真实神经元的某种行为启发。

(5)Overlapping Pooling 重叠池化
      重叠池化减少了系统的过拟合,分别将top-5和top-1的错误率减少了0.4%和0.3%。pooling层是相同卷积核领域周围神经元的输出。池化层可以被认为是由间隔s个像素的池化单元网格组成,每个池化单元概括了以池化单元的位置为中心的大小z×z的邻域。然而,Alex说还有的情况,也就是带交叠的Pooling,顾名思义这指Pooling单元在总结提取特征的时候,其输入会受到相邻pooling单元的输入影响,也就是提取出来的结果可能是有重复的(对max pooling而言)。而且,实验表示使用 带交叠的Pooling的效果比的传统要好,在训练阶段有避免过拟合的作用。

(6)多GPU并行训练

      AlexNet将网络分成了上下两部分,两部分的结构完全一致,这两部分由两块不同的GPU来训练,提高了训练速度。为提高运行速度和提高网络运行规模,作者采用双GPU的设计模式。并且规定GPU只能在特定的层进行通信交流。其实就是每一个GPU负责一半的运算处理。与在一个GPU上训练的每个卷积层有一半核的网络比较,该方案将我们的top-1与top-5误差率分别减少了1.7%与1.2%。值得注意的是,虽然one-GPU网络规模只有two-GPU的一半,但其实这两个网络其实并非等价的。

Alexnet模型代码参考:

  • github代码:https://github.com/stephen-v/tensorflow_alexnet_classify
  • 对应上述的github代码详解:https://www.cnblogs.com/vipyoumay/p/7686230.html
  • github代码2:https://github.com/kratzert/finetune_alexnet_with_tensorflow(不过没有验证模型代码,模型构建和训练跟上述基本一致)

其他可学习链接:

  • AlexNet详细解读(本文第三部分描述参考来源):https://blog.csdn.net/qq_24695385/article/details/80368618
  • Alexnet解读:https://blog.csdn.net/u014135752/article/details/79978097
  • Alexnet原文翻译:https://blog.csdn.net/hit2015spring/article/details/53649183

你可能感兴趣的:(深度学习)