CNN经典论文(二)AlexNet

ImageNet Classification with Deep Convolutional Neural Networks(深度卷积神经网络的ImageNet分类)

  1. 作者:Alex Krizhevsky,Ilya Sutskever,Geoffrey E. Hinton
  2. 发表时间:2012
  3. 会议:nips
  4. 影响:赢得了ImageNet2012竞赛的冠军,开启了深度学习的狂潮
  5. 论文地址:ImageNet Classification with Deep Convolutional Neural Networks

论文简介

  1. 数据集:ImageNet
    ISLVRC 2010(ImageNet Large Scale Visual Recognition Challenge)
 	ISLVRC 2012(ImageNet Large Scale Visual Recognition Challenge)
	  训练集:1,281,167张图片+标签
	  验证集:50,000张图片+标签
	  测试集:100,000张图片
  1. 应用场景:图像分类
  2. 显卡:两块GTX 580 3GB GPU

论文思想

  1. 将2D卷积放到多GPU上并行计算,加速了训练过程。

  2. 提出了ReLU非线性修正激活函数 ReLu(x) = max(0, x),抑制梯度消失和梯度爆炸,提高网络的非线性能力,抑制过拟合。在此之前都是使用tanh函数和sigmoid函数,之后的激活函数大多都是ReLU激活函数的变体函数。

  3. 重叠池化(OverlappingPooling)
    一般池化:假设池化窗口的大小为sizeX,即下图中红色正方形的边长,定义两个相邻池化窗口的水平位移/竖直位移为stride。一般池化由于每一池化窗口都是不重复的,所以sizeX=stride。
    CNN经典论文(二)AlexNet_第1张图片
    重叠池化:重叠池化正如其名字所说的,相邻池化窗口之间会有重叠区域,此时sizeX>stride,采用重叠池化的模型,发现它更难过拟合。

  4. 减少过拟合(Reducing Overfitting)
    (1)数据增强(Data Augmentation):随机翻转,随机旋转,随机缩放等等。
    (2)Dropout:在每个训练批次中,通过忽略一半的特征检测器(让一半的隐层节点值为0),可以明显地减少过拟合现象。我们在前向传播的时候,让某个神经元的激活值以一定的概率p停止工作,这样可以使模型泛化性更强,因为它不会太依赖某些局部的特征。

  5. 训练细节:
    (1)带动量的随机梯度下降(SGD):momentum = 0.9, weight decay = 0.0005。权重更新公式:
    在这里插入图片描述

    (2)初始学习率:0.01,当验证误差在当前的学习率下停止提供时,我们遵循启发式的方法将学习率除以10,在训练停止之前降低三次。在120万图像的训练数据集上训练神经网络大约90个循环,在两个NVIDIA GTX 580 3GB GPU上花费了五到六天。
    (3)使用均值为0,标准差为0.01的高斯分布对每一层的权重进行初始化。在第2,4,5卷积层和全连接隐层将神经元偏置初始化为常量1。这个初始化通过为ReLU提供正输入加速了学习的早期阶段。我们在剩下的层将神经元偏置初始化为0。

论文结果

  1. ILSVRC-2010数据集,top-1:37.5%,top-5:17.0%
    CNN经典论文(二)AlexNet_第2张图片
  2. ILSVRC-2012数据集,top-1:37.5%,top-5:17.0%
    CNN经典论文(二)AlexNet_第3张图片

你可能感兴趣的:(CNN经典论文)