AlexNet--基于卷积神经网络的图像分类(经典网络)

AlexNet--基于卷积神经网络的图像分类(经典网络)

  • 一、论文研究背景、成果及意义
    • 研究背景
    • 研究成果
    • 研究意义
  • 二、论文结构
    • 摘要
    • AlexNet结构
  • 三、 训练技巧
  • 四、实验结果及分析
  • 五、 论文总结

一、论文研究背景、成果及意义

研究背景

2012 年, AlexNet 横空出世。论文全称为《ImageNet Classification with Deep Convolutional Neural Network》,从论文名字可以看出此网络主要用于图像分类,这个模型的名字来源于论⽂第一作者的姓名 Alex Krizhevsky。AlexNet 使⽤了 8 层卷积神经⽹络,并以很⼤的优势赢得了 ImageNet 2012 图像识别挑战赛冠军。
另外需要注意的是AlexNet为经典中的经典,虽然现在用的比较少但是这个网络里用到的一些网络训练技巧,及防过拟合技巧现在一直在使用,因此非常有必要学习。
ImageNet Large Scale Visual Recognition Challenge是李飞飞等人于2010年创办的图像识别挑战赛,自2010起连续举办8年,极大地推动计算机视觉发展
比赛项目涵盖:图像分类(Classification)、目标定位(Object localization)、目标检测(Object detection)、视频目标检测(Object detection from video)、场景分类(Scene classification)、场景解析(Scene parsing)
竞赛中脱颖而出大量经典模型: alexnet,vgg,googlenet,resnet,densenet等
网址:http://www.image-net.org
ILSVRC:大规模图像识别挑战赛
ImageNet 数据集包含 21841 个类别,14,197,122张图片,其通过WordNet对类别进行分组,使数据集的语义信息更合理,非常适合图像识别。
ILSVRC-2012 从ImageNet中挑选1000类的
1,200,000张作为训练集
强大计算资源 —— GPU:高性能计算资源使得大型神经网络可以快速训练

研究成果

AlexNet在ILSVRC-2012以超出第二名10.9个百分点夺冠。AlexNet--基于卷积神经网络的图像分类(经典网络)_第1张图片

研究意义

AlexNet历史意义拉开卷积神经网络统治计算机视觉的序幕,加速计算机视觉应用落地。
**应用领域:**安防领域的人脸识别、行人检测、智能视频分析、行人跟踪等,交通领域的交通场景物体识别、车辆计数、逆行检测、车牌检测与识别,以及互联网领域的基于内容的图像检索、相册自动归类等。

二、论文结构

摘要

  1. 在ILSVRC-2010的120万张图片上训练深度卷积神经网络,获得最优结果,top-1和top-5
    error分别为 37.5%, 17%
  2. 该网络(AlexNet)由5个卷积层和3个全连接层构成,共计6000万参数,65万个神经元
  3. 为加快训练,采用非饱和激活函数——ReLU,采用GPU训练
  4. 为减轻过拟合,采用Dropout
  5. 基于以上模型及技巧,在ILSVRC-2012以超出第二名10.9个百分点成绩夺冠

AlexNet结构

AlexNet--基于卷积神经网络的图像分类(经典网络)_第2张图片
AlexNet--基于卷积神经网络的图像分类(经典网络)_第3张图片
AlexNet 结构特点
ReLU Nonlinearity
Relu优点:

  1. 使网络训练更快
  2. 防止梯度消失(弥散)
  3. 使网络具有稀疏性

Local Response Normalization
局部响应标准化:有助于AlexNet泛化能力的提升
受真实神经元侧抑制(lateral inhibition)启发.
侧抑制:细胞分化变为不同时,它会对周围细胞产生抑制信号,阻止它们向相同方向分化,最终表现为细胞命运的不同。

Overlapping Pooling:有重叠部分的池化。

三、 训练技巧

Data Augmentation:数据增强。
方法一:针对位置
训练阶段:
① 图片统一缩放至256256
② 随机位置裁剪出224
224区域
③ 随机进行水平翻转
测试阶段:
① 图片统一缩放至256256
② 裁剪出5个224
224区域
③ 均进行水平翻转,共得到10张224*224图片
方法二:针对颜色
通过PCA方法修改RGB通道的像素值,实现颜色扰动,效果有限,仅在top-1提升1个点(top-1 acc约62.5%)

Dropout:随机失活
随机:dropout probability (eg:p=0.5)
失活:weight = 0
**注意事项:**训练和测试两个阶段的数据尺度变化。测试时,神经元输出值需要乘以 p

四、实验结果及分析

ILSVRC-2012 分类指标
SIFT+FVS:ILSVRC-2012 分类任务第二名。
Qualitative Evaluations 卷积核可视化
• 卷积核呈现出不同的频率、方向和颜色
• 两个GPU还呈现分工学习
AlexNet--基于卷积神经网络的图像分类(经典网络)_第4张图片
Qualitative Evaluations特征的相似性:相似图片的第二个全连接层输出特征向量的欧式距离相近
启发:
可用AlexNet提取高级特征进行图像检索、
图像聚类、图像编码

五、 论文总结

关键点
• 大量带标签数据——ImageNet
• 高性能计算资源——GPU
• 合理算法模型——深度卷积神经网络
创新点
• 采用ReLu加快大型神经网络训练
• 采用LRN提升大型网络泛化能力
• 采用Overlapping Pooling提升指标
• 采用随机裁剪翻转及色彩扰动增加数据多样性
• 采用Drpout减轻过拟合
启发点
• 深度与宽度可决定网络能力
Their capacity can be controlled by varying their depth and breadth.(1 Introduction p2)
• 更强大GPU及更多数据可进一步提高模型性能
All of our experiments suggest that our results can be improved simply by waiting for faster GPUs and bigger datasets to become available. (1 Introduction p5)
• 图片缩放细节,对短边先缩放
Given a rectangular image, we first rescaled the image such that the shorter side was of length 256, and then cropped out the central 256×256 patch from the resulting image.(2 Dataset p3)
• ReLU不需要对输入进行标准化来防止饱和现象,即说明sigmoid/tanh激活函数有必要对输入进行标准化ReLUs have the desirable property that they do not require input normalization to prevent them from saturating(3.3 LRN p1)
• 卷积核学习到频率、方向和颜色特征
The network has learned a variety of frequency- and orientation-selective kernels, as well as various colored blobs.(6.1 p1)
• 相似图片具有“相近”的高级特征
If two images produce feature activation vectors with a small Euclidean separation, we can say that the higher levels of the neural network consider them to be similar.(6.1 p3)
• 图像检索可基于高级特征,效果应该优于基于原始图像This should produce a much better image retrieval method than applying autoencoders to the raw pixels.(6.1 p4)
• 网络结构具有相关性,不可轻易移除某一层
It is notable that our network’s performance degrades if a single convolutional layer is removed.(7 Discussion p1)
• 采用视频数据,可能有新突破
Ultimately we would like to use very large and deep convolutional nets on video sequences.(7 Discussion p2)

你可能感兴趣的:(深度学习,pytorch)