【阅读笔记】ImageNet Classification with Deep Convolutional Neural Networks

文献名:ImageNet Classification with Deep Convolutional Neural Networks

文献出处 https://doi.org/10.1145/3065386 作者单位 University of Toronto
作者 Alex Krizhevsky、Ilya Sutskever、Geoffrey E. Hinton
索引情况 9707(截止22.02.27)

研究动机

作者训练了一个深度卷积网络(AlexNet),完成LVSRC-2010竞赛的1000个图片类别的分类。

相关研究工作介绍

引用文献[16,8,9,12,23等]说明大量数据集的重要性;
[16,11,13,18等]说明模型大小,即深度(网络层数)和宽度(卷积核数)的重要性。
在局部反应归一化中,提到文献[11]的loacl contrast归一化;
在解决过拟合问题时,也引用了[17,25,4等]文献说明池化和数据重用的普遍性。

本文关键内容介绍

1、数据预处理:将图像中每个像素值减去整个训练集所有图像同一位置处的像素均值。
2、网络架构:

【阅读笔记】ImageNet Classification with Deep Convolutional Neural Networks_第1张图片

3、作者在四层的CNN分别用tanh和ReLU训练,发现在train error rate曲线图上,到达相同的train error rate,tanh比ReLU慢6倍。
4、用2个GPU训练,作者说训练时间相比用一个GPU少一点,那用2个的目的就是为了cover所有的训练数据?
5、为了更好地泛化,作者使用了Local Response Normalization,这个操作模型在Cifar10(四层CNN)和 ImageNet数据集(AlexNet)上准确率有提高。这是一种根据附近n/2个通道在同一个位置的像素来做局部像素值规范化的方法,计算第j个通道在 x,y 位置上局部响应规范化后的值bix,y的计算公式如下:ajx,y 是第j个通道上 x,y 位置上的ReLU激活值。n,k,α,β 都是超参数,根据一组validation set得到n=5,k=2,α=10−4,β=0.75,N 是这个feature map总的通道个数。
6、使用重叠池化。
7、为了减少过拟合,采用2种方法:
第一种是采取图像四个角和中心的5个子图,然后左右翻转变为10个图像分别就softmax,取均值。
第二种方式是改变图像上RGB通道的像素强度值(加噪声,带来的优势是top1错误率降低1%),大概流程是:计算原始图像的协方差矩阵,根据协方差矩阵计算特征值和特征向量,在特征值前加入噪声系数(服从均值为0,标准差为0.1的高斯分布,然后复原回原始图像,得到加了噪声的图像)。
8、使用dropout。

实验和结果分析

1、AlexNet架构计算过程:

【阅读笔记】ImageNet Classification with Deep Convolutional Neural Networks_第2张图片

2、权重初始化:每层权重根据均值为0标准差为0.01的高斯分布初始化,第二、第四、第五层卷积和全连接层的bias初始化为常数1,剩下所有层的bias初始化为0。这种初始化有助于早期阶段正样本的学习的加速。
3、优化算法:

【阅读笔记】ImageNet Classification with Deep Convolutional Neural Networks_第3张图片

4、特征抓取:两个GPU训练得到的卷积核侧重点不同,上面偏重对网络线条、方向的学习,下面偏重对颜色和方向的学习。

【阅读笔记】ImageNet Classification with Deep Convolutional Neural Networks_第4张图片

总结和疑问

总结:AlexNet网络有6千万参数、65万神经元,结构为五层卷积,某些卷积层后接max-pooling层,后接三个全连接层,完成了2010年的ImageNet分类比赛的任务(LVSRC-2010),将120万张高分辨率的图片分为1000个类别。
疑问:用2个GPU训练,作者说训练时间相比用一个GPU少一点,那用2个的目的就是为了cover所有的训练数据?
Dropout部分,不同架构怎么共享权重?这个技术减少了神经元间的复杂协同适应性,这个说法感觉论证不够。
  1. 值得关注的参考文献列表
    [1] https://blog.csdn.net/zziahgf/article/details/79619059
    [2] https://blog.csdn.net/sun_28/article/details/52134584
    [3] https://baike.baidu.com/item/AlexNet/22689612

补充知识:

1、卷积中的特征图大小计算方式有两种,分别是‘VALID’和‘SAME’,卷积和池化都适用,卷积除不尽的结果都向下(小)取整,池化除不尽的结果都向上(大)取整。如果计算方式采用’VALID’,则:
在这里插入图片描述
在这里插入图片描述

其中 为输出特征图的大小, 为输入特征图的大小,F为卷积核大小,stride为卷积步长。当采用’SAME’时,输出特征图的大小与输入特征图的大小保持不变,kernel_size=1时,padding=0;kernel_size=3时,padding=1;kernel_size=5时,padding=3,以此类推。
2、
【阅读笔记】ImageNet Classification with Deep Convolutional Neural Networks_第5张图片
【阅读笔记】ImageNet Classification with Deep Convolutional Neural Networks_第6张图片

你可能感兴趣的:(文献笔记,深度学习,cnn,计算机视觉)