计算机视觉经典论文阅读系列1--AlexNet

计算机视觉经典论文-CNN

经典论文的框架听完相关的课程,还是记不住/(ㄒoㄒ)/~~
从论文入手,重新整理一遍
争取保证1周一篇,3月底之前完成
计算机视觉经典论文阅读系列1--AlexNet_第1张图片
AlexNet:《ImageNet Classification with Deep Convolutional
Neural Networks》

摘要

  • 在ImageNet LSVRC-2010和2012比赛中比之前的方法提升较多。
  • 网络有6000万参数和65万个神经元,5个卷积层(其中一些层后面是max-pooling层),3个全连接层,及1000-way 的softmax
  • 应用非饱和神经元(待补充)和GPU实现卷积运算,加快训练速度
    计算机视觉经典论文阅读系列1--AlexNet_第2张图片

具体参考https://blog.csdn.net/zeronose/article/details/108939613

  • 应用“dropout”正则化方法,减少全连接层中的过拟合

介绍

  • 简单的识别任务在小的数据集和小模型上已经得到很好的解决,如MNIST数据集中数据识别的错误率已经很低(<0.3%),但现实环境中的物体会表现出相当大的可变性,要识别它们,有必要使用更大的训练集。
  • 学习ImageNet这么大的数据集需要容量更大的模型
  • CNN可以通过改变深度和广度来控制模型容量,并且与前馈神经网络相比,连接和参数更小,训练也更容易

数据集

  • ImageNet是一个包含超过1500万张标记高分辨率图像的数据集,属于大约22000个类别,图片自网上收集获得。
  • 从2010年开始,一年一度的ImageNet大规模视觉识别挑战赛(ILSVRC)已经举行,比赛使用数据集中的一个子集,包含1000个类别,每个类别约1000张图像,共计约120万张训练图像,5万张验证和15万张测试
  • 数据处理:模型输入维数固定,在模型前面将分辨率不同的图片采样到256×256的固定分辨率。将图像的短边缩放至256,裁剪图像中央256×256(比较常用的图像处理方式)

网络架构

(1) Relu

在梯度下降训练中,饱和非线性(如f(x)=tanh(x)和f(x) = (1 + e−x)−1)比非饱和非线性(f(x)=max(0,x))慢的多。
对于特定的四层卷积网络,在CIFAR-10数据集上达到25%训练误差所需的迭代次数。如果我们使用传统的饱和神经元模型,我们将无法用如此大的神经网络进行这项工作的实验。实线为relu,虚线为tanh
计算机视觉经典论文阅读系列1--AlexNet_第3张图片

(2)多GPU训练

与现在常用的数据并行方法不同,论文提出的并行方案本质上是将网络一半的神经元放在每个GPU上,然后在特定的层进行通信

(3)局部响应归一化

据说现在几乎不用,没细看

(4)重叠池化

滑窗步幅小于池化核的大小,论文用这个技巧获得了更低的错误率

(5)总架构

论文中网络架构

计算机视觉经典论文阅读系列1--AlexNet_第4张图片
简化后架构
计算机视觉经典论文阅读系列1--AlexNet_第5张图片

减少过拟合

(1)数据增强

论文应用1.图像平移和水平反射方法(实际上图像数据增强还有较多的方法);2.改变训练图像中RGB通道的强度
图像平移:从256×256的图像的四角和中心提取5个224×224
水平反射:在图像平移的基础上的水平反射
相当于原先的一个样本经过数据增强编程10个样本

(2)dropout

以一定的概率将每个隐藏神经元的输出设置为零。被“丢弃”的神经元不参与正向传递,也不参与反向传播。
次方法可以减少神经元复杂的协同适应,网络被迫学习更健壮的特征,这些特征与其他神经元的许多不同随机自己相结合是有用的。
论文取0.5

训练细节

  • 随机梯度下降优化算法,batch=128,动量=0.9,权重衰减=0.0005。(权重衰减可以正则化作用,同时可以减少训练误差)
  • 权重初始化:应用零均值高斯分布初始化每一层权重,标准差为0.01;应用常数1初始化了第二层、第四层和第五层卷积层以及全连接隐藏层中的bias(这样的初始化结合relu,可以加速初期训练);其他层bias用0初始化。
  • 学习率:网络应用统一的学习率,手动调整。当验证机错误率不再随着当前学习率提高时,将学习率/10。论文初始学习率0.01,到训练完成共下降3次。

讨论

去掉架构中一个卷积层,网络性能会下降。
也有大佬提到通过模型调优,网络性能未必会下降。

你可能感兴趣的:(计算机视觉,论文阅读,深度学习)