AlexNet原论文阅读笔记

文章目录

  • 前言
  • Abstract
  • Introduction
  • Dataset
  • The Architecture
      • 1. ReLU
      • 2. Training on Multiple GPUs
      • 3. Local Response Normalization
      • 4. Overlapping Pooling
      • 5. Overall Architecture
  • Reducing Overfitting
      • 1. Data Augmentation(数据增强)
      • 2. Dropout
  • Results
      • Qualitative Evaluations

前言

AlexNet原论文:link

Abstract

摘要中主要提到:①AlexNet的结构;②AlexNet使用的非饱和(non-saturating)神经元(ReLU)和GPU的合理使用加快了训练;③防止过拟合的方式:dropout。

Introduction

当前的复杂的图像识别任务需要更大的数据集,ImageNet图像的数量还不够,还得对图像进行处理后得到新图像来扩大数据集。CNN是用于图像的效果比较好的神经网络,且比起传统的feedforward neural network,它所需的参数更少,且效果不差。
AlexNet作者认为本文的贡献有:①提出一些技巧加快了训练;②由于网络过大,提出了防止过拟合的一些技巧;③AlexNet的网络层数是很好的,去掉任何一层都会使性能下降。

Dataset

ImageNet:有很多图就对了。
由于每张图的大小不一样,作者统一裁剪成256 × \times × 256的图片:首先rescale图片使得图片较短的一边长度是256,然后裁剪出中间256 × \times × 256大小的图片。

The Architecture

1. ReLU

sigmoid和tanh这两个激活函数都是saturating的,会把两边的梯度压成0,而对于ReLU,它是non-saturating的,只要input是正的,就不会发生这种情况。用ReLU可以加快训练速度。

2. Training on Multiple GPUs

因为当时的GPU内存还不够大,必须把网络存在两个GPU里,有的层需要跨GPU计算,有的不需要。这里就不具体展开了。

3. Local Response Normalization

对于sigmoid和tanh,为了防止input值过大或过小导致梯度变为0,就需要对input做normalization把input变为zero-centered(个人看cs231n的理解);而对于ReLU则不需要,因为只要input是正的,梯度就不会为0。
但文章还是提出了一种新的normalization的方式:
a x , y i a_{x,y}^{i} ax,yi 是激活函数后的output,normalization公式为:
AlexNet原论文阅读笔记_第1张图片
实验证明这样操作让准确度提高了。(现在基本没人用这个了)

4. Overlapping Pooling

传统的池化层的卷积核的步长应等于核的宽,而文章选取了小于核的宽的步长。

5. Overall Architecture

AlexNet原论文阅读笔记_第2张图片
这里最初的输入图像大小是224 × \times × 224 × \times × 3是因为经过裁剪了(后面会提到)。
前面五层均为卷积层,注意第1,2,4,5层的卷积是只在各自的GPU上做的。后面三层为全连接层,最后为softmax。

Reducing Overfitting

接下来文章讲为了防止过拟合的几个技巧。

1. Data Augmentation(数据增强)

其实就是把原有图像经过处理后来人为扩充数据集。比如:
①裁剪图像后水平翻转(论文里是裁了大小为224 × \times × 224 × \times × 3的图)。在测试的时候预测图像属于的类的方式是:分别裁剪图像的四个角落与中心的大小为224 × \times × 224 × \times × 3的图,并且水平翻转,从而得到10个inputs。然后将10个softmax的outputs的值求平均,得到最终分类结果。
②改变图像RGB每个通道的灰度值。具体实现就看论文吧。

2. Dropout

普通dropout,不展开了。想法就是将dropout看作一种集成(ensemble)的算法,集成了多个模型训练,防止了过拟合。
根据李沐的讲解,现在大家已经不太认为dropout是ensemble了,现在认为它就是一个正则项。

Results

前面的实验结果不展开讲了。

Qualitative Evaluations


最主要是右边的图。作者把倒数第二层的向量拿出来,计算欧几里得距离,从而得到相近的图片(这些图片用原图像计算欧氏距离并不是最小),这表明神经网络有效地提取了图像特征。

你可能感兴趣的:(深度学习论文阅读,论文阅读,深度学习,计算机视觉)