【学习笔记:AlexNet网络进行图像分类】

AlexNet论文下载:

论文下载

AlexNet介绍:

AlexNet是2012年ISLVRC2012竞赛的冠军网络,分类准确率由传统的70%+提升到80%+。它是由Hinton和他的学生Alex Krizhevsky设计的,在此之后,深度学习开始快速发展。

AlexNet网络结构及改进:
【学习笔记:AlexNet网络进行图像分类】_第1张图片
该网络的亮点在于:
(1)首次利用 GPU 进行网络加速训练。
(2)使用了 ReLU 激活函数,而不是传统的 Sigmoid 激活函数以及 Tanh 激活函数。
• ReLU函数(最近几年常用的激活函数):
公式:
【学习笔记:AlexNet网络进行图像分类】_第2张图片
函数曲线图:
【学习笔记:AlexNet网络进行图像分类】_第3张图片
当x<0是,relu函数具有硬饱和性;x>0,不存在饱和问题。Relu能在x>0时保持梯度不衰减
• Sigmoid 激活函数
公式:
在这里插入图片描述
函数曲线图
【学习笔记:AlexNet网络进行图像分类】_第4张图片
两侧导数逐渐趋近于0 ,具有这种性质的称为软饱和激活函数,Sigmoid函数具有软饱和性
【学习笔记:AlexNet网络进行图像分类】_第5张图片
(3)使用了 LRN 局部响应归一化。
(4)在全连接层的前两层中使用了 Dropout 随机失活神经元操作,以减少过拟合。
正向传播过程中使用Dropout的方式随机失活一部分神经元(dropout在训练时生效)
【学习笔记:AlexNet网络进行图像分类】_第6张图片
AlexNet网络结构详解
第一层:Conv1
【学习笔记:AlexNet网络进行图像分类】_第7张图片
• 输入:input_size = [224, 224, 3]
• 卷积层:
卷积核个数(kernel_num) = 48 * 2 = 96
卷积核大小(kernel_size)=11
Padding = [1,2] (左上围加半圈0,右下围加2倍的半圈0)
步长(stride) = 4
• 输出: output_size = [55, 55, 96]
经Conv1卷积后的输出尺寸计算公式:
在这里插入图片描述
o 输入图片大小 W×W(一般情况下Width=Height)
o Filter大小F×F
o 步长 S
o padding的像素数 P

第二层:MaxPool1
• 输入:input_size = [55, 55, 96]
• 池化层:(只改变尺寸,不改变深度channel)
卷积核大小(kernel_size)=3
Padding = 0
步长(stride) = 2
• 输出: output_size = [27, 27, 96]
经MaxPool1卷积后的输出尺寸计算公式:
【学习笔记:AlexNet网络进行图像分类】_第8张图片
第三层:Conv2
• 输入:input_size = [27, 27, 96]
• 卷积层:
卷积核个数(kernel_num) = 128 * 2 = 256
卷积核大小(kernel_size) = 5
Padding = [2,2]
步长(stride) = 1
• 输出: output_size = [27, 27, 256]
第四层:Maxpool2
• 输入:input_size = [27, 27, 256]
• 池化层:
卷积核大小(kernel_size)=3
Padding = 0
步长(stride) = 2
• 输出: output_size = [13, 13, 256]
第五层:Conv3
• 输入:input_size = [13, 13, 256]
• 卷积层:
卷积核个数(kernel_num) = 192* 2 = 384
卷积核大小(kernel_size) = 3
Padding = [1,1]
步长(stride) = 1
• 输出: output_size = [13, 13, 384]
第六层:Conv4
• 输入:input_size = [13, 13, 384]
• 卷积层:
卷积核个数(kernel_num) = 192* 2 = 384
卷积核大小(kernel_size) = 3
Padding = [1,1]
步长(stride) = 1
• 输出: output_size = [13, 13, 384]
第七层:Conv5
• 输入:input_size = [13, 13, 384]
• 卷积层:
卷积核个数(kernel_num) = 128* 2 = 256
卷积核大小(kernel_size) = 3
Padding = [1,1]
步长(stride) = 1
• 输出: output_size = [13, 13, 256]
第八层:Maxpool3
• 输入:input_size = [13, 13, 256]
• 池化层:
卷积核大小(kernel_size) = 3
Padding = 0
步长(stride) = 2
• 输出: output_size = [6, 6, 256]
FC1,FC2,FC3
Maxpool3 → (66256) → FC1 → 2048 → FC2 → 2048 → FC3 → 1000
最终的1000可以根据数据集的类别数进行修改。

AlexNet网络总结
【学习笔记:AlexNet网络进行图像分类】_第9张图片
本篇博文主要参考深度学习大神:
https://github.com/WZMIAOMIAO/deep-learning-for-image-processing

你可能感兴趣的:(深度学习,图像识别,python)