深度学习入门课笔记(二)

目录

卷积神经网络

卷积神经网络发展史

猫的视觉系统实验

第一个卷积神经网络雏形——新认知机

第一个大规模商用卷积神经网络——Lenet—5

第一个技惊四座的卷积神经网络——Alexnet

卷积层

 池化层

Lenet-5


卷积神经网络

卷积神经网络发展史

猫的视觉系统实验

1.神经元存在局部感受区域(感受野)

2.细胞对角度有选择性

3.细胞对运动方向有选择性

启发:

视觉系统是分层、分级的进行处理,从低级到高级的抽象过程\rightarrow堆叠使用卷积和池化

神经元实际上是存在局部的感受区域的(局部敏感)\rightarrow神经元局部连接

第一个卷积神经网络雏形——新认知机

具有层级结构的神经网络

缺点:无反向传播算法更新权值,模型性能有限

第一个大规模商用卷积神经网络——Lenet—5

缺点:无大量数据和高性能计算资源

第一个技惊四座的卷积神经网络——Alexnet

2012年,AlexNet获得ILSVRC分类任务冠军,拉开了卷积神经网络统治图像领域序幕。

卷积层

补充:图像识别特点:特征具有局部性、特征可能出现在任何位置、下采样图像不会改变图像目标

深度学习入门课笔记(二)_第1张图片

 如上图所示,有两种连接方式:全连接(左)、局部连接(右)

深度学习入门课笔记(二)_第2张图片

 卷积核:具可学习参数的算子,用于对输入图像进行特征提取,输出通常称为特征图

填充:在输入图像的周围添加额外的行列

  •  作用:使卷积后图像分辨率不变,方便计算特征图像尺寸的变化,弥补边界信息“丢失”       

 步幅: 卷积核滑动的行数和列数称为步幅,控制输出特征图的大小,会被缩小1/s倍  

输出特征图尺寸计算:

                            F_{0}=\left \lfloor \frac{F_{in}-k+2p}{s} +1\right \rfloor

深度学习入门课笔记(二)_第3张图片                                                                                           

 多通道卷积:RGB图像是3*h*w的三维的数据。第一个维度3,表示channel通道数,一个卷积核是3-D张量,第一个维与输入通道有关

具体计算方法示例如下图

深度学习入门课笔记(二)_第4张图片

 池化层

池化:一个像素表示一块区域的像素值,降低图像分辨率

一块区域像素如何被一个像素代替?

法1:Max Pooling,取最大值

法2:Average Pooling,取平均值

深度学习入门课笔记(二)_第5张图片

 池化层是一种特殊的卷积层。

池化作用:1.缓解卷积层对位置的过度敏感

                  2.减少冗余

                  3.降低图像分辨率,从而减少参数量

Lenet-5

深度学习入门课笔记(二)_第6张图片

 共有七层,每层有多个Feature Map,每个Feature Map有多个神经元

1、INPUT(输入层)

2、C1层(卷积层)

3、S2层-池化层(下采样层)
      输入:28*28
      采样区域:2*2
      采样方式:4个输入相加,乘以一个可训练参数,再加上一个可训练偏置。结果通过sigmoid
      采样种类:6
      输出featureMap大小:14*14(28/2)
      神经元数量:14*14*6
      可训练参数:2*6(和的权+偏置)
      连接数:(2*2+1)*6*14*14

4、C3层-卷积层
       输入:S2中所有6个或者几个特征map组合
      卷积核大小:5*5
      卷积核种类:16
      输出featureMap大小:10*10 (14-5+1)=10
5、S4层-池化层(下采样层)
       输入:10*10
       采样区域:2*2
      采样方式:4个输入相加,乘以一个可训练参数,再加上一个可训练偏置。结果通过sigmoid
      采样种类:16
      输出featureMap大小:5*5(10/2)
      神经元数量:5*5*16=400
      可训练参数:2*16=32(和的权+偏置)
      连接数:16*(2*2+1)*5*5=2000
      S4中每个特征图的大小是C3中特征图大小的1/4
6、C5层-卷积层
     输入:S4层的全部16个单元特征map(与s4全相连)
     卷积核大小:5*5
     卷积核种类:120
     输出featureMap大小:1*1(5-5+1)
     可训练参数/连接:120*(16*5*5+1)=48120
7、F6层-全连接层
8、Output层-全连接层
 

你可能感兴趣的:(笔记,深度学习,人工智能,计算机视觉)