[deeplearning-010]lenet-5论文阅读笔记

1. 论文《Gradient-Based Learning Applied to Document Recognition》 Yann LeCun et. 1998  http://yann.lecun.com/exdb/publis/index.html#lecun-98
  卷积神经网络主要用于计算机视觉,识别图像。因为图像是两维的,因此卷积神经网络的神经元也是按照两维的,以最大程度保留图像的空间特征。

2. 论文第二节
  2.1 描述
    全连接神经网络的缺点:weight太多,存储和训练的效率都不高; 不能保存图像的两维属性。
    卷积神经网络有三个架构观点:保留局部区域特征; 共享weight,减少训练参数; 时间-空间的下采样。
    local receptive field:让神经元抽取可视化特征,比如边缘,端点,角点。下一层组合这些特征以创建更高层的特征。
    对输入图像做一些变形,加入噪声,以部分子区域创建新样本参与训练,可以提升抗噪性能。
    一个卷积层,有多个单元,每个单元对输入的图像的不同部位做同样的卷积操作,因此,这些单元可以在一个图像的同一个部位抽取做个特征。
    卷积层的输出,叫feature map。
    在feature map之后,是下采样层。为什么需要下采样?因为feature map出来的特征,是跟未知坐标的精度相关的,要去掉这种相关性。如果对特征进行下采样,就可以去掉对坐标精度的相关性。

  2.2 LeNet-5的具体结构
    一共有7层。(输入层不算在内)
    输入层是32x32的图像。
    第一层:卷积层,名称C1,有6个 feature map。feature map上的每个神经元连接到输入层图像的5x5区域。需要训练的参数是(5x5+1)x6=156个。每个feature map对应一个共享的weight矩阵和一个bias,因此是5x5+1,6个feature map,所以是156个。
    第二层:下采样层,名称S2。因为它是对C1进行下采样,因此feature map数量必然跟C1是一样的,也是6个。采样的方式,是用一个2x2 filter进行非overlapping的采样。这样采样的话,会把前一层feature map的宽和高缩减到一半。因此,S1层的feature map尺寸是14x16。fileter算法如下:C1的四个像素相加,乘以一个系数,再加上bias。因此,每个feature map对应2个训练参数,6个feature map一共有12个训练参数。
    第三层:卷积层,名称C3。本层有16个 feature map。这里,一个feature map上的每个神经元,对应S2层的一个5x5邻域。注意:每个feature map只跟S2层的若干个feature map有连接,不是全连接。原因如下:减少训练参数数量; 降低神经网络对 对称性 的依赖。C3的第1~6个feature map连接到 S2的6个fearure map的3个,C3的第7~12个feature map连接到S2的6个feature map的4个,C3的第13~15feature map连接到S2的相互不连接的4个feaure map,C3的第16个feaure map连接到S3的全部6个feature map。具体的对应在论文的表1给出。C3层有1516个训练参数(不知道怎么算的,肯定不是(5*5+1)*(3*6+4*6+4*2+6)=1456)。每个feature map的尺寸是10x10。
    第四层:下采样层,名称S4,跟S2同理,16层,每个feature map尺寸是5x5。训练参数2×16=32个。
    第五层:卷积层,名称是C5。120个feature map。filter是5x5。由于S4的feature map尺寸是5x5,因此C5是特殊的卷层,类似全连接层。训练参数48120个(不知道怎么计算的,但不是(5*5+1)*16*120=49920)。
    第六层:全连接层,名称是F6。有84个神经元。训练参数(120+1)*84=10164个参数。从C1到F6,神经元的激活函数都是tangent函数。
    第七层:输出层。本层是RBF层。每个神经元是RBF函数。本层10个神经元。训练参数(84+1)*10=850个。

    

神经网络结构确定,训练是次级问题,bp或者sgd。


    

你可能感兴趣的:([deeplearning-010]lenet-5论文阅读笔记)