LeNet论文阅读:CNN设计原理

本文是对Yann Lecun大神的经典论文“Gradient-Based Learning Applied to Document Recognition”的阅读笔记之一,主要阐述CNN为什么使用权值共享、降采样以及局部感受野。作者才疏学浅,还望指教。

传统的模式识别方法

  1. 人工设计的特征提取方法+分类器(可以是全连接神经网络)
    1.1. 图像–特征提取–>特征–分类器–>数字类别
    1.2. 缺点:需要手动设计特征提取方法,通常对于不同的问题需要不同的特征提取方法。而且效果与特征提取方法关系很大。
  2. 直接处理图像的全连接神经网络(raw input)
    2.1. 图像–全连接神经网络–>数字类别
    2.2. 缺点:
    a. 参数数量爆炸(起码与图像像素数目成正比):需要大数据集,难以收敛,容易过拟合,会超内存。
    b. 不保证对旋转以及局部扭曲的无关性,需要数字图像居中才可以得到较好的准确度(通常难以满足)。理论上全连接可以得到旋转以及局部扭曲不变性,即在不同位置都有一个相似的权值单元,但是需要大量的局部移动的训练样本)。
    c. 忽略了图像的拓扑结构,任意打乱图像的像素顺序不会影响训练结果。

CNN的设计思路

CNN的三个主要思想(局部感受野、权值共享以及降采样)就是为了弥补上诉全连接网络的三个缺点,使得网络可以保证平移、缩放、扭曲无关性。

局部感受野

局部感受野可以从大脑皮层中处理视觉的V1神经元那里得到佐证,但是不限于V1神经元的功能。通过局部感受野,第一层神经元提取图像中的诸如线点角等基本图像的特征,然后再逐步提取高层特征。
同时局部感受野可以很好的利用图像的拓扑结构,因为每个感受野里的像素点都是有空间结构的,对应全连接神经网络的缺点c

权值共享

使用权值共享的原因之一是为了引入平移以及局部扭曲无关性,因为所有感受野的权值相同,所以降低了其所在位置的影响。同时权值共享也基于在一个位置有效的特征很有可能在其他位置有效(尤其是基础特征),部分对应全连接神经网络的缺点b
通过权值共享,CNN模型的参数个数大大降低,进而降低了模型复杂度,从而减少了variance,对应全连接神经网络的缺点a

降采样

因为特征的具体位置对于图像分类问题没有任何影响,重要的是特征之间的相对位置(如图像中的数字7从左上角移到右下角,仍然是数字7,重要的是直线-点-直线之间的相对位置);甚至进一步,这种特征的精确位置对于分类问题是有害的。
降采样就是通过某种池化函数,既降低了图像的分辨率(从而减少精确的位置信息),又不损失过多的有效信息,池化函数也是权值共享的。LeNet中采用了均值后接sigmoid的池化函数,因为如今已经过时,所以作者没有对此做深入理解。
通过降采样,CNN逐渐的降低分辨率,同时增加特征表达的丰富度,极大地提高了其对图像的几何变换的无关性,对应于全连接神经网罗的缺点b
(这里作者写一些自己的理解:如果对图像做平移,那么对应于高层特征的平移(因为权值共享);如果对图像做局部旋转,小范围旋转/扭曲会被局部感受野消除,大范围扭曲会因为降采样而模糊掉其影响。)

你可能感兴趣的:(CNN)