卷积神经网络(CNN)最简单,最清晰的解释

卷积神经网络CNN及代码实现示例

一、CNN的引入
在人工的全连接神经网络中,每相邻两层之间的每个神经元之间都是有边相连的。当输入层的特征维度变得很高时,这时全连接网络需要训练的参数就会增大很多,计算速度就会变得很慢,例如一张黑白的 28×2828×28 的手写数字图片,输入层的神经元就有784个,如下图所示:
卷积神经网络(CNN)最简单,最清晰的解释_第1张图片

若在中间只使用一层隐藏层,参数 w 就有 784×15=11760784×15=11760 多个;若输入的是28×2828×28 带有颜色的RGB格式的手写数字图片,输入神经元就有28×28×3=235228×28×3=2352 个 。这很容易看出使用全连接神经网络处理图像中的需要训练参数过多的问题。
而在卷积神经网络(Convolutional Neural Network,CNN)中,卷积层的神经元只与前一层的部分神经元节点相连,即它的神经元间的连接是非全连接的,且同一层中某些神经元之间的连接的权重 w和偏移b是共享的(即相同的),这样大量地减少了需要训练参数的数量。
卷积神经网络CNN的结构一般包含这几个层:
输入层:用于数据的输入
卷积层:使用卷积核进行特征提取和特征映射
激励层:由于卷积也是一种线性运算,因此需要增加非线性映射
池化层:进行下采样,对特征图稀疏处理,减少数据运算量。
全连接层:通常在CNN的尾部进行重新拟合,减少特征信息的损失
输出层:用于输出结果
当然中间还可以使用一些其他的功能层:

归一化层(Batch Normalization):在CNN中对特征的归一化
切分层:对某些(图片)数据的进行分区域的单独学习
融合层:对独立进行特征学习的分支进行融合
卷积神经网络(CNN)最简单,最清晰的解释_第2张图片
而对于RGB格式的28×28图片,CNN的输入则是一个 3×28×28 的三维神经元(RGB中的每一个颜色通道都有一个 28×28 的矩阵),如下图所示:
卷积神经网络(CNN)最简单,最清晰的解释_第3张图片
卷积层:
在卷积层中有几个重要的概念:

local receptive fields(感受视野)
shared weights(共享权值)
假设输入的是一个 28×2828×28 的的二维神经元,我们定义5×55×5 的 一个 local receptive fields(感受视野),即 隐藏层的神经元与输入层的5×55×5个神经元相连,这个5*5的区域就称之为Local Receptive Fields,如下图所示:
卷积神经网络(CNN)最简单,最清晰的解释_第4张图片
可类似看作:隐藏层中的神经元 具有一个固定大小的感受视野去感受上一层的部分特征。在全连接神经网络中,隐藏层中的神经元的感受视野足够大乃至可以看到上一层的所有特征。
而在卷积神经网络中,隐藏层中的神经元的感受视野比较小,只能看到上一次的部分特征,上一层的其他特征可以通过平移感受视野来得到同一层的其他神经元,由同一层其他神经元来看:
卷积神经网络(CNN)最简单,最清晰的解释_第5张图片
设移动的步长为1:从左到右扫描,每次移动 1 格,扫描完之后,再向下移动一格,再次从左到右扫描。

具体过程如动图所示:
卷积神经网络(CNN)最简单,最清晰的解释_第6张图片
卷积神经网络(CNN)最简单,最清晰的解释_第7张图片
可看出 卷积层的神经元是只与前一层的部分神经元节点相连,每一条相连的线对应一个权重 ww 。

一个感受视野带有一个卷积核,我们将 感受视野 中的权重 ww 矩阵称为 卷积核 ;将感受视野对输入的扫描间隔称为步长(stride);当步长比较大时(stride>1),为了扫描到边缘的一些特征,感受视野可能会“出界”,这时需要对边界扩充(pad),边界扩充可以设为 00 或 其他值。步长 和 边界扩充值的大小由用户来定义。

卷积核的大小由用户来定义,即定义的感受视野的大小;卷积核的权重矩阵的值,便是卷积神经网络的参数,为了有一个偏移项 ,卷积核可附带一个偏移项 bb ,它们的初值可以随机来生成,可通过训练进行变化。
因此 感受视野 扫描时可以计算出下一层神经元的值为:
在这里插入图片描述
对下一层的所有神经元来说,它们从不同的位置去探测了上一层神经元的特征。

我们将通过 一个带有卷积核的感受视野 扫描生成的下一层神经元矩阵 称为 一个feature map (特征映射图),如下图的右边便是一个 feature map:
卷积神经网络(CNN)最简单,最清晰的解释_第8张图片
因此在同一个 feature map 上的神经元使用的卷积核是相同的,因此这些神经元 shared weights,共享卷积核中的权值和附带的偏移。一个 feature map 对应 一个卷积核,若我们使用 3 个不同的卷积核,可以输出3个feature map:(感受视野:5×5,布长stride:1)
卷积神经网络(CNN)最简单,最清晰的解释_第9张图片
因此在CNN的卷积层,我们需要训练的参数大大地减少到了 (5×5+1)×3=78(5×5+1)×3=78个。
假设输入的是 28×2828×28 的RGB图片,即输入的是一个 3×28×283×28×28 的的二维神经元,这时卷积核的大小不只用长和宽来表示,还有深度,感受视野也对应的有了深度,如下图所示:
卷积神经网络(CNN)最简单,最清晰的解释_第10张图片
由图可知:感受视野: 3×2×23×2×2 ; 卷积核: 3×2×23×2×2 ,深度为3;下一层的神经元的值为:b+∑2d=0∑1i=0∑1j=0wdijxdijb+∑d=02∑i=01∑j=01wdijxdij . 卷积核的深度和感受视野的深度相同,都由输入数据来决定,长宽可由自己来设定,数目也可以由自己来设定,一个卷积核依然对应一个 feature map 。

注:“stride=1”表示在长和宽上的移动间隔都为1,即 stridewidth=1 且 strideheight=1
激励层:
激励层主要对卷积层的输出进行一个非线性映射,因为卷积层的计算还是一种线性计算。使用的激励函数一般为ReLu函数:
f(x)=max(x,0)
卷积层和激励层通常合并在一起称为“卷积层”
池化层:
当输入经过卷积层时,若感受视野比较小,布长stride比较小,得到的feature map (特征图)还是比较大,可以通过池化层来对每一个 feature map 进行降维操作,输出的深度还是不变的,依然为 feature map 的个数。

池化层也有一个“池化视野(filter)”来对feature map矩阵进行扫描,对“池化视野”中的矩阵值进行计算,一般有两种计算方式:

Max pooling:取“池化视野”矩阵中的最大值
Average pooling:取“池化视野”矩阵中的平均值
扫描的过程中同样地会涉及的扫描布长stride,扫描方式同卷积层一样,先从左到右扫描,结束则向下移动布长大小,再从左到右。

代码示例:


作者:cxmscb
来源:CSDN
原文:https://blog.csdn.net/cxmscb/article/details/71023576
版权声明:本文为博主原创文章,转载请附上博文链接!

你可能感兴趣的:(卷积神经网络(CNN)最简单,最清晰的解释)