cnn-explainer解释CNN作用过程

cnn-explainer

GitHub地址:cnn-explainer
论文地址:CNN Explainer: Learning Convolutional Neural Networks with Interactive Visualization

cnn-explainer将卷积神经网络每一个步骤全部可视化出来,能够清晰地看到每一步的操作,对于初学者理解CNN原理和计算过程是非常有帮助的。

cnn-explainer实现了一个简单的10层卷积神经网络,网络结构如下:
cnn-explainer解释CNN作用过程_第1张图片
根据论文原文对此插图的说明

Illustration of Tiny VGG model used in CNN EXPLAINER: this model uses the same, but fewer, convolutional layers as the original VGGNet model . We trained it to classify 10 classes of images.

可以看出该模型结构为Tiny VGG,比原始的VGG模型更加简单,最后实现了对输入图像的10分类。

输入层

输入层图像大小为64×64@3,分为RGB三通道输入

conv_1_1

第一层卷积层,这一层使用10个卷积核,由最终输出图片大小为62×62,根据文章CNN网络的搭建中提到的计算公式可以计算出各个参数。卷积核大小应为3×3,步长为1,因为使用了10个卷积核,最后得到10个特征图。

在这里,我们选择意式咖啡(espresso)的图片,然后跟踪一个卷积核来查看卷积提取特征的过程

可以非常直观的看到图片RGB三通道经过一个卷积核提取特征生成特征图的过程:将三通道分别经过卷积核计算得到的结果累加后再加上bias,如果继续点击通道图片,可以更加详细地查看计算过程

cnn-explainer解释CNN作用过程_第2张图片
卷积核大小为3×3,与我们之前计算结果一致。

relu_1_1

激活函数,不做详细介绍,这里使用ReLu函数,计算过程如下
cnn-explainer解释CNN作用过程_第3张图片
可以看到,遇到非负值时,输出不变,当遇到负值时,输出为0,符合ReLu计算过程,最终输出维度不变,仍为62×62@10.

conv_1_2

第二层卷积层,输出特征图大小为60×60,深度仍为10不变,则说明卷积核为10个,计算可得卷积核大小为3×3,步长为1,这里与conv_1_1基本相同,区别在于这里的输入是经过conv_1_1和relu_1_1处理后的深度为10的62×62的图像,所以在卷积运算时要分别对10个维度的数据分别计算后累加再加上bias才能得到结果。

relu_1_2

激活函数,与relu_1_1作用相同,输出仍为60×60@10,不做展示。

max_pool_1

第一层池化层。
卷积神经网络中池化层的作用可以总结为以下几点

  1. 特征不变性(feature invariant)
    汇合操作使模型更关注是否存在某些特征而不是特征具体的位置
    可看作是一种很强的先验,使特征学习包含某种程度自由度,能容忍一些特征微小的位移
  2. 特征降维
    由于汇合操作的降采样作用,汇合结果中的一个元素对应于原输入数据的一个子区域(sub-region),因此汇合相当于在空间范围内做了维度约减(spatially dimension reduction),从而使模型可以抽取更广范围的特征,同时减小了下一层输入大小,进而减小计算量和参数个数
  3. 在一定程度上能防止过拟合的发生

简单来说,将卷积层的作用概括为提取图像特征,那么池化层的主要作用就是保留显著特征、降低特征维度,即压缩特征

在这里,池化层使用最大池化(Max pooling)的方法,从项目中可以看到,输入数据经过池化层后输出为30×30,深度为10,则推断出卷积核大小为2×2,步长为2,下面进一步查看池化过程。

cnn-explainer解释CNN作用过程_第4张图片
从这下面这张图片可以更为明显地看出,在一次池化后图像特征被较完整的保留下来,同时降低了维度。

cnn-explainer解释CNN作用过程_第5张图片

在这一层之后,还有两个卷积层(conv_2_1、conv_2_2),每次卷积操作后均有一次relu操作,然后会对结果再次池化,最终输出张量为13×13@10,并对这个结果做展平后送入全连接层。

cnn-explainer解释CNN作用过程_第6张图片

根据13×13@10这个结果维度,可以计算出每批次张量展平后的维度应为13×13×10 = 1690,将展平后结果送入全连接层,全连接层的输入维度为1690,输出维度应为10,最后经过softmax函数将多次提取、压缩得到的特征进行分类得到10分类的概率
cnn-explainer解释CNN作用过程_第7张图片
我们选择的图片是意式咖啡(espresso),从上图可以看到最后意式咖啡(espresso)计算出的概率也是最大的,为0.8808。

最后分类结果为espresso
cnn-explainer解释CNN作用过程_第8张图片

你可能感兴趣的:(深度学习,卷积神经网络)