通过前面两节的学习,已经知道如何搭建一个网络模型以及搭建模型一个非常重要的类nn.Module和模型容器Containers。搭建网络模型有两个基本的步骤:建立子模块和拼接子模块。建立的子模块就包括卷积层、池化层、激活层和全连接层等。所以这一节就从子模块开始。
卷积运算:卷积核在输入信号(图像)上滑动,相应位置进行乘加;
卷积层:又称为滤波器,过滤器,可以认为是某种模式,某种特征。
卷积的过程类似于用一个模版去图像上寻找与它相似的区域,与卷积模式越相似,激活值越高,从而实现特征的提取。
一般情况下,卷积核在几维上滑动就是几维卷积。
一维卷积示意图
二维卷积示意图
三维卷积示意图
卷积核(Kernel):卷积操作的感受野,直观理解是一个滤波矩阵,普遍使用的卷积核大小为3×3、5×5等;
步长(Stride):卷积核遍历特征图时每步移动的像素,如步长为1则每次移动1个像素,步长为2则每次移动2个像素(即跳过1个像素),以此类推;
填充(Padding):处理特征图边界的方式,一般有两种,一种是对边界外完全不填充,只对输入像素执行卷积操作,这样会使输出特征图的尺寸小于输入特征图尺寸;另一种是对边界外进行填充(一般填充为0),再执行卷积操作,这样可使输出特征图的尺寸与输入特征图的尺寸一致;
通道(Channel):卷积层的通道数(层数)。
如下图是一个卷积核(kernel)为3×3、步长(stride)为1、填充(padding)为1的二维卷积:
卷积的计算过程非常简单,当卷积核在输入图像上扫描时,将卷积核与输入图像中对应位置的数值逐个相乘,最后汇总求和,就得到该位置的卷积结果。不断移动卷积核,就可算出各个位置的卷积结果。如下图:
在上面的示意图中已经显示过,表示只有一个通道的卷积。如下图是一个卷积核(kernel)为3×3、步长(stride)为1、填充(padding)为0的卷积:
拥有多个通道的卷积,例如处理彩色图像时,分别对R, G, B这3个层处理的3通道卷积,如下图:
再将三个通道的卷积结果进行合并(一般采用元素相加),得到卷积后的结果,如下图:
卷积有三个维度(高度、宽度、通道),沿着输入图像的3个方向进行滑动,最后输出三维的结果,如下图:
当卷积核尺寸为1x1时的卷积,也即卷积核变成只有一个数字。如下图:
从上图可以看出,1x1卷积的作用在于能有效地减少维度,降低计算的复杂度。1x1卷积在GoogLeNet网络结构中广泛使用。
卷积是对输入图像提取出特征(可能尺寸会变小),而所谓的“反卷积”便是进行相反的操作。但这里说是“反卷积”并不严谨,因为并不会完全还原到跟输入图像一样,一般是还原后的尺寸与输入图像一致,主要用于向上采样。从数学计算上看,“反卷积”相当于是将卷积核转换为稀疏矩阵后进行转置计算,因此,也被称为“转置卷积”
如下图,在2x2的输入图像上应用步长为1、边界全0填充的3x3卷积核,进行转置卷积(反卷积)计算,向上采样后输出的图像大小为4x4
nn.ConvTranspose2d: 转置卷积实现上采样
参数和卷积运算的参数差不多。
转置卷积的尺寸计算
为扩大感受野,在卷积核里面的元素之间插入空格来“膨胀”内核,形成“空洞卷积”(或称膨胀卷积),并用膨胀率参数L表示要扩大内核的范围,即在内核元素之间插入L-1个空格。当L=1时,则内核元素之间没有插入空格,变为标准卷积。
如下图为膨胀率L=2的空洞卷积:
空洞卷积就可以理解成一个带孔的卷积核,常用于图像分割任务,主要功能就是提高感受野。也就是输出图像的一个参数,能看到前面图像更大的一个区域。
空间可分离卷积是将卷积核分解为两项独立的核分别进行操作。一个3x3的卷积核分解如下图:
分解后的卷积计算过程如下图,先用3x1的卷积核作横向扫描计算,再用1x3的卷积核作纵向扫描计算,最后得到结果。采用可分离卷积的计算量比标准卷积要少。
深度可分离卷积由两步组成:深度卷积和1x1卷积。
首先,在输入层上应用深度卷积。如下图,使用3个卷积核分别对输入层的3个通道作卷积计算,再堆叠在一起。
再使用1x1的卷积(3个通道)进行计算,得到只有1个通道的结果
重复多次1x1的卷积操作(如下图为128次),则最后便会得到一个深度的卷积结果。
完整的过程如下:
图a表示标准卷积,假设输入的特征图尺寸为Df×Df×M,卷积核尺寸为Dk×Dk×M,输出特征图的尺寸为Df×Df×N,标准卷积层的参数量为Dk×Dk×M×N。
图b表示深度卷积,图c表示分点卷积,两者合起来就是深度可分离卷积,深度卷积负责滤波,尺寸为Dk×Dk×1,共M个,作用在输入的每个通道上;逐点卷积负责转化通道,尺寸为1×1×M,共N个,作用在深度卷积的输出特征映射上。
深度卷积的参数量是Dk×Dk×1×M,逐点卷积的参数量是1×1×M×N,所以深度可分离卷积的参数量是标准卷积参数量比值是:
扁平卷积是将标准卷积核拆分为3个1x1的卷积核,然后再分别对输入层进行卷积计算。这种方式,跟前面的“空间可分离卷积”类似,如下图:
2012年,AlexNet论文中最先提出来的概念,当时主要为了解决GPU显存不足问题,将卷积分组后放到两个GPU并行执行。
在分组卷积中,卷积核被分成不同的组,每组负责对相应的输入层进行卷积计算,最后再进行合并。如下图,卷积核被分成前后两个组,前半部分的卷积组负责处理前半部分的输入层,后半部分的卷积组负责处理后半部分的输入层,最后将结果合并组合。
第一张图是标准的卷积操作,若输入的特征图的尺寸为H×W×c1,卷积核的尺寸为h1×w1×c1,输出特征图的尺寸为H×W×c2,那么标准卷积层的参数量为h1×w1×c1×c2。
第二张图代表的是分组卷积操作,将输入的特征图按通道数分为g组,则每组特征图的尺寸为H×W×(c1/g),对应的卷积核的尺寸为h1×w1×(c1/g),每组输出的特征图尺寸为H×W×(c2/g),将g组的结果拼接(concat),最终输出的特征图的尺寸为H×W×c2,此时分组卷积层的参数量是:
h1×w1×(c1/g)×(c2/g)×g=h1×w1×c1×c2×(1/g)
由此可看出分组卷积的参数量是标准卷积层的(1/g)
在分组卷积中,卷积核被分成多个组后,输入层卷积计算的结果仍按照原先的顺序进行合并组合,这就阻碍了模型在训练期间特征信息在通道组之间流动,同时还削弱了特征表示。而混洗分组卷积,便是将分组卷积后的计算结果混合交叉在一起输出。
如下图,在第一层分组卷积(GConv1)计算后,得到的特征图先进行拆组,再混合交叉,形成新的结果输入到第二层分组卷积(GConv2)中:
set_seed(3) # 设置随机种子,改变随机权值的初始化
# ================================= load img ==================================
path_img = os.path.join(os.path.dirname(os.path.abspath(__file__)), "lena.png")
img = Image.open(path_img).convert('RGB') # 0~255
# convert to tensor
img_transform = transforms.Compose([transforms.ToTensor()])
img_tensor = img_transform(img)
img_tensor.unsqueeze_(dim=0) # C*H*W to B*C*H*W
# ================================= create convolution layer ==================================
# ================ 2d
flag = 1
# flag = 0
if flag:
conv_layer = nn.Conv2d(3, 1, 3) # input:(i, o, size) weights:(o, i , h, w)
nn.init.xavier_normal_(conv_layer.weight.data)
# calculation
img_conv = conv_layer(img_tensor)
# ================================= visualization ==================================
print("卷积前尺寸:{}\n卷积后尺寸:{}".format(img_tensor.shape, img_conv.shape))
img_conv = transform_invert(img_conv[0, 0:1, ...], img_transform)
img_raw = transform_invert(img_tensor.squeeze(), img_transform)
plt.subplot(122).imshow(img_conv, cmap='gray')
plt.subplot(121).imshow(img_raw)
plt.show()
输出结果:
左边是原始图片,右边是经过二维卷积之后的图片,可以看出在色彩鲜艳的地方比较亮。改变随机种子的设置,来改变权值随机初始化值,可以看到不同的卷积权值对图像经过卷积之后的图像,如下:
通过设置不同的随机种子,可以看出不同权重的卷积核代表不同的模式,会关注图像上的不同特征,所以通过设置多个卷积核对图像的特征进行提取,就可以得到不同的特征。
另外卷积之后图像的尺寸大小:
卷积前,图像尺寸是 512✖️512, 卷积后,图像尺寸是 510✖️5510。这里的卷积核设置,输入通道 3,卷积核个数 1,卷积核大小 3,无 padding,步长是 1,根据上面的公式,输出尺寸: (512-3)/1 + 1 = 510
参考文章:
https://my.oschina.net/u/876354/blog/3064227