U-Net经典语义分割网络解读之FCN

回顾:全卷积网络

CNN能够对图片进行分类,而FCN被用来解决识别图片中特定部分的物体,解决图像语义分割这一大问题。

通常CNN网络在卷积层之后接上若干个全连接层,将卷积层产生的特征图映射成一个固定长度的特征向量,以AlexNet为代表的经典CNN结构适合于图像级的分类和回归任务,因为它们最后都期望得到整个输入图像的一个数值描述(概率),一如AlexNet的ImageNet模型输出一个1000维的向量表示输入图像属于每一类的概率(softmax归一化)

例如将cat图输入AlexNet,得到一个长为1000的输出向量,表示输入图像属于每一类的概率,在“tabby cat”这一类统计概率最高。

U-Net经典语义分割网络解读之FCN_第1张图片

而FCN对图像进行pixel-wise的分类,解决语义级别的图像分割问题,经典的CNN是卷积层+全连接层+softmax输出的阿斗固定长度的特征向量进行分类不同,FCN可以接受任意尺寸的输入图像,采用反卷积层对最后一个卷积层的feature map进行上采样,便可以恢复到输入图像相同的尺寸,从而实现对每个像素都产生了一个预测,同时保留了原始输入图像中的空间信息,最后在上采样的特征图上进行逐像素分类。

最后逐个像素进行softmax分类的损失,相当于每一个像素对应一个training sample。

U-Net经典语义分割网络解读之FCN_第2张图片

简单的说,FCN和CNN的区别在于把CNN最后的全连接层换成卷积层,输出的是一张已经label好的图片。

U-Net经典语义分割网络解读之FCN_第3张图片

CNN的强大之处在于它的多层结构能自动学习feature,并且可以学习到多个层次的特征,较浅的卷积层感知域较小,学习到一些局部区域的特征,较深的卷积层具有较大的感知域,能够学习到更加抽象一些的特征,这些抽象特征对物体的大小、位置和方向等敏感性更低,从而有助于识别性能的提高。

U-Net经典语义分割网络解读之FCN_第4张图片

抽象的特征对分类很有帮助,可以很好地判断一幅图像中包含什么类别的物体,但是丢失了物体的细节,不能很好地给出物体的具体轮廓,指出每个像素具体属于哪个物体,因此做到精确的分割就很有难度。

传统的基于CNN的分割方法,为了对一个像素分类,使用该像素周围的一个图像作为CNN的输入用于训练和预测,这种方法的缺点是:一是存储开销很大,例如每个像素使用的图像块的大小为15*15,不断滑动窗口,每次滑动的窗口给CNN进行判别分类,因此所需的存储空间根据滑动窗口的次数和大小急剧上升,二是计算效率低下,相邻的像素块基本上是重复的,针对每个像素块逐个计算卷积,这种计算也有很大程度上的重复,三是像素块大小的限制了感知区域的大小,通常像素块的大小比整幅图像的大小小很多,只能提取一些局部的特征,从而导致分类的性能受到限制。

而FCN是从抽象的特征中恢复出每个像素所属的类别,即从图像级的分类进一步延伸到像素级别的分类。

全连接层转换成卷积层

全连接层和卷积层之间唯一的不同就是卷积层中的神经元只与输入数据中的一个局部区域连接,并且在卷积列中的神经元共享参数。然而在两类层中,神经元都是计算点积,所以它们的函数形式是一样的。因此,将此两者相互转化是可能的:

  • 对于任一个卷积层,都存在一个能实现和它一样的前向传播函数的全连接层。权重矩阵是一个巨大的矩阵,除了某些特定块,其余部分都是零。而在其中大部分块中,元素都是相等的。

  • 任何全连接层都可以被转化为卷积层。比如,一个 K=4096 的全连接层,输入数据体的尺寸是 7∗7∗512,这个全连接层可以被等效地看做一个 F=7,P=0,S=1,K=4096 的卷积层。换句话说,就是将滤波器的尺寸设置为和输入数据体的尺寸一致了。因为只有一个单独的深度列覆盖并滑过输入数据体,所以输出将变成 1∗1∗4096,这个结果就和使用初始的那个全连接层一样了。

在两种变换中,将全连接层转化为卷积层在实际运用中更加有用。假设一个卷积神经网络的输入是 224x224x3 的图像,一系列的卷积层和下采样层将图像数据变为尺寸为 7x7x512 的激活数据体。AlexNet使用了两个尺寸为4096的全连接层,最后一个有1000个神经元的全连接层用于计算分类评分。我们可以将这3个全连接层中的任意一个转化为卷积层:

实际操作中,每次这样的变换都需要把全连接层的权重w重塑成卷积层的滤波器,它在下面的情况下可以更高效:让卷积网络在一张更大的输入图片上滑动,得到多个输出,这样的转化可以让我们在单个向前传输的过程中完成上述的操作。

如下图所示,FCN将传统CNN中的全连接层转化成卷积层,对应CNN网络FCN把最后三层全连接层转换成为三层卷积层。在传统的CNN结构中,前5层是卷积层,第6层和第7层分别是一个长度为4096的一维向量,第8层是长度为1000的一维向量,分别对应1000个不同类别的概率。FCN将这3层表示为卷积层,卷积核的大小 (通道数,宽,高) 分别为 (4096,1,1)、(4096,1,1)、(1000,1,1)。看上去数字上并没有什么差别,但是卷积跟全连接是不一样的概念和计算过程,使用的是之前CNN已经训练好的权值和偏置,但是不一样的在于权值和偏置是有自己的范围,属于自己的一个卷积核。因此FCN网络中所有的层都是卷积层,故称为全卷积网络。

U-Net经典语义分割网络解读之FCN_第5张图片

经过多次卷积和pooling以后,得到的图像越来越小,分辨率越来越低,其中图像到H/32*H/32的时候图片是最小的一层时,所产生的图叫做heatmap热图,热图就是我们最重要的高维特征图,得到高维特征的heatmap之后就是最重要的一步也就是最后的一步对原图像进行upsampling,把图像放大 到原图像的大小。

U-Net经典语义分割网络解读之FCN_第6张图片

最后的输出是1000张heatmap经过upsampling变为原图大小的图片,为了对每个像素进行分类预测label成最后已经进行语义分割的图像,有一个小trick,就是最后通过逐个像素地求其在1000张图像该像素位置的最大数值描述概率作为该像素的分类,因此产生了一张已经分类好的图片,

这里写图片描述

Upsampling

相较于使用被转化前的原始卷积神经网络对所有36个位置进行迭代计算,使用转化后的卷积神经网络进行一次前向传播计算要高效得多,因为36次计算都在共享计算资源。

比如,通常将一张图像尺寸变得更大,然后使用变换后的卷积神经网络来对空间上很多不同位置进行评价得到分类评分,然后在求这些分值的平均值。

最后,如果我们想用步长小于32的浮窗怎么办?用多次的向前传播就可以解决。比如我们想用步长为16的浮窗。那么先使用原图在转化后的卷积网络执行向前传播,然后分别沿宽度,沿高度,最后同时沿宽度和高度,把原始图片分别平移16个像素,然后把这些平移之后的图分别带入卷积网络。

如下图所示,图片在网络中经过处理后变成越小的图片,其特征也越明显,就想图像中颜色所示,最后一层的图片是原图像H/32*W/32。

 

U-Net经典语义分割网络解读之FCN_第7张图片

如下图所示,对原图像进行卷积conv1、pool1后原图像缩小为1/2;之后对图像进行第二次conv2、pool2后图像缩小为1/4;接着继续对图像进行第三次卷积操作conv3、pool3缩小为原图像的1/8,此时保留pool3的featureMap;接着继续对图像进行第四次卷积操作conv4、pool4,缩小为原图像的1/16,保留pool4的featureMap;最后对图像进行第五次卷积操作conv5、pool5,缩小为原图像的1/32,然后把原来CNN操作中的全连接变成卷积操作conv6、conv7,图像的featureMap数量改变但是图像大小依然为原图的1/32,此时图像不再叫featureMap而是叫heatMap。

这里写图片描述

现在我们有1/32尺寸的heatMap,1/16尺寸的featureMap和1/8尺寸的featureMap,1/32尺寸的heatMap进行upsampling操作之后,因为这样的操作还原的图片仅仅是conv5中的卷积核中的特征,限于精度问题不能够很好地还原图像当中的特征,因此在这里向前迭代。把conv4中的卷积核对上一次upsampling之后的图进行反卷积补充细节(相当于一个差值过程),最后把conv3中的卷积核对刚才upsampling之后的图像进行再次反卷积补充细节,最后就完成了整个图像的还原。

 

缺点

1、得到的结果还不够精细,进行8倍的上采样虽然比32倍效果好了很多,但是上采样的结果还是比较模糊和平滑,对细节不敏感

2、是对各个像素进行分类,没有充分考虑像素与像素之间的关系,忽略了在通常的基于像素分类的分割方法中使用的空间规整(spatial regularization)步骤,缺乏空间一致性。

 

 

 

 

你可能感兴趣的:(深度学习)