论文解析:基于深度卷积神经网络的城市遥感图像小物体语义分割及不确定性建模

一、引言

首先贴下论文链接:
http://www.cv-foundation.org/openaccess/content_cvpr_2016_workshops/w19/papers/Kampffmeyer_Semantic_Segmentation_of_CVPR_2016_paper.pdf
这是关于在城市遥感图像中用深度学习模型做语义分割,得出土地覆盖显示图的文章。为了了解本文的主要内容,首先简单看下文章摘要。


二、文章摘要

我们用深度卷积神经网络分析城市遥感图像的土地覆盖显示图。在遥感图像中,由于追求最好的全局准确率,小物体有更小的优先级,这种类别的不平衡经常会在诸如土地覆盖显示这类任务中导致问题。我们提出了一种新奇的方法,不仅得到了很高的全局准确率,也在小物体上获取了很高的准确率。遥感图像中在像素尺度上量化不确定性是另一大挑战。本文中,我们用卷积神经网络中衡量不确定性的最新成果,并从质量和数量上衡量这些成果在遥感图像上下文的表现。我们用不同的深度模型(包括基于块的模型,像素级到像素级模型及它们的结合)分类德国Vaihingen一系列土地覆盖图的每个像素,来阐述我们的想法。结果显示,我们的全局准确率为87%。对应小物体类“汽车”的F1得分为80.6%,超越了目前该数据集上的最高水平。


三、相关工作与数据集的介绍

  • CNN用于图像分割主要有两种途径。一是patch-based,通过图像中像素的邻域预测图像中的每个像素。该种方法,一般是在小的图像块上训练分类器,然后或者用滑动窗口分类所有像素,或是采用更高效的方法,将全连接层转化为卷积层以避免Overfeat: Integrated recognition, localization
    and detection using convolutional networks.论文中描述的重叠计算。用多尺度方法或循环卷积神经网络可进一步改进结果。二是使用端到端学习方法的像素级到像素级语义分割,也就是使用包含一个编码器和解码器的全卷积神经网络。编码器将图像映射到低分辨率表示,而解码器将低分辨率表示映射到对图像进行像素级理解的预测。

  • 数据集是ISPRS的Vaihingen 2D语义标签比赛数据集,其链接为http://www2.isprs.org/commissions/comm3/wg4/2d-sem-label-vaihingen.html,这里有关于数据集的一些说明。评价基准是F1评分,即2 · precision · recall/(precision + recall))。


四、具体方法

首先,做Patch-based像素级分类和pixel-to-pixel分割,这样就可以做深度分割。之后我们会详细阐述我们如何结合模型,在提升全局分割的准确率的同时,在小物体上保持很棒的分类效果,并且介绍不确定图。

4.1 Patch-based像素级分类

4.1.1 网络结构

由四个卷积层,两个全连接层组成:
第一个卷积层:32个5*5*5的卷积核以步长为1作用在65*65*5的输入图像上
第二个卷积层:64个5*5*32的卷积核
第三个卷积层:96个5*5*64的卷积核
第四个卷积层:128个5*5*96的卷积核
每个卷积层跟上ReLu非线性激活,批量归一化(batch-normalization)以及步长为1尺寸3*3的最大池化。(避免下采样并且得到更高的分辨率)。权重的初始化遵循MSRA的何恺明的论文《Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification》
两个全连接层各自有128个神经元,并且采用50%的Dropout.
最终层为5路输出的softmax层。

4.1.2 数据扩充

训练集和验证集是将每辆车作为中心抽取图像块生成的。额外的训练集通过将每个包含汽车的图像块以随机角度旋转数次。我们想要高的空间分辨率,所以不用平移扩充数据集。其他类别也从图片中随机取样,以该类别物体为中心。从每个类别中取样同样数量的训练集,来取得类别平衡。

4.1.3 全卷积分类

为了更有效的对图片进行分类,按照Sermanet的Overfeat: Integrated recognition, localization
and detection using convolutional networks.中的例子,将全连接层转换成卷积层。这避免了滑动窗口法
的计算复杂度,在滑动窗口法中重叠区域会导致大量冗余计算,并用人工设计的图片尺寸进行分类。

4.2 Pixel-to-pixel分割

受全卷积网络结构的启发,我们设计了一种端到端训练的pixel-to-pixel语义分割的网络结构。网络以256*256的图像块批量训练。(图像块的尺寸是考虑显存来选择的)

4.2.1网络结构

本文中全卷积神经网络的结构是受Simonyan and Zisserman启发,并且如图所示。
论文解析:基于深度卷积神经网络的城市遥感图像小物体语义分割及不确定性建模_第1张图片
网络结构首先是4大层相似的结构,这四大层都是两个3*3卷积层紧跟步长为2的最大池化层。除了第一个卷积层步长为2,其他卷积层步长都为1。第一个卷积层是一种设计选择,主要是考虑大图片训练时的显存限制。和patch-based网络结构一样,每个卷积层跟上ReLU非线性激活和Batch批量归一化层,权重的初始化和patch-based网络也相同。第四大层的第二个卷积层跟着的是一个1*1的卷积层,该层中每个类别对应一个核,并产生分类得分。最后,绿色层是fractional-strided卷积层(有时也称反卷积层,见论文Fully convolutional networks for semantic segmentation.),黄色层是softmax层。整个网络用Bp算法端到端训练。

4.2.2数据扩充

将输入图片以50%的重叠区域抽取,上下、左右翻转及以90度旋转,每个重叠图像块获取8个扩充图像。

4.2.3中频平衡

FCN的损失函数是交叉熵函数。该损失函数需要所有像素加和,对类别不平衡的训练集效果不好。为了考虑类别不平衡的问题,训练两个FCN网络:一个采用标准交叉熵损失函数,另一个用中频平衡(见论文A
deep convolutional encoder-decoder architecture for image
segmentation.)加权类别损失。中频平衡用训练集类别中频和实际类别频率的比率加权类别损失。修改后的交叉熵函数是:

L=1Nn=1Nc=1Cl(n)clogp^(n)cwc

N为一个mini-batch里的样本数量。
wc=median(fc|cC)fc 是类别c的权重, fc 是类别c的像素频率, p^(n)c 是样本n在类别c的softmax概率, l(n)c 对应one-hot编码时样本n的标签为c,C代表全部类别的集合。

4.3 不确定图

不确定图是对给定像素分类给出模型不确定性的图。通过从网络中有放回取样10个Monte Carlo样本,使用Monte Carlo Dropout不确定图计算全部这3个CNN,然后计算样本softmax输出的标准偏差。在论文的剩余部分,如果没有额外声明,我们认为不确定图展示了所有类别的平均标准偏差。除了不确定图,由于Monte Carlo取样始终标准权重平均技术,Monte Carlo取样也有利于提升分类准确率。

4.4 融合方法

将不同模型的softmax输出概率,训练一个一对多线性SVM,得到融合softmax概率。这里SVM的训练使用的是Liblinear。


五、实验及结果

论文分别评价了不同方法在ISPRS数据集上的表现,既衡量全局准确率,也考察了在小物体上的表现。之后考虑模型融合提升单一模型的结果。最终,我们评价了不确定图的结果。

5.1Patch-Based的结果

看图最清晰:
论文解析:基于深度卷积神经网络的城市遥感图像小物体语义分割及不确定性建模_第2张图片
值得注意的是,由于Patch-Based网络结构的本质,每一边32个像素的边界分类被忽略了。由图也可以看出,大物体的分类效果很好,但是很多检测出的车事实上并不在图像中(也就是假阳性)。除此之外,小区域的树被误分类为草地,或是极少情况被分类为楼(左下角)。不确定图展示了所有类别的平均不确定度,并且在边界和错分区域的不确定度尤其高(如左下角)。下表PB列定量显示了Patch-Based网络的结果:
论文解析:基于深度卷积神经网络的城市遥感图像小物体语义分割及不确定性建模_第3张图片
车类别的准确率最差,也就是小物体分类效果不好。

5.2Pixel-to-Pixel的结果

同样上图:
论文解析:基于深度卷积神经网络的城市遥感图像小物体语义分割及不确定性建模_第4张图片
与Patch-Based相比,效果还是要好一些。建筑的边缘更加清晰,诸如右下角的树这样的小区域也被分割的更为准确,具体的量化结果可以见表1。但是,车这一类的结果反而更差了。同样的网络结构,用中频平衡法在保持得到接近原始FCN较高全局准确率的同时,在车的判定的准确率上大大提升,但同时也有些像素被误判定为车。
从不确定图上看,对大多数建筑的像素不确定度很低,但左下角草地的不确定度依然高。

5.3模型融合的结果

结果就看表把,很清晰,可自行与上文提出的Table 1对比一下:
论文解析:基于深度卷积神经网络的城市遥感图像小物体语义分割及不确定性建模_第5张图片
融合三个模型的全局准确率最高,车类别上的表现也不错,但是右下角靠得近的车被合并成一团了,见图:
论文解析:基于深度卷积神经网络的城市遥感图像小物体语义分割及不确定性建模_第6张图片

5.4不确定图

Monte Carlo标准差和分类准确率确实有关。下图展示了单个模型准确率与不确定度的关系:
论文解析:基于深度卷积神经网络的城市遥感图像小物体语义分割及不确定性建模_第7张图片
这里通过将不确定度归一化至[0,1],丢弃平均类别不确定度不确定度高于一定阈值的像素,再衡量准确率。证明了:不确定度越低的像素被正确分类的可能性更大。
下图是设定不确定度阈值的FCN分割结果:
论文解析:基于深度卷积神经网络的城市遥感图像小物体语义分割及不确定性建模_第8张图片
设定的不确定度阈值越高,被分类的像素越少,但准确率越高。

5.5实验部署

本实验用单张titan X显卡用CAFFE实现。主要修改了两块,在训练中释放冗余资源,修改以支持中频平衡。

六、结论及讨论

先说结论吧,模型融合有助于在获取小物体高准确率的同时,仍然获得较高的全局准确率。Gal and Ghahramani提出的不确定图是遥感图像分割不确定度像素级理解的一个很好的手段。
该方案的改进展望:用条件随机场平滑最终的像素标签可以提升全局准确率,可与我们的模型结合。模型输入都是RGB,当我们有额外信息时,模型就不适用了。Lagrange et al.对不同图像提出了fine-tune separate卷积神经网络,并用SVM进行融合。这也可以和我们的工作相结合。或者用额外的数据集分类不确定像素,也可能得到更高的全局准确率。

你可能感兴趣的:(论文解析)