《Fully Convolutional Network for Semantic Segmentation》的阅读分享

《Fully Convolutional Network for Semantic Segmentation》这篇文章是cvpr2015年关于利用全卷积网络做语义分割的一篇文章。这也是我阅读的关于深度学习方面的第一篇paper;

本文的创新点是提出一种Full Convolutional Network的方法对任意size的输入利用有效的推理和学习产生相应尺寸的输出,并解释了它在对空间像素点预测上任务的应用。作者利用当前的分类网络(AlexNet,the VGG net and GoogLeNe)在Full Convolutional Network在上进行了学习和微调(fine-tuning)进行语义的分割,然后定义了一种新颖的architecture——“skip architecture”。
首先进行Fully convolutional networks的介绍,典型的识别网络包括LeNet,AlexNet等等都是采用固定尺寸的输入产生非空间性的输出,(可能只是一个向量)。这些网络的全联接层具有固定的维度而丢弃了空间坐标;然而其实它的这些全连接层可以被改为与一个kernel做卷积覆盖整个的输入的区域,这样做就构成了Fully convolutional network,从而可以实现对任意size图像的输入和相应size的输出。见Figure2.
介绍几种其他的dense prediction方法:
1)“ shift-and-stitch trick.”
Input shifting and output interlacing是一种从coarse层不进行插值直接预测像素值得一种小trick,这样一来,产生预测的像素结果就和感受野中间的像素相关。但是本文没有采用,因为通过上采样(upsampling)进行skip层的融合对最后像素的prediction结果更直接、高效。(后面会介绍)
2)“Patchwise training”,采用Patchwise training的采样能够修正类别失衡,能够缓和dense patch间的空间相关性。在 fully convolutional training中,类别平衡也能够通过损失的加权来完成,并且损失采样能够处理空间的相关性。
上面介绍了一些简单的dense prediction的一些思路,下面主要介绍本文的Segmentation Architecture——“Skip Architecture”;
我们建立一种新颖的跳跃式的构建(skip architecture)综合利用粗糙的(coarse)语义(semantic)以及局部(local)和表层(appearance )的信息来改善预测结果。
具体的做法是,将传统的深度网络层(CNN)做以下的改进:去掉最后的 pooling 层,转变为对所有的全联接做卷积,也就是利用双线性插值的方法做下采样,并且利用BP算法根据Ground truth的先验标签进行Fine-tuning。这种方式对于密度预测学习有着快速有效的优势。
这种架构的联接细节:(根据 Figure3),
因为 pool 的层次越少,保留下来的细节就越多。
首先从最后一个 pooling 层采用 32x 下采样(FCN-32s)进行预测;
另外,将倒数第二个 pooling 层(pool4),与 pool5 相互融合,进行 16x 的下采样(FCN-16s),预测更多的细节;
最后直接从 pool3 层进行幅度为 8 像素的插值进行下采样,继而做更深的像素预测。
下面Figure 4是几次融合的不同效果,很明显FCN-8s的效果最好基本上已经接近Ground truth的效果了。
下面的Table2是 skip FCNs 在PASCAL,VOC2011数据集上验证的结果比较。

下面是其他的几组对比实验的结果,
Table 3.fully convolutional net gives a 20% relative improvement over the state-of-the-art on the PASCAL VOC 2011 and 2012test sets, and reduces inference time.

Table 4.

其中RGB-D是在三原色的基础上加了Depth信息。
RGB-HHA是在三原色基础上加了水平视差、距离地面高度、曲面法线与重力方向的角度三个参数。

Table 5. SIFT Flow上类别分类和几何分类的几组对比结果.
.

以上就是我想总结的几点关于这篇文章的介绍,因为刚刚接触,所以很多错误的地方欢迎大家帮忙指正,共同交流共同进步。

你可能感兴趣的:(深度学习)