《Learning Deconvolution Network for Semantic Segmentation》论文笔记

注:文章仅是对自己学习的记录,非专业评论

what:文章讲了一个反卷积用于语义分割的模型,这个模型也属于一个encoder-decoder模型,与大多数类似的模型一样,传承了FCN的思想,编码网络沿用了VGG的编码结构,特点在于新设计的解码结构。
新解码结构的特点:unpooling的坐标记录和deconvolution 的使用。

当然,这篇文章除了解码结构以外,由于数据量不够大,还用了两个的trick:
(1)用edge-box先给出一些建议的分类数;
(2)分两步训练,第一步的单物体居中训练,第二部的用edge-box的proposals训练复杂的图片。

why:对于作者为什么提出这样一个模型,可以归结为FCN的固定尺寸带来的固有缺陷——尺度单一化,文章描述了两种情况:

(1) 过大的尺寸导致的不连续

(2)过小的尺寸导致的小物体缺失。

《Learning Deconvolution Network for Semantic Segmentation》论文笔记_第1张图片

其实对于这个缺点,笔者是有点小疑问的,是训练引起的还是结构引起的?我没有试验过,但我觉得是训练引起的可能性更大,FCN给的github里面的代码里size是固定的,也就是说,训练时都用的同一个尺寸的图片。但只要把尺寸设定去掉,完全可以训练不同大小的图片.....结构上是完全允许的。

FCN另一个缺点就是pooing过程中虽然滤除了大量的噪声,但是确丢失了大量的空间信息。因此,文章对应的提出使用unpooing deconvolution 去缓解空间信息量的丢失。


how:下面介绍一下这个方法的大体过程
这个模型的总体结构如下:编码和解码网络是一个镜像的过程。
《Learning Deconvolution Network for Semantic Segmentation》论文笔记_第2张图片
这个结构中重点介绍了unpooling 和 deconvolution 这两个层:

unpooing:这个层与FCN的uppooling的不同之处在于,这篇文章首先记录pooing过程中激活值得坐标(index),然后unpooling时按照记录的pooling的index变成一个稀疏的特征图。这个过程跟segnet中使用的上采样是差不多的。
deconvolution:这个层在很多讲反卷积的文章都有提到过,这是与卷积的一个反过程,卷积是多个输入值,通过卷积核后变成一个输出值,反卷积是通过一个输入值通过反卷积核后得到多个值。
unpooing和deconvolution两个结合起来后作用就很明显了,先通过unpooing得到一个上采样的稀疏特征图,再通过deconvolution学习填充这个特征图。
《Learning Deconvolution Network for Semantic Segmentation》论文笔记_第3张图片

结构介绍完之后就是训练的介绍:

文中提到由于网络比较深,为了使网络正常训练,使用了batch normalization和two-stage training, batch normalization这个常用的trick就不介绍了。two-stage training中作者把训练分成了两步:
第一步:剪裁实例对象,使对象处于小图片中央,然后用这个简单的图片训练。

第二步:训练之初edge-box给出了一组proposals,根据proposals给的数目构建复杂的训练案例(这个过程不怎么清楚)来训练。
最后推断过程:这个过程还是很新颖的,首先给出一组proposals数目,有了这个分割数之后,网络就可以知道分割多少个不同的物体了。这样就可以有不吐的分割图,然后作者对这样maps求得分,最后的结果就是得分最高的那个maps.

这篇文章的主要方法到这里就结束了,但是实验发现, 作者提出的模型对细节把握的更好,而FCN对整体形状把握的更好,所以为了更好的利用两个模型,作者又把两个模型做了一个融合,融合的方法也很简单,将两个输出概率图做一个均值。更彻底的,作者又把在图像处理中很火的条件随机域(CRF)结合进去,得到更好的输出。

result:
数据集:PASCAL VOC 2012
几种方法的实验结果对比:

《Learning Deconvolution Network for Semantic Segmentation》论文笔记_第4张图片

随proposal数目的变化,输出的变化:
FCN 《Learning Deconvolution Network for Semantic Segmentation》论文笔记_第5张图片

最后还附上FCN与文中模型对比的实验:
《Learning Deconvolution Network for Semantic Segmentation》论文笔记_第6张图片

你可能感兴趣的:(分割)