Learning Deconvolution Network for Semantic Segmentation

写在前面

由于看其他文章的需要，最近刚看ICCV一篇的关于图像语义分割的文章，作为小白的我是第一次接触图像语义分割（好吧，其实CNN也是菜鸟），阅读文章之余做一些笔记，以便以后的查阅。我挑出文章的重点部分进行讲解，有不妥之处还希望指出。

整体架构

比较类似于SegNet的 "Encode-Decode"的过程，网络的架构如下图，与SegNet有着很大的相似的地方，整体是一个VGG 16中卷积操作部分的架构。

作者在文中指出，FCN在图像语义分割的时候主要是注重物体的整体轮廓，而忽略了物体的细小的特征，本文正是改善了FCN这样的缺点。

Learning Deconvolution Network for Semantic Segmentation_第1张图片

Detail

unpooling

相信也有跟我一样的小白虽然知道convolution 和 pooling，但对deconvolution 和 unpooling却不了解，这边我稍微解释一下unpooling，关于deconvolution我贴出一个链接以及论文。

Learning Deconvolution Network for Semantic Segmentation_第2张图片

上图左边是我们熟悉的pooling过程，相当于对图片的下采样过程，右边为unpooling的过程。

unpooling刚好与pooling过程相反，它是一个上采样的过程，是pooling的一个反向运算，当我们由一个神经元要扩展到3*3个神经元的时候，我们需要借助于pooling过程中，记录下最大值所在的位置坐标(0,1)，然后在unpooling过程的时候，就把(0,1)这个像素点的位置填上去，其它的神经元激活值全部为0。

deconvolution

关于deconvolution其实不是字面意思的逆卷积，容易产生误解，deconvolution可以解释为三个方面，这篇论文中的deconvolution主要起的作用就是其中一种的upsampling，具体的阅读这篇论文（正在读）：《Visualizing and Understanding Convolutional Networks》，CNN可视化的开山之作。

Analysis