【CV论文笔记】Fully Convolutional Networks for Semantic Segmentation（全卷积网络理解）

本文主要用于介绍大神Jonathan Long于2015年提出的全卷积网络，该网络也是深度学习应用于图像语义分割的入门代表作（毕竟是多达万次的引用量）。本笔记主要为方便初学者快速入门，以及自我回顾。

论文链接：https://people.eecs.berkeley.edu/~jonlong/long_shelhamer_fcn.pdf
Github地址：https://github.com/shelhamer/fcn.berkeleyvision.org

基本目录如下：

摘要
核心思想
总结

------------------第一菇 - 摘要------------------

1.1 论文摘要

卷积神经网络是一种能够提炼多层特征的肉眼可见的强大模型。本文提出了一种仅利用卷积本身，并且是能够端到端训练的，像素级别的语义分割模型，并且该模型表现超过了当时（2015年）的主流模型。本文的核心点就在于“全卷积”网络的提出，该网络的输入图片可以是任意大小的，然后通过一系列的推理学习，再输出同样的大小的图片。我们在文中清晰具体的定义了全卷积网络是如何适用于类似语义分割这样的spatially dense (空间密集型）预测任务的。我们同时还将全卷积网络与与之前的主流模型（包括AlexNet, VGGNet, GoogLeNet等）建立起关联，通过微调之前的模型，将其改进适用于语义分割任务。我们还通过设计跳级结构（skip architecture）来融合了粗粒度和细粒度的特征信息来提高模型的精度。最终，实验表明我们的模型表现优良，同时所需的推理时间也少于0.2秒／图。

------------------第二菇 - 核心思想------------------

2.1 全卷积网络

我们废话不多说，直戳本文核心，全卷积网络。
我们先看这个网络是什么，再去探讨为什么要这么做～

2.1.1 全卷积网络到底是什么？

其实关于这个网络，论文中一句话就已很简单的表明了其核心思想，

However, these fully connected layers can also be viewed as convolutions with kernels that cover their entire input regions.

即，只要将卷积层的滤波器的尺寸设置为和输入数据体的尺寸一致，就可以将一个全连接层转化为卷积层！

举个例子，一个的全连接层，输入数据体的尺寸为，这个全连接层可以被等效的看作一个的卷积层（滤波器与输入尺寸一致），因此就只有一个单独的深度列覆盖并滑过输入数据体，输出自然就变为了，该结果与一开始用的全连接层效果是等价的～（大家可以思考一下，此等替换过后，参数的数量是否有变化）

因此，根据上述转换，作者就将利用卷积层替换最后全连接层的网络，定义为全卷积网络（以下简称FCN）（因其只含有卷积层而得名），如下图，就是作者在文中的图示（改自AlexNet），

【CV论文笔记】Fully Convolutional Networks for Semantic Segmentation（全卷积网络理解）_第1张图片

全卷积网络.png

2.1.2 为什么需要FCN？

不扯太多语义分割的历史，我们直接上结论，传统的利用CNN做的像素级别分类大体上弊端有，

存储开销太大，每次滑动窗口中的图像块都要扔进模型中进行识别，随着滑动窗口的次数和大小增加，所需存储的空间都会急剧上升！
计算效率低下，相邻的像素块基本上是重复的，而对每个像素块都需要进行卷积操作，其特征的提取操作自然有很多都是重复的！
像素块的大小限制了感知区域的大小，像素块永远都只能是图像的一部分，只能提取一部分局部特征，其最终的性能自然也会受影响！

而转换为FCN后，上述弊端都将得到不同程度的规避。

举例来说（上述图示的模型结构），

本来（即传统方法）我们想让尺寸的浮窗（即滑动窗口），以步长为在的图片上滑动，把每个经停的位置都要输入到模型中去识别判断，最后得到个位置的类别得分。

那么现在（即转为全卷积后），假如的输入图片经过卷积层和下采样层之后得到，那么我们的原图输入同样的卷积层和下采样层后，得到，而此时我们已经用卷积层替换了全连接层，最终经过3个卷积层，我们得到，而这个结果正好就是传统方法中的浮窗经停的个位置的得分！

上述的这个例子，已经清楚的说明了一件事情，即：面对384×384的图像，让（含全连接层）的初始卷积神经网络以32像素的步长独立对图像中的224×224块进行多次评价，其效果和使用把全连接层变换为卷积层后的卷积神经网络进行一次前向传播是一样的【1】

还有一件事情值得一提，即FCN的输入图片可以是任意大小的！而传统的CNN却不可以，因为传统的CNN在进入全连接层时，feature map （假设大小为）要拉成一条向量，而向量中每个元素（）作为一个结点都要与下一个层的所有结点全连接，因此其权值个数已经是固定的了，即最后一层feature map的大小是固定了，那么层层前推，自然输入大小也是固定的了～而FCN由于没有全连接层了，自然也无需固定输入图像的大小～

2.2 模型架构

看到这里，想必大家已经对全卷积网络有了一个直观的概念，在介绍论文的模型图之前，我还是贴一张比较简单的图【1】如下，以便大家后续理解，

【CV论文笔记】Fully Convolutional Networks for Semantic Segmentation（全卷积网络理解）_第2张图片

端到端像素级预测网络结构.png

可以看到，经过多次的卷积和池化操作以后，我们所得到的图像越来越小，分辨率越来越低，其中图像到时是图片最小的一层，所产生的图就叫做热图（heatmap），注意区分与特征图（featuremap）的概念！那为了得到图像中每一个像素的类别，我们就需要对该热图进行上采样（upsampling），把图像放大到原图像的大小！上采样的方法有很多，文中采用的是反卷积（deconvolution）的方法，最终得到原图的大小，再逐像素计算Loss！理解了上图以后，就好办了，我们直接上原论文中的模型架构图，

【CV论文笔记】Fully Convolutional Networks for Semantic Segmentation（全卷积网络理解）_第3张图片

模型架构图.png

其实该图非常好理解，我们先看第一行，里面有5个pool，因此conv7（6-7均为卷积层了已经）的热图已经是原始图的1/32，因此对应上采样后应该放大32倍（即图中32x），十分的直观，作者称其为FCN-32s，但实验发现其精度不大行，因此，由提出了一种跳级链接结构，即将conv7的热图与pool4出来的特征图进行合并（有说直接相加的，有说拼接的，我倾向拼接），而我们都知道，pool4是原图的1/16，因此，conv7需要先放大2倍（即图中2x conv7），这样才能保持尺度一致，之后再上采样放大16倍（即图中16x）。而第三行的解析逻辑同第二行，文中作者也贴了图，来表明其跳级结构的效果确实还可以，

【CV论文笔记】Fully Convolutional Networks for Semantic Segmentation（全卷积网络理解）_第4张图片

实验结果.png

至此，论文中整一套用于语义分割的模型架构及思路已经梳理完了。原论文中还有很多细节是本文没有具体展开的，有兴趣的可以直接看论文～另外再盗用一下，其他博主指出的FCN的缺点总结如下【1】，

得到的结果还是不够精细。进行8倍上采样虽然比32倍的效果好了很多，但是上采样的结果还是比较模糊和平滑，对图像中的细节不敏感。
对各个像素进行分类，没有充分考虑像素与像素之间的关系。忽略了在通常的基于像素分类的分割方法中使用的空间规整（spatial regularization）步骤，缺乏空间一致性。

------------------第三菇 - 总结------------------

3.1 总结

到这里，整篇论文的核心思想已经说清楚了。本论文主要是提出了一种用于语义分割的全卷积网络模型架构，并且通过实验论证了其可行性。而且自这篇论文发表后，现在主流模型也都采用了全卷积网络，其影响力可见一斑。

简单总结一下本文就是先罗列了一下该论文的摘要，再具体介绍了一下本文作者的思路，也简单表述了一下，自己对全卷积网络的理解。希望大家读完本文后能进一步加深对该论文的理解。有说的不对的地方也请大家指出，多多交流，大家一起进步～

参考文献
【1】https://zhuanlan.zhihu.com/p/30195134
【2】http://simtalk.cn/2016/11/01/Fully-Convolutional-Networks/