DeepLab系列之V2

论文地址：DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs
收录：TPAMI 2017 (IEEE Transactions on Pattern Analysis and Machine Intelligence)
论文代码： deeplab-public-Caffe

3.优势

速度很快，DCNN 8fps，CRF需要0.5秒
准确率高，当时在PASCAL VOC 2012、PASCAL-Context、PASCAL- Person-Part、Cityscapes效果最好（实验数据集更多）
结构简单，DCNN和CRF的组合

论文中给出的一维上示意图：

其中rat是膨胀因子，卷积公式如下：

y是输出信号，x是输入信号，w是卷积模板，可以发现r用来控制对输入信号的采样间隔。更多介绍在v1中。
膨胀卷积有两种实现方式：

上采样卷积核，参数之间插入r-1个0。例如K大小的卷积核上采样之后大小为k+(k-1)(r-1)
下采样输入特征图，隔行去采样产生r平方个子特征图，然后正常卷积，最后插值返回输入大小的分别率。（当你发现随着膨胀因子增大，网络训练时间增加的很快时，不用怀疑底层实现肯定是这样的）

作者尝试了两种方案物体多尺度问题：

通过resize多尺度输入图片，最终结果取对象像素点位置最大的响应结果。
受R-CNN的spatial pyramid pooling(SPP)启发，得到ASPP结构。
具体结构如图所示：

通过不同的rate构建不同感受野的卷积核，用来获取多尺度物体信息。

主要利用CRF来优化物体细节信息，并且此处是全连接CRF。具体分析看v1中介绍。
CRF能量函数：

第一个式子一元项保证像素分类的准确率，第二个式子二元项保证约束关系。
一元项结构由DCNN产生。
二元项具体如下：

由两个高斯核构成，第一个核保证了相似颜色和位置的像素具有相似的标签；第二个核保证了光滑性。

如果一元项结果并不准确，即使使用CRF，效果也得不到提升，将探索编解码结构解决这个问题。