在基于图像的语义分割问题中,为了解决FCN中结果比较粗糙的问题,后续在FCN的基础上进行了许多精细化工作,主要可以分为两个方面的优化,第一是利用条件随机场(CRF)或者其变体来提升局部准确率,第二是设计一个多尺度模型以结合高层和底层特征信息进行语义分割,下面结合几篇比较出色的论文进行简单阐述。
1.CRF
代表论文:
DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs
Semantic image segmentation via deep parsing network
Conditional random fields as recurrent neural networks
DeepLab
DeepLab是一个很优雅的结构,论文工作在2014年就已经完成了,最终被收录于2017年PAMI,现在的很多工作都是基于这篇论文的基础上完成的,因此很值得一读。
DeepLab实在DCNN结构上改进的语义分割模型,因此作者提出了DCNN在语义分割这一任务中的局限性,并提出了自己的解决方案。
1.分辨率下降
在FCN中解决这一缺陷的方法是反卷积,本文作者提出了一种atrous conv+双线性插值的方法,该方法受启发于通信技术,可以在不增加参数个数的情况下获得更大的感受野。
2.物体存在不同的尺度
对这个问题,通常的做法是将同一幅图像的不同尺度的feature/score map聚合得到结果,作者认为这样的方法的确可以增提高性能,但是增加量计算量。因此作者提出了“atrous spatial pyramid pooling” (ASPP)方法,即在卷积操作之前采用多个不同采样率的atrous convolutional layers进行resample。
3.定位不精确
在物体检测任务中需要对空间变换具有不变性,因此限制了DCNN的空间精度。 FCN解决该问题的方法是skip-layers ,从多层提取出hyper-column features 进行融合,本文作者提出了一个更为有效的方法:采用一个fully-connected CRF来优化目标边界。
文中提到的三个贡献
1.Atrous conv
个人认为是文章中最精彩的工作,这里使用了一个非常漂亮的做法,作者将pooling的stride改为1,再加上 1 padding。这样池化后的图片尺寸并未减小,并且依然保留了池化整合特征的特性。
但是,因为池化层变了,后面的卷积的感受野也对应的改变了,这样也不能进行参数微调了。所以,Atrous Convolution就诞生了。
上图a为普通的池化的结果,感受野大小为7,但是损失了信息;b为“优雅”池化的结果。b上进行同样的卷积操作,对应的感受野变为了5(输入5维输出4维,上图b中绿、橙、蓝、黄四个点),感受野减小了。而使用hole为1的Atrous Convolution进行步长为1的卷积操作,则感受野依然为7,同时保证输出的结果更加精确.
从上图可以看出,使用空洞卷积可以得到分辨率更高的结果。
2.多尺度图像表征
为了提取不同尺度物体的特征,作者受到RCNN的启发,对同一图像同时采用多个不同采样率的空洞卷积,最后整合在一起。
3.物体边界定位(恢复)
这里采用全连接条件随机场进行边界恢复,将深度卷积神经网络的识别能力和全连接条件随机场优化的定位精度耦合在一起,得到了很好的结果。
对于每个像素i具有类别标签xi还有对应的观测值yi,这样每个像素点作为节点,像素与像素间的关系作为边,即构成了一个条件随机场。而且我们通过观测变量yi来推测像素i对应的类别标签xi.更多公式及计算细节可以参考全连接条件随机场(DenseCRF)。
其他学习资料:
DeepLab官网
Semantic image segmentation via deep parsing network(DPN)
Conditional random fields as recurrent neural networks(CRFasRNN)
这两篇论文都是的前端框架与DeepLab和FCN类似,论文将重点放到了后端框架与前端框架的融合当中,即如何设计一种端到端的模型。在DPN中作者使用MRF代替CRF,并将平均场构造为CNN的形式,并且在训练过程中可以one-pass inference,免去了迭代的麻烦。
而在CRFasRNN这篇文章中,看标题就可以知道,作者将CRF转化为卷积计算的形式,但是由于作者将其进行了迭代,所以文章认为其是as RNN。
深度学习中的网络结构例如CNN,RNN可以有效的提取数据特征,而好的特征将为下一步的分类或回归问题带来好处。同时将概率图模型网络化将使深度学习结构具有更好的可解释性,并且得到一个端到端的网络结构。
其他学习材料:
CRF,条件随机场
概率图模型是人工智能的另一个主要研究方向,其经典著作和论文很多,但本人水平有限,还没有学到其皮毛,感兴趣的朋友可以深入研究,很有意义的一个领域。
祝好!愿与诸君一起进步。