Efficient piecewise training of deep structured models for semantic segmentation阅读笔记

题目:Efficient piecewise training of deep structured models for semantic segmentation

 

期刊级别(会议的也这么标):CVPR A类 2016

 

针对的问题:改进语义分割,提高语义分割精度。

 

采用的方法:作者通过使用上下文信息来改进语义分割。作者研究了图像区域之间的“碎片-碎片”上下文(patch-patch context)和“碎片-背景”上下文(patchbackground context)。为了从碎片环境中学习,作者制定了基于cnn的成对势函数条件随机模型(CRFs)来捕获相邻块之间的语义相关性的字段。在此基础上,对所提出的深度结构模型进行了有效的分段训练作者所提出的分段是将提取特征图分为一段,利用图像区域之间的“碎片-碎片”上下文为第二段,利用多尺度图像输入和滑动金字塔的网络设计是第三段。其中只有第二段是作者设计的,剩下的都是以前的方法,避免了反向传播中重复的代价高昂的CRF推理。在捕获补丁背景上下文方面,作者证明了使用传统的多尺度图像输入和滑动金字塔池的网络设计可以有效地提高性能。

 

存在的问题:该方法在后处理阶段使用上采用和细化来输出最终的预测,但是经过上采样会造成局部信息丢失,这不利于提高语义分割性能。因为作者采用了三段来进行语义分割,这导致该模型严重消耗内存,训练时间长,分割速度慢。

 

受到的启发:上下文信息是最重要的线索,特别是当单个对象出现明显的视觉模糊时。上下文信息对于像素标签的预测和判断很有用。利用上下文信息的方法一般是条件随机域(crfs)。

很多论文都有一些缺陷,比如这篇文章中出现了上采样,有点文章就说上采样不好会丢失部分信息,是不是可以这样改进?

现有的论文会解决旧论文中的一些缺陷,但是并没有全部解决。什么意思呢?就是把一篇论文中的方法来解决另一片论文中的问题。

 

总结:作者提出了一种将CNNs与CRFs相结合的方法,利用复杂的上下文信息进行语义图像分割。作者提出了基于CNN的成对势来建模图像区域间的语义关系。作者的方法在包括PASCAL VOC 2012数据集在内的几个流行数据集上显示出最佳性能。该方法具有广泛的应用前景

你可能感兴趣的:(语义分割)