论文笔记:Coarse-to-Fine Semantic Segmentation From Image-Level Labels

1.摘要

基于深度神经网络的语义分割通常需要很大成本的注释来进行训练,以获得更好的性能。 为了避免大多数方法所需要的像素分割注释,最近一些研究人员尝试使用对象级标签(例如边界框)或图像级标签。 在本文中,我们提出了一种新的递归由粗到细的语义分割框架,该框架仅基于图像级别的类别标签。 对于每幅图像,首先由基于卷积神经网络的无监督前景分割模型生成初始粗掩码,然后由图模型增强。 增强粗掩码被馈送到一个全卷积的神经网络中,递归地细化。 现有的基于图像级别标签的语义分割方法需要对包含多种类型对象的图像的所有类别进行标记, 我们的框架只需要每个图像一个标签,并且可以处理包含多类别对象的图像。只在ImageNet上训练,此框架在PASCAL,VOC数据集上与其他基于图像级别标签的最先进的语义分割方法实现类似的性能。 此外,本框架可以很容易地扩展到前景对象分割任务,并在Internet对象数据集上与最先进的监督方法取得了相当的性能。

2.主要贡献

(1) 提出了一种新的弱监督框架,用于语义分割,只依赖于图像类别级别的注释。
(2) 通过训练只有一个类别标签的图像, 该框架可以自动学习为包含多个类别对象的图像生成最终的像素级语义精细掩码。
(3) 所提出的框架可以跨数据集推广。 仅在Image Net数据集的子集上进行训练,它在PASCAL,VOC数据集上实现了与其他图像级别的基于标签的SOTA类似的性能 。
(4)框架可以 很容易地扩展到图像前景对象分割,并且它在Internet数据集上达到了SOTA的效果。

3.本文方法

如图2所示。 框架包含三个主要组件:粗掩码生成、粗掩码增强和递归掩码细化。 首先,使用经过训练的8层CNN进行生成图像的初始粗掩码。 其次,利用基于图的模型来提高基于对象先验的初始粗掩码的质量。 最后,这些增强的mask和输入图像及其类别标签一起被用来递归地训练一个用于语义分割的全卷积网络。
论文笔记:Coarse-to-Fine Semantic Segmentation From Image-Level Labels_第1张图片3.1 Coarse Mask Generation(粗掩码生成)
利用论文《Unsupervised learning from videoto detect foreground objects in single images》中的student net。(论文首先在teacher net利用vedioPCA提取软掩码,再利用student net学习生成teacher net生成的软掩码)
(论文讲解搬运,ICCV 2017 《Unsupervised Learning from Video to Detect Foreground Objects in Single Images》论文笔记,有兴趣的可以去看看)
论文中的框架是一个基于CNN的网络,它使用数百万个未标记的图像进行训练,并在无监督的对象分割中达到了SOTA的水平。 此外,8层CNN的在大规模的视频帧上训练的student网络, 比其他以前的测试方法快两个数量级。 粗掩码可以通过在网络上应用标准的前馈处理来获得。 因此,使用学生网络在我们的框架中生成粗掩码。
总体架构:
论文笔记:Coarse-to-Fine Semantic Segmentation From Image-Level Labels_第2张图片通过训练student深度卷积网络可以一帧一帧地预测教师路径给出的无监督标签。我们发现,通过在最后一层加入resized之后的原始输入图片和中层特征(skip connection),可以增加性能。
student net结构如图所示:
论文笔记:Coarse-to-Fine Semantic Segmentation From Image-Level Labels_第3张图片

论文笔记:Coarse-to-Fine Semantic Segmentation From Image-Level Labels_第4张图片
然而,生成的粗掩码非常嘈杂和不准确。 如图1所示。 通常有许多洞,mask的位置与物体的位置也不一致。 因此采用图模型对掩码进行增强,训练语义分割网络。
3.2 Coarse Mask Enhancement(粗掩码增强)
利用了GrabCut的方法。其实3.1中提到的论文里也采用了grabcut的方法。GrabCu是微软研究院的一个课题,是基于图论的分割方法。GrabCut需要用户提供一个长方形,长方形包含前景,而长方形外是背景。GrabCut具体步骤如下:
1:长方形外的Pixels作为背景Pixel,长方形内的Pixels作为前景Pixel,用着两组去Train背景GMM和前景 GMM(这里GMM指高斯混合模型)。
2:用训练好的两个GMM来计算每一个像素属于背景和属于前景的概率,进而计算出能量函数E中的Data项,能量函数中的Smoothness项的计算方法大致与GraphCut相同。
3:通过最优化能量函数得到图像的一个分割。
4:用3中的分割结果中的前景Pixels和背景Pixels去训练前景GMM和背景GMM.
5:重复2,3,4,直到分割结果收敛(不再有大的变化)。
由以上步骤可以看出,GrabCut是一个循环执行的算法,其循环的目的是为了EM(Expectation Maximization)。因为用户提供的长方形内也有部分背景像素,所以这样的种子是不完全正确的。好在GMM模型并不要求所有的训练数据正确,即使有一部分分类不正确,也可以通过EM步骤使得最终结果正确。而GrabCut正是利用了GMM的这一特性。值得注意的是,GMM有陷入局部最优的问题无法解决,所以GrabCut也有此问题。具体内容参考【图像处理】图像分割之(一~四)GraphCut,GrabCut函数使用和源码解读(OpenCV)
3.3 Recursive Mask Refinement(递归掩码细化)

算法整体流程图如图所示:
论文笔记:Coarse-to-Fine Semantic Segmentation From Image-Level Labels_第5张图片 提出了一种递归语义分割网络,通过将图像类别标签与增强粗mask相结合作为初始语义标签,得到用于训练的初始的像素级语义分割掩码 。本文的语义分割网络是在ImageNet数据集的子集上训练的。 由于ImageNet数据集是为图像分类问题而设计的, 主要对象通常在图像中占据很大的空间,增强的粗掩码可以覆盖主要对象的大部分。 基于这个假设,每个图像的类别标签被分配给所有属于前景对象的像素,其余像素的类别被设置为背景。 这一过程如图3所示。
论文笔记:Coarse-to-Fine Semantic Segmentation From Image-Level Labels_第6张图片 图为语义掩码生成的过程。 训练掩码是通过将图像类别分配给增强掩码中的前景像素来获得的。 然后使用训练mask训练DeepLab。 Round2图像是通过应用DeepLab获得的,DeepLab是在原始RGB图像上用训练掩码训练的。 在每一轮训练中,即使用有噪声的mask训练,网络也可以自动学会生成更好的掩码,可用于进一步训练网络。 通过递归训练,我们的网络最终可以生成高质量的分割掩码。

这些生成的增强掩码被作为下一轮递归语义分割网络的初始输入。我们选择DeepLab作为语义分割网络,因为它的实践价值和有效性。 通过使用空洞卷积来增加神经元的感受野,使用ASPP在多个尺度上考虑对象,并利用全连接的CRF来提高对象边界的定位性能, Deeplab在语义分割基准方面达到了最先进的水平。 在第一轮训练结束时,我们得到了一个可以应用于任何图像的语义分割模型来预测语义掩码。 由于增强mask的质量较低,而模型很难在一轮训练中达到它的效果,我们建议递归地训练网络,通过从上一轮训练中提取输出掩码作为当前训练回合的输入掩码,来继续细化语义掩码。 这个过程重复几次迭代,直到网络收敛。
当训练完成后,我们得到了分割网络,该网络可以对任何给定的图像分割出感兴趣的类别。 在语义分割模型的训练阶段,唯一需要的是为图像分类而设计的图像级标签。 此外,在培训学生网络不需要人为的标签。 因此,我们的方法是完全弱监督的。
3.4 模型参数化
算法1说明了整个训练过程,包括粗掩码生成、粗掩码增强和递归掩码细化。 设img表示来自Image Net数据集的训练图像,其中每个图像与一个类别标签配对,maskc表示应用无监督学习的学生网络在来自Image Net的RGB图像上生成的粗掩码 ,Mske表示通过在粗掩码上应用GrabCut生成的增强掩码,Maskr表示由DeepLab模型生成的精化掩码,该模型是用增强mask训练的。 递归训练完成后,网络可以生成高质量的语义分割掩码。
3.5 将Proposed框架扩展到前景细分
为了证明该框架的泛化性,我们将其进一步扩展到前景分割任务中。一般的前景对象分割只需要识别像素是否属于前景对象。 因此,只需在“递归掩码细化”中替换网络。通过设计用于前景对象分割的网络,我们的框架可以应用于前景分割任务。
在空洞卷积和多尺度特征学习的启发下,我们提出了用于前景分割任务DFPN,如图4所示。
论文笔记:Coarse-to-Fine Semantic Segmentation From Image-Level Labels_第7张图片建议的DFPN有与FPN相同的体系结构,除了为三个分支添加空洞卷积层以扩大网络的感受野。 每个分支包含三个不同的扩张率的空洞卷积层。 然后将三个分支的扩展特征聚合并连接在一起进行预测。

你可能感兴趣的:(论文解读)