Weakly Supervised Learning of Instance Segmentation with Inter-pixel Relations论文阅读

文章目录

    • 1. Introduction
    • 2. Related Work
    • 3. Class Attention Maps
    • 4. Inter-pixel Relation Network
      • 4.1 IRNet Architecture
      • 4.2 Inter-pixel Relation Mining from CAMs
      • 4.3 Loss for Displacement Field Prediction
      • 4.4 Loss for Class Boundary Detection
      • 4.5 Joint Learning of the Two Branches
    • 5. Label Synthesis Using IRNet
    • 6. Experiments

Attention:

更多论文解读的博客原文第一时间发布于个人github论文合集 和博客欢迎关注,有想法欢迎一起讨论!私信评论均可。

后面有些语法在CSDN的markdown上不支持,导致显示bug,我就懒得改了,有需求直接访问原博客查看。

创建人 github论文汇总 个人博客 知乎论文专栏
ming71 paperdaily chaser 专栏

论文发布日期:2019 [CVPR]

1. Introduction

  使用分类标注作为弱监督信息,在CAM提取到特征的基础上,进一步设计IRNet学习额外的特征约束,从而到达更好的弱监督实例分割效果。

  • CAM用于分割任务的问题
    • CAM响应不准确,对于分割任务是很不利的
    • CAM无法区分实例个体
  • IRNet
    组成为两部分:(1)不分类别的实例响应图 (2)pairwise semantic affinitie。其中通过不分类别的实例响应图和CAM结合,约束后得到instance-wise CAMS;另一个分支预先预测物体的边界然后得到pairwise semantic affinitie(关于这个的论文参考Related Work的对应部分,有相应的方法,暂不深究)进行融合和处理得到最终的分割。整体流程如下:
Weakly Supervised Learning of Instance Segmentation with Inter-pixel Relations论文阅读_第1张图片

2. Related Work

  • Weakly Supervised Semantic Segmentation
  • Weakly Supervised Instance Segmentation
  • Pixel-wise Prediction of Instance Location
  • Semantic Affinities Between Pixels

3. Class Attention Maps

Weakly Supervised Learning of Instance Segmentation with Inter-pixel Relations论文阅读_第2张图片

  将CAM的特征提取和计算写成公式的。为了扩大CAM的分辨率,backbone的最后一个stage的下采样stride从2改为1,整体降采样只有1/16。

4. Inter-pixel Relation Network

4.1 IRNet Architecture

Weakly Supervised Learning of Instance Segmentation with Inter-pixel Relations论文阅读_第3张图片

  结构而言IRNet很简单,利用的特征都是R-50的五个level特征图,只是进行的操作略有不同,Displacement Field分支先将小尺度特征图融合一次再和大尺度的融合。赋予特征以意义和学习约束的是目标函数gt的制定。

4.2 Inter-pixel Relation Mining from CAMs

好用回头再填坑

4.3 Loss for Displacement Field Prediction

  作者的观察是:同一个实例上的实例中心应该是一样的,即有公式如下,式中x代表像素坐标,D(x)是预测的质心位置:

因此针对该部分没有标椎gt的情况,设计的前景loss如下,分别计算像素和质心的差,其实就是上面公式移项得到的:

对于背景而言,无法预测出准确的质心:

4.4 Loss for Class Boundary Detection

  同样面临的问题是没有GT监督,作者的观察假设是:边界出现的位置其两边像素对的分类标签不同。(好用回头再填坑)

4.5 Joint Learning of the Two Branches

直接将三个loss相加即可。

5. Label Synthesis Using IRNet

好用回头再填坑

6. Experiments

  该方法的思路比较明确,方法略微繁琐一点,涉及的超参数相对多。

  • Instance Segmentation
Weakly Supervised Learning of Instance Segmentation with Inter-pixel Relations论文阅读_第4张图片

弱监督实例分割的工作相对较少。数据上来看,效果确实还不错远高于PRM,甚至也高于bbox监督的效果很好、吊打很多算法但是比较复杂的SDI。也可见和谁比很重要,SDI号称达到全监督模型的95%,却是和DeepLabv1比的…和Mask RCNN相比就差远了。

  • Semantic Segmentation
Weakly Supervised Learning of Instance Segmentation with Inter-pixel Relations论文阅读_第5张图片

整体来看,bbox监督的效果要在class监督之上的。PRM不算是占优;IRNet效果甚至高于bbox监督的算法,如经典的BoxSup;和SDI差不多持平,但是后者在BSDS上的训练这一点来说普适性受限,而且较为麻烦。

分割效果:




你可能感兴趣的:(papers)