CVPR 2020 《PhraseCut: Language-based Image Segmentation in the Wild》论文笔记

目录

  • 简介
  • 动机
  • 贡献
  • 方法
  • 实验

简介

本文是一篇poster,作者来自马萨诸塞大学阿姆赫斯特分校和Adobe研究院。
明确一下本文的task:在图片中分割出给定的短语。
下载链接
CVPR 2020 《PhraseCut: Language-based Image Segmentation in the Wild》论文笔记_第1张图片

动机

现有的数据集缺乏在实际应用中出现的概念的规模和多样性(lack the scale and diversity of concepts that appear in real-world applications.),基于此问题,本文提出了VGPHRASECUT数据集。作者使用了几个 state of-the-art referring approaches在此数据集上进行了测试,结果都不尽人意。通过分析,作者认为这是由于数据集中的罕见类别和罕见属性造成的(长尾效应)。

贡献

  1. 提出VGPHRASECUT数据集。
  2. 提出模块化方法,可以将类别、属性和关系相关的视觉cues进行结合。
  3. 通过利用对更频繁的类别和属性的预测,提高模型在罕见类别和属性上的性能。

方法

本文方法的整体框架如下图所示,整个framework还是很清楚的。
CVPR 2020 《PhraseCut: Language-based Image Segmentation in the Wild》论文笔记_第2张图片
Backbone encoders,对于image,使用MaskRCNN;对于phrase,使用 bi-directional LSTMs。
Category module,这部分分为三个步骤进行。①. 基于instances features生成category channel score,假设原图片大小为 w × h w\times h w×h,共有 N N N个类,生成的category channel score大小为 1 2 w × 1 2 h × N \frac{1}{2}w\times\frac{1}{2}h\times N 21w×21h×N。②. 基于phrase embedding生成channel attention。③. 将前两步的结果相乘,然后再做一个仿射变换,再激活一下,就得到了结果。
Attribute module,和Category module一样,只不过通道数不一样,这里通道数应该是 100 × 20 100 \times 20 100×20,100代表top100个objects,20代表attributes。
Relationship module,也和上文差不多,这里用的是空洞卷积,用来提高感受野。
Combining the modules,这部分有点似懂非懂,按照我理解的来写吧。作者对上述得到的三个输出进行elementwise product and normalization,然后得到一个10-channel的score map。将category、attribute和relationship的embedding进行concat,学得一个attention。将score map和attention结合,得到最终输出。

实验

在VGPHRASECUT数据集上的实验结果,感觉rel没啥用呀。。。
CVPR 2020 《PhraseCut: Language-based Image Segmentation in the Wild》论文笔记_第3张图片

你可能感兴趣的:(vision&language,#,referring,expression)