【cvpr2020】Referring Image Segmentation via Cross-Modal Progressive Comprehension

motivation:

之前的方法缺乏利用语言中不同类型的信息词来准确对齐视觉和语言特征的能力。
提出采用渐进式方法,分为两个阶段,第一步,模型根据实体词和属性词来感知表达式中描述的所有实体,第二步,模型进一步推理实体之间的关系,以突出所指对象并抑制其他不匹配的实体。

idea:

  1. 提出了一个跨模态渐进理解 (CMPC) 模块,该模块利用表达式中的不同类型的词来分割基于图形的结构中的所指对象。该模块,第一步将从表达式中提取的实体词和属性词的语言特征与视觉特征融合;第二步构建了一个全连接图,其中每个顶点对应一个图像区域,每个顶点的特征包含实体的多模态信息,将关系词作为自适应边;
  2. 提出了一个文本引导特征交换(TGFE)模块,利用 CMPC 模块从不同层次提炼的多模态特征信息。对于多模态特征的每一层,TGFE 模块利用语言特征作为指导,从其他层中选择有用的特征通道来实现信息交流。
    【cvpr2020】Referring Image Segmentation via Cross-Modal Progressive Comprehension_第1张图片

contribution:

(1)提出了一个跨模态渐进理解(CMPC)模块,首先感知表达式所有实体,然后利用输入表达式的关系词突出所指对象,抑制其他不相关的,为所指对象产生有区别的特征表示。
(2)提出了一个文本引导特征交换(TGFE)模块,在语言特征的引导下进行多层次特征之间的自适应信息交流,进一步增强了掩模预测的特征表示。
【cvpr2020】Referring Image Segmentation via Cross-Modal Progressive Comprehension_第2张图片

你可能感兴趣的:(阅读笔记,#,Referring,Image,Segmentation,人工智能,计算机视觉)