PAMI2023: VLT: Vision-Language Transformer and Query Generation for Referring Segmentation

文章目录

  • 1、Abstract
  • 2、整体架构
  • 3、Spatial-Dynamic Multi-Modal Fusion
  • 4、Query Generation Module
  • 5、Query Balance Module
  • 6、Mask Decoder
  • 7、Masked Contrastive Learning
  • 8、可视化结果

1、Abstract

  • 提出了VLT框架,以促进多模态信息之间的深度交互,并增强对视觉语言特征的整体理解。

  • 为了应对语言表达的随机性和巨大多样性,提出一个Query Generation Module动态地产生多组特定于输入的queries来表示语言表达的不同comprehensions。

  • 为了在这些不同的comprehensions中找到最好的,从而生成更好的掩码,我们提出了一个Query Balance Module来选择性地融合query集合的相应响应。

  • 为了提高模型处理不同语言表达的能力,我们考虑inter-sample learning,明确赋予模型去理解同一object但不同语言表达的知识。

  • 我们引入masked contrastive learning来缩小同一目标不同表达的特征的距离,同时更加区分不同对象的特征。
    PAMI2023: VLT: Vision-Language Transformer and Query Generation for Referring Segmentation_第1张图片

2、整体架构

PAMI2023: VLT: Vision-Language Transformer and Query Generation for Referring Segmentation_第2张图片
PAMI2023: VLT: Vision-Language Transformer and Query Generation for Referring Segmentation_第3张图片

3、Spatial-Dynamic Multi-Modal Fusion

  • 对视觉特征和语言特征进行多模态融合
  • 现有方法:首先,这一步没有充分利用单个单词的特征。其次,平铺的语言特征对于图像特征上的所有像素来说都是相同的,这削弱了语言信息和视觉信息之间的相关性所携带的位置信息。
    PAMI2023: VLT: Vision-Language Transformer and Query Generation for Referring Segmentation_第4张图片
  • Spatial-Dynamic Fusion (SDF) module:根据语言信息与相应像素信息之间的相互作用,为图像特征的不同位置产生不同的语言特征向量。
    PAMI2023: VLT: Vision-Language Transformer and Query Generation for Referring Segmentation_第5张图片
    PAMI2023: VLT: Vision-Language Transformer and Query Generation for Referring Segmentation_第6张图片

4、Query Generation Module

  • 不采用fixed queries:这种固定的可学习的queries没有考虑referring segmentation的巨大多样性(输入图像和语言表达都是不受约束的,随机性非常高);只是去检测整个图像中的所有目标,而非去关注language expression所指代的目标;不能提供有效的包含目标的信息

  • 因此,采用了QGM,根据输入图像和language自适应的生成特定于input的queries(例如捕获关键信息,“blue/yellow”, “small/large”, “right/left”等)

  • QGM同时要加入图像的视觉信息,例如:只对language做self-attention无法区分“large”和“left”的重要性,因此在视觉信息的帮助下,生成多个不同的queries,表示给定language下的具有不同emphasized words的理解
    PAMI2023: VLT: Vision-Language Transformer and Query Generation for Referring Segmentation_第7张图片
    PAMI2023: VLT: Vision-Language Transformer and Query Generation for Referring Segmentation_第8张图片
    PAMI2023: VLT: Vision-Language Transformer and Query Generation for Referring Segmentation_第9张图片

5、Query Balance Module

  • 输入:QGM模块生成的Fq和decoder的Response Fr
  • 得到的Cq与Fr进行weighting,Cq表示的是Nq个query vector的confidence 分数,反映该vector与图像上下文以及预测的拟合程度,weighting是控制Fr对于mask decoding的影响
  • QGM+QBM:生成具有不同emphasis的queries+有选择性的融合这些queries到response中,协同工作,加强对vision和language的多样性的理解
    PAMI2023: VLT: Vision-Language Transformer and Query Generation for Referring Segmentation_第10张图片

6、Mask Decoder

PAMI2023: VLT: Vision-Language Transformer and Query Generation for Referring Segmentation_第11张图片
PAMI2023: VLT: Vision-Language Transformer and Query Generation for Referring Segmentation_第12张图片

7、Masked Contrastive Learning

PAMI2023: VLT: Vision-Language Transformer and Query Generation for Referring Segmentation_第13张图片
PAMI2023: VLT: Vision-Language Transformer and Query Generation for Referring Segmentation_第14张图片
PAMI2023: VLT: Vision-Language Transformer and Query Generation for Referring Segmentation_第15张图片
PAMI2023: VLT: Vision-Language Transformer and Query Generation for Referring Segmentation_第16张图片

8、可视化结果

你可能感兴趣的:(实例分割,语义分割,transformer,深度学习,人工智能,计算机视觉,神经网络,word2vec,nlp)