【cvpr2022】CRIS: CLIP-Driven Referring Image Segmentation

文章地址:CRIS
Github:https://github.com/DerrickWang005/CRIS.pytorch

motivation:

1、现有的方法利用外部知识促进学习,主要采用单模态的预训练(如预训练的图像或文本编码器),缺乏多模态的对应信息。CLIP展示了从4亿对图像-文本对学习SOTA图像级视觉概念的能力,这有助于多模态任务。
2、由于图像级预测与像素级预测的差异,直接使用CLIP对于像素级预测任务可能不是最优的。前者关注输入图像的全局信息,而后者需要学习每个空间激活的细粒度视觉表示。

idea:

利用 CLIP 模型的强大知识进行RIS,以增强跨模态匹配的能力。提出了一种有效且灵活的框架,称为 CLIP-Driven Referring Image Segmentation (CRIS),它可以传递大量的 CLIP 多模态对应知识,以实现文本到像素的对齐。

  • 首先,提出了一种视觉语言解码器,它通过自注意力操作捕获像素级特征的长期依赖关系,并通过交叉注意力操作自适应地将精细结构的文本特征传播到像素级特征。
  • 其次,引入了文本到像素对比学习,它可以对齐语言特征和相应的像素级特征,同时在多模态嵌入空间中区分不相关的像素级特征。基于该方案,该模型可以通过交织语言和像素级视觉特征来明确学习细粒度的视觉概念。

contribution:

  • 提出了一个 CLIP 的RIS框架 (CRIS) 来传递 CLIP 模型的知识以实现文本到像素的对齐。
  • 通过两种创新设计充分利用这种多模态知识,即视觉语言解码器和文本到像素对比学习。

【cvpr2022】CRIS: CLIP-Driven Referring Image Segmentation_第1张图片

你可能感兴趣的:(阅读笔记,#,Referring,Image,Segmentation,计算机视觉,python,深度学习)