CVPR2020 文本图像处理方向论文总结(Image-Text Matching)

最近阅读了CVPR2020关于image-text matching的三篇文章,前两篇都是对文本图像匹配任务的改进,第三篇则是将文本图像匹配模型用于文本描述任务中。这里,我对三篇文章的主要内容进行一个梳理总结。
备注:由于本人也是第一次接触这个方向,很多术语可能翻译不正确,文章内容理解不正确,内容仅供参考。

1.GSMN
Graph Structured Network for Image-Text Matching

解决问题:
现有的多对多匹配方案,大多忽视了元素属性、同一模态中不同元素间关联,而仅仅学习图像中单个目标与文本中单个单词之间的关联,匹配效果较差。

解决方案(核心创新点):
提出一种基于图结构的新型网络GSMN(Graph structured matching network), 通过图结构,将同一模态下的元素、元素属性、元素间关联构建成结构化的短语,通过学习短语之间的关联获得更精细化的匹配关系。

具体实现简述:
主要包括三个模块:
(1) 单模态特征提取:利用Faster-RCNN以及Core-NLP分别提取图像和文本中的元素特征(包括元素属性以及元素间关联);
(2) 图结构构建:利用1中提取的特征,分别构建图结构。其中,元素、元素属性和元素间关系构成图的结点,若任意结点之间存在依赖关系,则两节点间形成边;
(3) 多模态特征匹配:包括结点级的匹配和结构级的匹配。结构级匹配即利用(2)中构建的图结构,提取出子图,得到细粒度的短语进行匹配。
CVPR2020 文本图像处理方向论文总结(Image-Text Matching)_第1张图片

2.MMCA
Multi-Modality Cross Attention Network for Image and Sentence Matching

解决问题:
现有模型要么只学习了单模态内部元素间的关联(一对一匹配模型中),要么只学习了多模态间元素之间的匹配(多对多匹配模型中),而没有将这两者结合起来分析利用的。

解决方案:
提出一种交叉注意力机制网络MMCA(Multi-Modality Cross Attention Network),不仅学习单模态内部元素的关联,而且挖掘不同模态中元素之间的关联,然后将学习到的这两种不同的关联统一到同一空间下,用于匹配度分析。

具体实现简述:
主要包括三个模块:
(1) 单模态特征提取:利用预训练的Faster-RCNN和WordPiece分别提取图像与文本中的特征;
(2) Self-Attention Model: 分别提取单模态内部元素之间的关联;
(3) Cross-Attention Model: 学习不同模态中元素之间的关联,与(2)中的单模态内部元素的关联融合到同一空间下。
CVPR2020 文本图像处理方向论文总结(Image-Text Matching)_第2张图片

3.POS-SCAN
More Grounded Image Captioning by Distilling Image-Text Matching Model

解决问题:
在图像描述任务中,我们希望captioner在生成词语时,应在图像中注意到正确的目标元素。现有captioner的grounding准确性较差,而且,如果想在保持图像描述质量的同时,提升模型的grounding准确性,就需要数据集具有word-region alignment的标注作为训练时的监督,而具有这种标注的数据,获取成本很高。

解决方案:
(1)提出POS-SCAN文本图像匹配模型,在传统的captioners上添加POS-SCAN来进行知识蒸馏,提高grounding准确性;
(2)使用SCST(Self-Critical Sequence Training),使用图像-文本匹配的分数作为reward,进行强化学习,在图像描述质量与grounding准确性之间取得平衡。
CVPR2020 文本图像处理方向论文总结(Image-Text Matching)_第3张图片

总结
对比第一篇和第二篇文章,都是试图将单模态内部元素关联和多模态元素间关联相结合,从而提升模型效果。我个人理解,GSMN本质属于多对多模型,只不过是子图结构(短语)的对应,而非region-word。POS-SCAN则还是一对一模型,但是在将多模态特征融合到统一空间进行匹配度衡量之前,通过注意力机制联合学习了单模态内部关联和多模态之间的关联。第三篇文章则是将文本图像匹配模型作为监督,对文本描述任务进行改进。

遇到的问题:

  1. 只是了解了文章的大致思路,具体实现以及公式推导等并没有细致了解。因为光是基本概念就有很多不知道,需要一点点学习。
  2. 对本领域之前的工作还没有一个充分的了解,目前只是参考了一些博客,后面需要进一步找相关综述文献看。
  3. 文中的有一些专业词汇、专有名词不是特别理解,或者无法用合适的中文进行表达,这可能还是需要慢慢积累。

参考文献:
Graph Structured Network for Image-Text Matching [cvpr2020]
Multi-Modality Cross Attention Network for Image and Sentence Matching [cvpr2020]
More Grounded Image Captioning by Distilling Image-Text Matching Model [cvpr2020]

你可能感兴趣的:(cv,计算机视觉)