Context-Aware Attention Network for Image-Text Retrieval——2021CVPR 中科院

一、研究背景

跨模态问题,图像–文本的双向检索严重依赖于每个图像-文本的联合嵌入学习以及相似性度量。很少有人同时探索单个模态中模态和语义相关性之间的对应。

二、作者对本文的贡献

1、提出了上下文感知注意力网络,可以从全局的角度基于给定的上下文来适应的选择信息片段。其中包括a:单个模态内的语义相关性 b:区域与单词之间的可能的对齐方式。
2、提出了使用语义注意力来捕获模态内的潜在相关性。并且图片选定区域与单词对其的二阶注意是具有可解释性的。

三、本文作者的动机

在以往的研究中,很少有人关注单一模态中,模态之间的语义对应和语义关联。(作者从更加细粒度的角度看待跨模态的检索问题)

四、作者的方法与框架

1、Method

假设一个输入图像文本对,我们首先将图像中的区域和句子中的单词嵌入到以共享空间中。具体的,对图像使用the bottom-up attention生成图片区域以及对应的表示V,同时,对于句子中的单词进行基于上下文的编码,生成文本表示U,在关联模块(context-aware attention network)中使用CAAN提取局部特征,捕捉 region-word pairs之间的语义对其和在单个模态内片段之间的语义相关性。最后通过图像与文本的匹配损失对模型进行训练。
Context-Aware Attention Network for Image-Text Retrieval——2021CVPR 中科院_第1张图片

2、Visual Representations
对图像采取注意力机制的原因:

给定一幅图像,我们观察到人们倾向于频繁提及显著的物体,并描述它们的动作和属性等,因此我们不从像素级图像中提取全局CNN特征,而是关注局部区域,并利用自下而上的注意力。

对于输入的图像,我们使用 Fast R-CNN与RestNet-101对图片进行特征提取,并通过一个线性层将其映射到D维空间。

3、Textual Representations

将文本句子中的单词进行One-Hot 编码后进行输入(不是单独处理每个单词,而是同时考虑单词及其上下文进行编码),通过单词嵌入层映射为300维的特征向量输入到GRU网络得到文本的特征表示通过线性层映射到D维空间。
Context-Aware Attention Network for Image-Text Retrieval——2021CVPR 中科院_第2张图片
在这里插入图片描述

4、上下文感知注意里网络

将得到的图像-文本特征表示进行特征融合,得到融合矩阵H,通过对融合矩阵H进行纵向矩阵计算得到image的inter-model Attention,进行后续矩阵计算得到intra-model Attention,对融合矩阵横向矩阵计算得到text的inter-model Attention后计算得到intra-model Attention。(这篇论文的框架方法中比较难看懂的就是这里的矩阵计算,看懂之后又会觉得难度适中,文中很神奇的时将一系列矩阵操作与模态间和模态内的注意力联系起来,非常新颖)
Context-Aware Attention Network for Image-Text Retrieval——2021CVPR 中科院_第3张图片
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
Context-Aware Attention Network for Image-Text Retrieval——2021CVPR 中科院_第4张图片
Context-Aware Attention Network for Image-Text Retrieval——2021CVPR 中科院_第5张图片

五、实验结果

Context-Aware Attention Network for Image-Text Retrieval——2021CVPR 中科院_第6张图片
消融实验
Context-Aware Attention Network for Image-Text Retrieval——2021CVPR 中科院_第7张图片

你可能感兴趣的:(多模态图文检索论文,网络,python,计算机视觉,深度学习,机器学习)