【CAMP论文笔记】CAMP: Cross-Modal Adaptive Message Passing for Text-Image Retrieval

CAMP论文笔记—CAMP: Cross-Modal Adaptive Message Passing for Text-Image Retrieval

  • Abstract
  • Introduction
  • Proposed Method
  • Experiments

Abstract

  1. 以往的图文检索文献一般采用将图像和文本特征都映射到一个融合嵌入空间中去比较彼此间的相似性,但这些方法通常忽视了融合空间中二者的交互信息,比如当人去对应图像和文本的时候会选择性地关注到一些显著性的区域
  2. CAMP自适应地控制跨模态交互时的信息流,(1)细粒度的跨模态交互;(2)样本选择方案;(3)a hardest negative binary crossentropy loss
  3. Dataset: MSCOCO and Flickr30k

Introduction

  1. 关注到图像中显著性区域和文本中的salient words,并且对这些交互信息进行过滤,实现细粒度的多模态匹配。
    【CAMP论文笔记】CAMP: Cross-Modal Adaptive Message Passing for Text-Image Retrieval_第1张图片

  2. 为了增强文本和图像两者间的信息交互,提出Cross-modal Adaptive Message Passing model (CAMP)模型,包含Cross-modal Message Aggregation和Cross-modal Gated Fusion 两个模块

  3. 跨模态信息传递模块
    Cross-modal Message Aggregation 跨模态信息传递模块分别将salient regions和salient textual words作为messages传递给每个词或者图像的每个区域。

  4. 跨模态门控特征融合模块
    Motivation
    原始特征及CMA传递过来的交互信息之间的多模态特征融合,而且cross-modal feature fusion for text-image retrieval这个问题在之前还没研究过…作者认为key challenge在于图像文本对其实不需要完全匹配的上(比如句子中未描述的背景区域),如果融合了一些不相关的信息,可能导致模型get confused从而效果不好
    Method
    设计一个soft gate,自适应控制信息融合的程度,判定为对齐的特征可以在更大程度上进行融合

  5. 这样信息融合之后,无法计算在嵌入空间中的特征距离,因此提出采用 在hardest negative pairs中计算binary cross-entropy loss,并将其作为 监督信息

Proposed Method

【CAMP论文笔记】CAMP: Cross-Modal Adaptive Message Passing for Text-Image Retrieval_第2张图片
以文本到图像的信息传递为例,计算句子中每个词同每个区域之间的特征相似性
【CAMP论文笔记】CAMP: Cross-Modal Adaptive Message Passing for Text-Image Retrieval_第3张图片
在文本特征维度上进行归一化,并将原始的文本特征和带有区域相似性的词特征融合,作为message进行传递
【CAMP论文笔记】CAMP: Cross-Modal Adaptive Message Passing for Text-Image Retrieval_第4张图片
如何融合message和视觉特征?
计算一个gating function,如果该区域能较好匹配文本,gate value则会比较高
【CAMP论文笔记】CAMP: Cross-Modal Adaptive Message Passing for Text-Image Retrieval_第5张图片
对于已经得到的fused features,通过一个linear projection和softmax norm,得到最终的attention weights.

损失函数设计
【CAMP论文笔记】CAMP: Cross-Modal Adaptive Message Passing for Text-Image Retrieval_第6张图片

Experiments

pretrained Faster R-CNN – region features
extract the top 36 region proposals for each image + average pooling + linear projection
embed each word + single-layer bidirectional GRU on whole sentence
【CAMP论文笔记】CAMP: Cross-Modal Adaptive Message Passing for Text-Image Retrieval_第7张图片
Experiment results
【CAMP论文笔记】CAMP: Cross-Modal Adaptive Message Passing for Text-Image Retrieval_第8张图片
【CAMP论文笔记】CAMP: Cross-Modal Adaptive Message Passing for Text-Image Retrieval_第9张图片

你可能感兴趣的:(图文匹配,论文阅读,人工智能,深度学习)