Visual Semantic Reasoning for Image-Text Matching Kunpeng(ICCV 2019)笔记

Visual Semantic Reasoning for Image-Text Matching Kunpeng(ICCV 2019)

目的:

本文和其他图像文本匹配的目标一样,通过将两者映射同一嵌入空间,推断出一个完整句子和图像之间的相似度 。但是本文重点改进了图像的表示

解决问题:

当前图像表示缺乏与文本对应的全局语义概念

具体内容:

  1. 找到局部图像区域之间的连接,然后利用GCN进行推理,生成语义关系特征;
  2. 利用gate和memory机制对上面提出的语义关系特征进行全局的语义推理,选取重要的信息,逐步生成整个场景的表征。
    Visual Semantic Reasoning for Image-Text Matching Kunpeng(ICCV 2019)笔记_第1张图片

详细步骤

大致流程:
Visual Semantic Reasoning for Image-Text Matching Kunpeng(ICCV 2019)笔记_第2张图片
3.1图像特征使用Bottom-Up Attention提取
在这里插入图片描述
3.2Region Relationship Reasoning
目的:通过思考区域之间的语义关系来增强区域的表示。
先构建图像中的不同区域特征的相关性。
在这里插入图片描述

这是原始的GCN,再加残差连接得到的新的特征,它们基于最邻近的点得到的。在这里插入图片描述
3.3Global Semantic Reasoning
在上面得到的有关系的区域特征,通过GRU,进行全局语义推理,选择能区别的信息,过滤掉不重要的信息,得到图像的最终表示。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

损失函数

我们用一个GRU来将文本caption映射到相同的D维向量中。然后,联合优化 matching 和 generation 来对其文本C 和图像 I。对于 matching 的部分,作者采用 hinge-based triplet loss:
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

你可能感兴趣的:(论文笔记,深度学习)