《Look, Imagine and Match: Improving Textual-Visual Cross-Modal Retrieval with Generative Models》

来源:CVPR2018

一、Introduction

  • 第一篇同时利用GAN和Reinforcement Learning(RL)做跨媒体检索的文章。
  • 这个网络可以同时做三个跨媒体的任务:cross-media retrieval,image caption and text-to-image synthesis(对于后两个任务,文章只给出了可视化的结果,没有给出定量的分析)。
  • 这篇文章发表在CVPR2018上并且是Spotlight,在MSCOCO上cross-media retrieval的性能达到state-of-the-art。

文章要做的事情(cross-media retrieval):

输入:image(sentence)+dataset      输出:sentence(image)rank list

 

文中将生成过程结合到跨模态特征嵌入中,通过该方法我们不仅可以学习全局抽象特征还有局部层次特征。

二、Contributions:

1.我们将两个生成模型结合到传统的文本-视觉特征嵌入中。

2.对基准数据集MSCOCO进行了广泛的实验。实验表明,底层和抽象特征的组合可以显著改善跨模态图像标题检索的性能。

三、Model:

《Look, Imagine and Match: Improving Textual-Visual Cross-Modal Retrieval with Generative Models》_第1张图片

GXN模型的主旨:

主要包含三个步骤:Look、Imageine、Match

Look:给出一个查询文本或图像,提取出对应的抽象表示。

Image:将第一步中得到的一种模态的特征表示生成为另一种模态表示,并将其和真实数据进行比较来生成一个更加精细的底层表示。

Match:使用组合了高层抽象表示和局部底层表示的特征表示来进行图像-文本对的关联匹配。

《Look, Imagine and Match: Improving Textual-Visual Cross-Modal Retrieval with Generative Models》_第2张图片

提出的生成式跨模态特征学习框架

(generative cross-modal feature learning framework,GXN)

1、第一个部分相似于已经存在的跨模态特征表示:将不同模态的特征映射到一个公共的空间;不同之处在于本文使用了两路的特征表示来使表示出的视觉特征和文本特征接近。

作为高层抽象特征而

作为精细的的底层特征。底层特征被用来指导其他两路进行生成式的特征学习。整个第一部分主要包括一个图像编码器

和两个语句编码器

第二部分(蓝色通道)利用底层视觉特征

来生成一个描述语句。它包括一个图像编码器

和一个语句解码器

通过设置一个合适的loss函数来与真实的文本描述进行对抗训练,并通过反向传播来调整

第三部分(绿色通道)通过使用一个生成对抗模型来从文本特征

中生成一副图像,包括一个生成器/解码器

和一个判别器

最终,通过两路的跨模态特征生成学习,希望学习到强大的跨模态特征表示,在测试时

将会作为最终的特征表示来进行跨模态检索。

跨模态特征表示

给出一个图像-文本对

首先对每个模态的数据分别进行编码,

其中

为线性映射函数,

分别是图像和文本描述的映射向量。

与普通的跨模态特征表示方法一样,本文使用了一个二元ranking loss来学习模型参数,考虑到两路的跨模态特征表示,loss函数可写为:

《Look, Imagine and Match: Improving Textual-Visual Cross-Modal Retrieval with Generative Models》_第3张图片

其中,

是边缘阈值,

图像-文本生成特征学习

对于图像-文本的训练通道,目标是让底层的特征表示

生成与真实文本描述尽可能相似的文本描述。首先通过

编码图像,接下来使用


将底层的特征解码为文本描述。

训练时,首先使用一个word-level的交叉熵损失:

为了直接优化metrics,使用了最小化负期望奖赏来优化模型:

最终的损失函数为:

文本-图像生成对抗特征学习

对于文本-图像的训练通道,目标是让底层的特征表示

生成与真实图像尽可能相似的一副图像。在这里使用GAN来进行生成:训练判别器来从生成的样本(假图像,真描述)和样本(真图像,假描述)中辨别出真实的样本(真图像,真描述)。然后,使判别器

和生成器

进行如下的极大-极小训练:


其中判别器损失

和生成器损失

分别为:

考虑到数据的数量限制和

与噪声样本

之间的不平滑性,最终的损失可写为:

《Look, Imagine and Match: Improving Textual-Visual Cross-Modal Retrieval with Generative Models》_第4张图片


四、实验结果

本文设置了多种baseline进行比较,证实了提出的两种生成模型的有效性:

《Look, Imagine and Match: Improving Textual-Visual Cross-Modal Retrieval with Generative Models》_第5张图片

表1:在MSCOCO 1K-image测试集上的跨模态检索结果

《Look, Imagine and Match: Improving Textual-Visual Cross-Modal Retrieval with Generative Models》_第6张图片

表2:在MSCOCO 1K-image测试集上使用sentence-level metrics对检索的captions的质量进行评估。

与MSCOCO数据集上state-of-the-art方法的比较:

《Look, Imagine and Match: Improving Textual-Visual Cross-Modal Retrieval with Generative Models》_第7张图片

表3:在MSCOCO 数据集上和当前前沿的方法进行跨模态检索的比较结果。

可视化检索结果:

《Look, Imagine and Match: Improving Textual-Visual Cross-Modal Retrieval with Generative Models》_第8张图片

图5:跨模态检索的结果。

可视化word embedding:

《Look, Imagine and Match: Improving Textual-Visual Cross-Modal Retrieval with Generative Models》_第9张图片

图6:word embedding的可视化结果

五、总结

本文提出了一种新颖的特征表示来进行跨模态检索。创新性地将图像-文本生成模型和文本-图像生成模型引入到传统的跨模态表示中,使其不仅能学习到多模态数据的高层的抽象表示,还能学习到底层的表示。显著超越state-of-the-art方法的表现证实了该方法的有效性。

你可能感兴趣的:(《Look, Imagine and Match: Improving Textual-Visual Cross-Modal Retrieval with Generative Models》)