Composing Text and Image for Image Retrieval - An Empirical OdysseyNam

论文杂记
上一篇 主目录 下一篇

文章结构

    • 1 预备知识
      • 1.1 Cross-modal image retrieval
      • 1.2 特征融合方法
        • 1.2.1 LSTM
        • 1.2.2 Attribute as Operator
    • 2 本文方法
      • 2.1 整体框架
      • 2.2 TIRG
      • 2.3 Loss Function
    • 3 实验
      • 3.1 训练数据
    • 附录

前言
2019CVPR的一篇文章《合成文本和图像用于图像检索–经验之旅》,本文研究问题通俗的说,就是给定一幅图像并且加上特定的文字约束,检索满足这个条件的图像。(文字/图像特征组合可用于查询分类,学习成分等,但在图像检索领域还没有相关的研究)
Composing Text and Image for Image Retrieval - An Empirical OdysseyNam_第1张图片

本文要点

  1. 本文通过图像和文字的结合来进行图像检索,那么图像和文字是如何来表示的。也就是说,如何学习一种用于表述文字和图像的跨模型组合特征(提出新的特征提取的方法)
  2. 本文思想是,文本应该修改查询图像的特征(通过文字),但得到的特征向量仍然与目标图像在相同的空间中(例如上面图二,文字“在中间底部添加一个红色的圆柱体”这是一个特征X,所得图像与原图像还在相同的空间,其他特征也相同,即只有特征X的区别)。本文通过一个”Text Image Residual Gating ”来实现这个目标,称之为文本图像残留门控(或简称TIRG)
  3. paper创建了一个新的dataset:CSS(使用图像和文字结合检索)

本文引用仅供学习用,如有侵权请联系删除。


1 预备知识

1.1 Cross-modal image retrieval

文中提到跨模式图像检索(Cross-modal image retrieval)的作用:

  1. 文本到图像检索(text to image retrieval)
    Learning deep structure-preserving image-text embeddings. InCVPR, 2016
  2. 草图到图像检索(sketch to image retrieval)
    The sketchydatabase: learning to retrieve badly drawn bunnies.
  3. 跨视图图像检索(cross view image retrieval)
    Learning deep representations for ground-to-aerial geolocalization
  4. 事件检测(event detection)

1.2 特征融合方法

Image Only: we setφxt=φx.
Text Only: we setφxt=φt.
Concatenate computesφxt=fMLP([φx,φt])

1.2.1 LSTM

LSTM(Long Short Term Memory networks)长短期记忆网络

训练一个LSTM,首先输入图像特征,然后在文本中输入单词,从而对图像和文本进行编码;这个LSTM的最终状态被用作表示φxt

https://blog.csdn.net/gzj_1101/article/details/79376798
https://www.cnblogs.com/micrari/p/9222297.html

1.2.2 Attribute as Operator

嵌入每个文本作为一个变换矩阵Tt,将Tt应用到φx来创建φxt

2 本文方法

2.1 整体框架

Composing Text and Image for Image Retrieval - An Empirical OdysseyNam_第2张图片
图中显示了应用于CNN卷积层的修改。 但是也可以对全连接层(其中W = H = 1)应用修改以更改表示的非空间属性。本实验中修改了Fash-ion200k和MIT-States的最后一个fc层,因为 修改是更具全局性和抽象性的。 对于CSS,在合并(最后一个卷积层)之前修改最后一个2D特征图,以捕获图像内部的低空间变化。 选择要修改的层是该方法的超参数,可以根据验证集进行选择

paper目标是为文本+图像查询学习一种嵌入空间,使匹配(查询、图像)对接近:

1. 使用RESNET-17 CNN来对查询图像x编码以获得2D空间特征矢量fimg(X)=φx∈RW×H×C,其中W的宽度,H是高度,和 C = 512是特征的信道数
2. 使用标准LSTM来编码查询文本T。在最后的时间步中,用ftextt∈Rd来作为隐藏状态,尺寸为d=512。我们要保持文本编码器尽可能地简单。
3. 结合两个特征来计算φxt= fcombine(φx,φt).
这两种特征的结合方式有很多种,见1.2 特征融合方法,还有本文提出的Text Image Residual Gating (or TIRG for short)

2.2 TIRG

TIRG(Text Image Residual Gating),本文提出的一种将文本特征和图像特征相融合的方法:
在这里插入图片描述

  • where fgate,fres∈RW×H×C are the gating and the residual features. wg,wr are learnable weights to balance them.

函数 fgate的定义如下:
在这里插入图片描述

  • where σ is the sigmoid function, is element wise product, ∗ represents 2d convolution with batch normalization,and Wg1 and Wg2 are 3x3 convolution filters.Note that we broadcast φt along the height and width dimension so that its shape is compatible to the image feature map φx.(为了使φx和φt尺寸相同,需要对φt进行宽和高的broadcast/padding)

函数 fresidual的定义如下:
在这里插入图片描述

  • ∗ represents 2d convolution with batch normalization,and Wr1 and Wr2 are 3x3 convolution filters.

我们的直觉是,我们想要修改查询图像的特征,而不是通过传统的特征融合从现有的特征中创建新的特征。这得益于ResBlock的设计:门控标识将输入图像特征作为输出合成特征的参考,就好像它们在同一个有意义的图像特征空间中;然后添加的剩余连接表示该特征空间中的修改或行走。【也就是说,给定一幅图像x,通过文本t修改x的特征,而不是传统的特征融合方式:从现有的创建出一个新的特征】

2.3 Loss Function

suppose we have a training minibatch of B queries,用于检索的特征向量:
在这里插入图片描述
目标图像的特征向量:
在这里插入图片描述
创建一个集合Ni包含一个正样本φi+ 和K-1个负样本(集合里一共K个):
在这里插入图片描述
重复M次,记作Nim,来评估所有可能的集合(M个集合)

定义损失函数 softmax cross-entropy loss:
在这里插入图片描述

  • where κ(小k) is a similarity kernel and is implemented as thedot product or the negative l2 distance
  • K取值最小的情况:当K(大K,这里的K是集合Ni中的元素个数,和公式中小k不同)=2时(集合Ni中有一个正样本一个负样本):
    在这里插入图片描述
  • 当K比较大时,最大值K=B,此时M=1【K=B,集合Ni中所有样本都是positive】:
    在这里插入图片描述

根据经验,这种K=B情况更有辨别力,适应速度更快,但更容易出现过拟合。因此,我们设置Fashion200k 为K =B,因为它是更困难的收敛;其他数据集用K = 2。

3 实验

3.1 训练数据

Fash-ion200k , MIT-States , and a new synthetic datasetwe created called CSS (see Section4.3)

附录

【问题】end-to-end learning used to image retrieval???
《End-to-end learning of deep visual representations for image retrieval》

你可能感兴趣的:(图像检索论文,图像检索,TIRG)