论文阅读笔记:On the Role of Correlation and Abstraction in Cross-Modal Multimedia Retrieval

ps:这篇文章应该是A New Approach to Cross-Modal Multimedia Retrieval的扩充

0.Pre-work

  • 提出了什么问题:
      文本和图像检索是信息检索、计算机视觉和多媒体的一个重要研究课题,而论文此前的跨膜态检索本质上是unimodal的,实现跨模态搜索通常是通过人工annotation,基于此论文提出应该如何建立一个模型,可以联合文本和图像的模态,以达到可以通过查询文本检索图像或者通过查询图像查找文本,并达到一个高的检索精度
  • 怎样解决:
       论文提出了一种新型的跨膜态检索方法,将文本与图像提取的特征映射到同一个子空间来比较相似性
  • 达到的效果:
  • 还存在的问题(或后期工作):

1.方法

  论文考虑从文本和图像的数据集 D = { D 1 , D 2 . . . D ∣ D ∣ } \mathcal{D}=\{D_1,D_2...D_{|D|}\} D={D1,D2...DD}中检索信息,其中文本与图像所在的特征空间分别为 T \mathcal{T} T I \mathcal{I} I
  由于文本和图像的表示是不一样的,所以二者是没有自然相关性的,也就是说要实现检索就要找到一个两种表示的中间空间,把文本和图像的特征从各自的特征空间映射中间空间 U T \mathcal{U^T} UT U I \mathcal{U^I} UI中去,我们假设有可逆映射:
M I : R I → U I \mathcal{M_I} : \mathcal{R^I}\rightarrow\mathcal{U^I} MI:RIUI
M T : R T → U T \mathcal{M_T} : \mathcal{R^T}\rightarrow\mathcal{U^T} MT:RTUT
M : U T → U I \mathcal{M} : \mathcal{U^T}\rightarrow\mathcal{U^I} M:UTUI

比如说要查询 T q \mathcal{T_q} Tq,只要找到映射 M T \mathcal{M_T} MT,然后根据映射 M \mathcal{M} M找到图像的映射到的中间空间 U I \mathcal{U_I} UI再根据逆映射 M I − 1 \mathcal{M_I^{-1}} MI1即可检索出配对的图像;

  跨模态检索的主要问题就是如何学习这个中间空间;论文提出了几种方法:

  • 其一:学习两个线性投影 R I \mathcal{R^I} RI R T \mathcal{R^T} RT映射到相关的二维子空间 U I \mathcal{U^I} UI U T \mathcal{U^T} UT,这样保持了表示的抽象级别(This maintains the level of abstraction of representation 不知道术语是不是这么翻译)
  • 其二:学习两个非线性投影 R I \mathcal{R^I} RI R T \mathcal{R^T} RT映射到相关的二维语义子空间 S I \mathcal{S^I} SI S T \mathcal{S^T} ST,这增强了表示的语义抽象。

1.1correlation matching(CM)

  学习 U T \mathcal{U^T} UT U T \mathcal{U^T} UT文本和图像空间中的表示之间的最佳对应关系。 一种方法是依赖子空间学习,这是一个学习框架,它是一些视觉和文本文献中一些非常流行的降维方法的基础,如潜在语义索引(latent semantic indexing)或主成分分析(PCA)。 从计算的角度来看,子空间学习方法通常是有效的,并且易于概念化,实现线性变换。 在这种情况下,图像和文本子空间之间自然距离就是是它们的相关性。 这表明可以采用典型相关分析(CCA)来实现跨模态建模的自然子空间表示。
 &emsp:典型相关分析(CCA)是一种类似于PCA的数据分析和降维方法。 虽然PCA仅处理一个数据空间,但CCA是一种跨两个(或更多)空间共同降维的技术,它提供相同数据的异构表示。 假设这两个空间中的表示包含一些联合信息,这些信息在它们之间的相关性中得到了反映。 CCA学习d维子空间 U T \mathcal{U^T} UT U T \mathcal{U^T} UT,以最大化两种模态之间的相关性。


如以下公式:
            在这里插入图片描述
为CCA的优化目标,找到使相关性最大化的映射方向向量 w i w_i wi w t w_t wt,每个文本 T ∈ R T T \in \mathbb{R^T} TRT 在向量 w t w_t wt的基础上映射到其子空间 p T = P T ( T ) \mathcal{p_T}=\mathcal{P_T}(T) pT=PT(T),每个图像 I ∈ R I I \in \mathbb{R^I} IRI 在向量 w i w_i wi的基础上映射到其子空间 p I = P I ( I ) \mathcal{p_I}=\mathcal{P_I}(I) pI=PI(I),如下图:
论文阅读笔记:On the Role of Correlation and Abstraction in Cross-Modal Multimedia Retrieval_第1张图片

1.2 semantic matching(SM)

1.3 semantic correlation matching(SCM)

  结合子空间和语义模型,在这种情况下,首先用CCA来表示最大的相关子空间 U T \mathcal{U^T} UT U I \mathcal{U^I} UI,然后在这些子空间中的每一个中学习学习逻辑回归量 L T \mathcal{L^T} LT L I \mathcal{L^I} LI,基于在 U I \mathcal{U^I} UI上投影之后的语义映射 π I = L I ( P I ( I ) ) \pi_I= \mathcal{L}_I(\mathcal{P}_I(I)) πI=LI(PI(I)) π T = L T ( P T ( T ) ) \pi_T= \mathcal{L}_T(\mathcal{P}_T(T)) πT=LT(PT(T)),分别检索最终基于的图像文本距离 D ( I , T ) \mathcal{D}(I,T) D(I,T)。 论文将这种类型的检索称为语义相关匹配。

1.4 text and image representation文本-图像的特征表示

  文本表示为LDA特征,图像表示为SIFT特征;
  在 I I I中,图像表示基于 scale invariant feature transformation(SIFT)。 从训练集中的每个图像中提取一堆SIFT特征。 然后用k均值聚类算法学习视觉词的编码本或词典。 从每个图像提取的SIFT特征是用该编码本或字典量化的矢量,并且图像由该量化产生的SIFT特征直方图表示

Latent Dirichlet Allocaton(LDA)模型LDA是文本语料库的生成模型,其中文本的语义内容或“文本”被概括为混合主题题( mixture of topics.)。 更准确地说,文本被建模为K个主题上的多项分布,每个主题又被建模为单词上的多项分布。 文本Di中的每个单词都是通过从文本特定的主题分布中对主题z进行采样生成的,然后从该主题“多项式”中对单词进行采样。 在T文本中,文档由其主题分配概率分布表示。

你可能感兴趣的:(论文阅读)