Unsupervised Generative Adversarial Cross-modal Hashing

Unsupervised Generative Adversarial Cross-modal Hashing, AAAI 2018

Motivation

Cross-modal hashing 跨模态哈希问题,致力于将各种模态的数据放到一个公共哈希空间中,以更简洁快速地计对跨模态数据进行表达和计算、检索。非监督的方法相比较监督的方法更不用受到初始条件的约束,因此更灵活。但是现存的非监督的方法在计算时忽视了不同模态中的相似结构信息。因此本文提出了UGACH,使用GAN的能力和非监督学习的方法对跨模态数据之间的相似结构信息进行学习。

Attributions

  • 提出了生成对抗网络对multi-modal hashing进行建模。对于给定的一个模态的数据,生成模型G选择其他模态的数据并传递给判别模型D,判别模型区分生成的数据和关联图中采样得到的真值数据以提高检索精度。
  • 提出了关联图,可以获取具有相似结构的跨模态信息对,他们具有更小的hamming距离,可以提高检索精度。

Multimedia Retrieval

  • Unsupervised cross-modal hasing
    通常将跨模态的数据映射到同一个公共海明空间中,最大化相关性。
    相关方法有CCA、CVH、IMH、SH、PDH、CMFH、CCQ等。
    优点:不需要大量人力标注,在实际应用中更灵活可行
    缺点:大多数方法在学习哈希公式时忽视了underlying manifold structure,无法捕捉到有意义的最近邻数据。
  • Supervised cross-modal hasing
    利用标记过的语义信息学习hashing计算公式,如CMSSH、HTH、SCM等。
    缺点:需要大量的人力进行数据标注
  • DNN based methods
    利用深度学习的方法主要包括CMNNH,提高模态间区分能力和模态内相关程度。相关方法有CAH(最大化语义相关性)、DVH(端到端训练特征表达和哈希计算)、DCMH。

Framework

Unsupervised Generative Adversarial Cross-modal Hashing_第1张图片
  • 特征提取模块:(image)19-layer VGGNet,4096-d; (text)BoW,1000-d。
  • 生成器G:依据给定某个模态的数据,选择另一个模态的相关数据并生成一个数据对,送入判别器D。生成器具有2-pathway的结构,接受images和texts作为输入,每一个pathway由一个common representation层和一个hashing层组成,使用两层全链接层组成。第一层可以将跨模态的数据映射到一个公共空间中,将特定模态的数据转化为公共表征,如公式(1)。第二层hashing层可以将公共表征映射到二进制哈希码,如此就可以快速计算hamming距离,如公式(2-3)。如此,G的生成概率使用softmax,公式(4)。
Unsupervised Generative Adversarial Cross-modal Hashing_第2张图片
  • 判别器D:在D中构建了一个关系图,采样获得manifold pairs,与G生成的generated pairs一起作为D的输入,D尝试区分数据来自生成器还是关系图。关系图,可以指导判别器D的训练,它可以捕捉跨模态数据之间的underlying manifold structure。判别器D使用相关性分数通过sigmoid计算实例x的预测概率:
    Unsupervised Generative Adversarial Cross-modal Hashing_第3张图片
    使用对抗学习训练G和D:
    Unsupervised Generative Adversarial Cross-modal Hashing_第4张图片

Experiment

  • 数据集:NUS-WIDE、MIRFlickr,都是大规模image-text-retrival的数据集。
    这里文章将整个retrieval set作为training set,但是也有unsupervised方法的文章将retrieval set中抽取部分作为training set的。
    当retrieval set对应着已经获得的所有数据,比如搜索引擎里已经存好的数据,而query set对应查询时的输入,没有对应结果时,retrieval set的输入应该都可以作为training set。而真实场景中,retrieval set只有一部分是labeled的,还有一些是unlabeled的,这是实验和真实场景的不同。

  • 评价指标:MAP、PR-curve、topK-precision

你可能感兴趣的:(阅读笔记)