论文下载:BATCH: A Scalable Asymmetric Discrete Cross-Modal Hashing | IEEE Journals & Magazine | IEEE Xplore
有监督的跨模态散列引起了很多关注。然而,仍然存在一些挑战,例如,如何有效地将标签信息嵌入到二进制代码中,如何避免使用大的相似度矩阵并使模型可扩展到大规模数据集,如何有效地解决二进制优化问题。为了应对这些挑战,在本文中,我们提出了一种新的有监督的跨模态散列方法,即 Scalable Asymmetric discreTe Cross-modal Hashing,简称 BATCH。它利用集体矩阵分解来学习标签和不同模态的公共潜在空间,并通过最小化距离-距离差异问题将标签嵌入到二进制代码中。此外,它通过非对称策略在公共潜在空间和哈希码之间建立连接。有鉴于此,它可以进行跨模态检索,并将更多的相似性信息嵌入到二进制代码中。此外,它在优化问题中引入了量化最小化项和正交约束,并离散地生成二进制码。因此,量化误差和冗余可以大大减少。此外,它是一个两步法,使优化简单且可扩展到大规模数据集。在三个基准数据集上的广泛实验结果表明,BATCH 在准确性和效率方面优于一些最先进的跨模态散列方法。
近几年见证了互联网上多模态、高维多媒体数据的爆炸式增长。为了搜索此类数据,在许多情况下,由于计算成本高,传统的最近邻搜索变得不切实际。为了解决这个问题,已经提出了许多近似最近邻(ANN)搜索方法。特别是作为一种具有代表性的人工神经网络技术,哈希算法越来越受到关注。它通过保持原始空间中的相似性将实例映射到汉明空间;此后,通过在汉明空间 [1]、[2]、[3] 中执行 XOR 操作,搜索变得更加高效。此外,存储成本也可以大大降低。因此,最近,已经提出了各种散列方法 [4]、[5]、[6]、[7]、[8]、[9]。
大多数开创性的散列方法都是为单峰检索而设计的,其中检索数据库中的查询和样本具有相同的模态[10]、[11]、[12]。然而,在很多检索任务中,人们希望一个模型能够进行跨模型检索。例如,给定具有一种模态(例如文本)的查询,模型返回具有其他模态(例如图像或音频)的相关样本。为了解决这个问题,最近,已经设计了许多跨模式散列方法 [13]、[14]、[15]。一般来说,跨模态哈希可以大致分为两类:无监督和有监督的。前者仅通过捕获原始空间中多个模态之间的相关性来学习二进制代码。相比之下,后者进一步考虑了语义信息,并获得了更有希望的性能。但是,仍有几个问题需要进一步考虑:1)大多数监督哈希方法只是简单地构建样本对的语义相似性亲和矩阵,不能充分利用样本的标签信息。 2) 这些方法的内存和计算复杂度通常非常高,因为使用了 n ? n 成对相似度矩阵。为了解决这个问题,他们通常采用采样策略来减少时间和空间成本,从而导致信息丢失和性能不理想。 3)为了解决二进制优化问题,许多方法放宽了二进制约束并生成近似解,这可能导致量化误差大和哈希码质量低。 4)一些方法同时学习紧凑的二进制代码和散列函数,使优化问题复杂且不灵活。
为了同时解决上述挑战,在本文中,我们提出了一种新颖的有监督的跨模态散列方法,即可扩展的非对称离散跨模态散列,简称 BATCH。具体来说,要执行模态检索,它采用集体矩阵分解来学习标签和不同模态的公共语义潜在空间,并基于公共空间中的表示生成二进制代码。为了充分利用标签信息,它假设标签的成对距离应该保留在汉明空间中。为此,它解决了距离-距离差最小化问题,其中标签成对距离和哈希码成对距离之间的差值被最小化。鉴于此,既可以充分利用标签的语义相关性,又可以避免使用较大的 n ? n 相似度矩阵。因此,可以降低优化过程中的时间和空间复杂度,例如与训练集的大小成线性关系,使其可扩展到大规模数据集。此外,二进制代码是离散生成的,而不是通过松弛方案生成的;因此,可以进一步减小大的量化误差。值得注意的是,BATCH 是一个两步法。基于第一步生成的二进制代码,它可以采用任何强大的模型作为哈希函数,非常灵活。
本文的主要贡献总结如下:
1、提出了一种新的有监督的跨模态散列方法。它不仅可以通过最小化距离距离差异问题来充分利用标签的监督信息,而且还可以避免使用大的成对相似度矩阵,使其高效且可扩展到大规模数据集。 |
2、提出了一种替代算法来解决 BATCH 中的优化问题。基于该算法,生成二进制码不松弛;因此,可以避免大的量化误差问题。 |
3、在三个基准数据集上进行了广泛的实验。实验结果表明,BATCH 在检索准确性和可扩展性方面都优于一些最先进的跨模态散列方法。 |
本文的其余部分安排如下。第 2 节简要概述了一些相关工作。第 3 节详细介绍了所提出的方法。第 4 节报告了广泛的实验结果和讨论,然后是第 5 节的结论和未来工作。
如前所述,已经提出了许多散列方法,可以分为数据无关和数据相关两种。前者通过一些人为的策略学习哈希码或哈希函数,而不利用特定数据中的信息。例如,局部敏感散列(LSH)[16]是具有代表性的数据无关散列之一。相反,后者能够利用特定数据中包含的信息;因此,一般来说,它们可以生成更紧凑的二进制代码。代表性方法包括但不限于谱散列 (SH) [17]、二进制重构嵌入 (BRE) [18]、迭代量化 (ITQ) [19]、离散图散列 (DGH) [20] 和监督散列内核 (KSH) [21]、监督离散散列 (SDH) [22]、快速监督离散散列 (FSDH) [23]。
大多数开创性的散列模型都是针对单模态检索提出的,不能直接用于跨模态检索任务。为了解决这个问题,最近提出了一些跨模式散列方法。根据是否利用语义信息,它们可以分为无监督和有监督的。其中,前者试图在不利用监督信息的情况下从原始空间中的异构数据中捕获内在相关性,并将获得的相关性保存到汉明空间中。一般来说,它们可以进一步分为两类:基于图的和基于矩阵分解的。其中,基于图的算法通过保留相似图来学习二进制代码。例如,融合相似性哈希(FSH)[24]构造了一个无向非对称图,并通过图哈希方案将融合相似性保留到哈希码的学习中。集体重构嵌入(CRE)[25]通过使用特定于模态的模型来解决跨模态数据的异质性。基于矩阵分解的方法试图寻找一个潜在的语义空间来保持多模态数据之间的相关性。例如,集体矩阵分解散列(CMFH)[26]通过采用集体矩阵分解技术来学习统一的散列码和散列函数。潜在语义稀疏散列(LSSH)[27] 寻找潜在空间,并通过矩阵分解和稀疏编码将它们映射到联合抽象空间中。复合相关量化(CCQ)[28]联合学习相关最大映射并将多模态数据转换为同构潜在空间。这些方法可以进行跨模态检索;但是,他们无法利用监督信息来进一步提高性能。
相比之下,有监督的跨模态哈希方法能够结合语义标签来学习更具区分性的哈希码,并取得了非常有希望的性能。例如,语义相关最大化(SCM)[29]直接将语义标签集成到成对相似度中,并采用松弛策略来解决哈希码的二进制约束。语义保持散列(SePH)[30]通过最小化 Kullback-Leibler(KL)散度来近似训练数据与待学习散列码的语义亲和度,然后分两步学习统一的二进制码和散列函数方式。半松弛监督散列(SRSH)[31]采用半松弛策略来解决NP-hard二进制优化问题,通过测量语义成对相似度同时生成二进制码和哈希函数。监督矩阵分解散列(SMFH)[32] 为散列设计了一个新的集体矩阵分解框架,并采用图正则化来保持多模态原始特征之间的相似性。由于使用了成对相似矩阵,SePH、SRSH 和 SMFH 无法扩展到大规模数据集。 Scalable discCRete mATrix faCtorization Hashing (SCRATCH) [33] 通过采用集体矩阵分解和带标签的语义嵌入来生成语义潜在空间,并联合学习散列函数和散列码。在这些有监督的方法中,有些方法,即 SCM、SMFH、SePH,采用松弛方案来解决优化问题,导致量化误差较大。此外,一些方法,即 SMFH、SePH、SRSH、通过计算至少一个成对相似度矩阵来嵌入语义信息,导致语义信息丢失并使它们对于大规模数据集不可扩展。此外,那些基于矩阵分解的方法,即 SMFH、SCRATCH,不能很好地捕捉不同模态之间的语义相关性。此外,大多数上述有监督的跨模态散列方法,即 SCM、SRSH、SMFH 和 SCRATCH,同时学习二进制码和散列函数,增加了优化难度并使其不灵活。
最近,已经提出了一些深度跨模态散列方法 [34]、[35]、[36]、[37]。与浅层方法相比,它们可以直接使用原始数据作为输入,而不是手工制作的特征。得益于深度神经网络强大的非线性表示能力,它们取得了更有希望的性能。但是,它们中的大多数训练耗时,并且无法优化复杂的目标函数。因此,在本文中,我们主要关注损失函数和优化算法的设计,这对于生成高质量的哈希码非常重要。
BATCH的框架如图1所示。它由两个步骤组成,即哈希码学习和哈希函数学习。第一步,它利用集体矩阵分解来学习标签和不同模态的公共潜在空间,并通过解决标签和成对哈希码之间的距离-距离差异最小化 (DDDM) 问题来进一步利用标签信息。同时,它通过非对称相似性保持策略在公共潜在空间和哈希码之间建立连接。此外,它结合了公共潜在空间和哈希码之间的量化最小化,并对公共潜在空间施加正交约束。有鉴于此,它可以减少量化误差并生成有区别的二进制码。此后,二进制代码由离散优化算法离散生成。在第二步中,它在第一步生成的二进制代码的监督下学习不同模态的哈希函数。因此,可以灵活地采用任何强大的模型作为其哈希函数,也降低了优化问题的难度。每个组件在以下小节中详细说明。
利用集体矩阵分解来学习标签和不同模态的公共潜在空间, 并通过最小化距离-距离差异问题将标签嵌入到二进制代码中。此外,它通过非对称策略在公共潜在空间和哈希码之间建立连接,离散地解决二进制优化问题而不松弛。这样优化难度和量化误差可以大大降低。
在本文中,我们提出了一种新颖的有监督的跨模态散列方法,即Scalable Asymmetric discreTe Cross-modal Hashing,简称BATCH。它通过通用语义潜在空间学习和距离-距离差异最小化充分利用语义标签,构建了一个它们之间通过非对称相似性保持策略连接,从而产生更具辨别力的哈希码。据我们所知,BATCH 是第一个通过距离-距离差异最小化将语义信息嵌入二进制代码的工作,并共同考虑了公共语义潜在空间。此外,它采用两步训练方案和替代优化算法,离散地解决二进制优化问题而不松弛。此后,优化难度和量化误差可以大大降低。三个基准数据集的实验结果表明,BATCH 在跨模式检索任务上优于一些最先进的浅层和深层哈希方法,并且可以扩展到大规模数据集。值得注意的是,BATCH是一个浅层模型,主要侧重于损失函数和优化算法的设计。在未来的工作中,我们计划将损失函数嵌入到深度网络中,并设计一个端到端的框架以获得更好的性能。