文献阅读-深度学习跨模态图文检索研究综述

doi: 10.3778/j.issn.1673-9418.2107076
本文选自
文献阅读-深度学习跨模态图文检索研究综述_第1张图片
摘 要:随着深度神经网络的兴起,多模态学习受到广泛关注。跨模态检索是多模态学习的重要分支,其目的在于挖掘不同模态样本之间的关系,即通过一种模态样本来检索具有近似语义的另一种模态样本。近年来,跨模态检索逐渐成为国内外学术界研究的前沿和热点,是信息检索领域未来发展的重要方向。首先,聚焦于深度学习跨模态图文检索研究的最新进展,对基于实值表示学习和基于二进制表示学习方法的发展动态进行了详细介绍,其中,基于实值表示的方法用于提升跨模态语义相关性,进而提高跨模态检索准确度,基于二进制表示学习的方法用于提升跨模态图文检索效率,减小存储空间;其次,总结了跨模态检索领域常用的公开数据集,对比了不同算法在不同数据集上的性能表现;此外,总结并分析了跨模态图文检索技术在公安、传媒及医学等领域的具体应用情况;最后,结合现有技术探讨了该领域的发展趋势及未来研究方向。
关键词:跨模态检索;深度学习;特征学习;图文匹配;实值表示;二进制表示
以下仅标注学习中遇到的重要内容。

0.引言

多模态学习(multi-modal learning)旨在处理与理解来自感官情态的多源信息。近年来,得益于深度学习的快速发展,多模态学习逐渐成为热点课题。
1976年,文献[1]提出视觉对言语感知的影响,后被用于视听语音识别(audio visual speech recognition,AVSR)技术并成为多模态概念的雏形。自此,多模态信息处理经过了漫长的发展。

[1] MCGURK H, MACDONALD H. Hearing lips and seeing voices[J]. Nature,1976, 264(5588): 746-748.

2010 年,以融合方法和融合水平为线索,文献[2]对已有多模态融合研究方法进行了分类

[2] ATREY P K, HOSSAIN M A, SADDIK A EI, et al. Multi-modal fusion for multimedia analysis: a survey[J]. Multi-media Systems, 2010, 16(6): 345-379

2015 年,文献[3]提出多模态隐 条 件 随 机 场(multi- modal hidden conditional random field,M-HCRF),用以提升多模态数据分类效果

[3] JIANG X, WU F, ZHANG Y, et al. The classification of multi-modal data with hidden conditional random field[J]. Pattern Recognition Letters, 2015, 51: 63-69.

文献[4]提出基于正交正则化约束的深度多模态哈希(deep multi-modal Hashing with orthogonal regularization,DMHOR)方法,用以减少多模态表示的信息冗余

[4] WANG D X, CUI P, OU M D, et al. Deep multimodal Hash-ing with orthogonal regularization[C]//Proceedings of the 24th International Joint Conference on Artificial Intelligence,
Buenos Aires, Jul 25- 31, 2015. Menlo Park: AAAI, 2015:2291-2297.

2019 年,文献[5]将多模态学习主要研究方向分为多模态表示、多模态翻译、多模态对齐、多模态融合和多模态协同感知等。

[5] BALTRUSAITIS T, AHUJA C, MORENCY L P. Multimodal
machine learning: a survey and taxonomy[J]. IEEE Transac-tions on Pattern Analysis and Machine Intelligence, 2019,41(2): 423-443.

这里介绍一下跨模态学习和多模态学习的区别:

跨模态学习是多模态学习的分支,其充分利用了多模态学习中模态间表示、翻译和对齐等策略。跨模态学习与多模态融合的相似之处在于,二者的数据都来自所有模态,但不同之处在于,前者的数据只在某一模态可用,而后者的数据则用于所有模态。

跨模态检索(cross-modal retrieval)是跨模态学习的重要应用之一,又称为跨媒体检索,其特点是训练过程中所有模态的数据都存在,但在测试过程中只有一种模态可用。跨模态检索旨在实现两个不同模态之间的信息交互,其根本目的在于挖掘不同模态样本之间的关系,即通过一种模态样本来检索具有近似语义的另一种模态样本

跨模态图文检索是跨模态检索的重要研究方向,定义如下:
文献阅读-深度学习跨模态图文检索研究综述_第2张图片
以上参考论文:

[7] 欧卫华, 刘彬, 周永辉, 等. 跨模态检索研究综述[J]. 贵州师范大学学报(自然科学版), 2018, 36(2): 114-120.OU W H, LIU B, ZHOU Y H, et al. Survey on the cross-modal retrieval research[J]. Journal of Guizhou Normal Uni-versity (Natural Sciences), 2018, 36(2): 114-120.

对于跨模态图文检索,关键字到图像的检索因为其本质是查询关键字与图像的标注注释之间的匹
配,因此被称为伪“跨模态”问题。跨模态图文检索以视觉数据和自然语言描述为基础,更关注图像和
文本两种模态的交互,其目的是在不借助任何辅助信息的情况下,通过文本(图像)查询来检索图像(文本)。多模态检索、跨模态检索和跨模态图文检索关系如图 1所示。
文献阅读-深度学习跨模态图文检索研究综述_第3张图片
跨模态图文检索分为以图搜文和以文搜图两种形式。

文献[9]提出图像和文本间的语义关系可以定义为三个维度下的八种类别,包含不相关关系、互补关
系、相互依赖关系、锚定关系、插图关系、对比关系、插图不良关系和锚定不良关系

[9] OTTO C, SPRINGSTEIN M, ANAND A, et al. Characteri-zation and classification of semantic image-text relations[J].International Journal of Multimedia Information Retrieval,2020, 9(1): 31-45.

传统方法的缺点和使用深度学习方法的优点:
针对图像和文本之间复杂的语义交互作用,传统的跨模态检索主要采用统计分析方法,如典型相关性分析方法(canonicalcorrelation analysis,CCA)和跨模态因子分析方法(cross-modal factor analysis,CFA),其对实际应用场景中不同模态数据的复杂相关性难以建模。

近年来,深度学习(deep learning)的兴起为跨模态图文检索提供了新选择,并逐渐成
为该领域的热点和主流。一方面,相比于传统方法,深度网络因其高度非线性结构,更适合对模态内
特征和模态间语义关系进行挖掘;另一方面,鉴于小批量训练策略的优势,深度网络能够支持对海量数
据的处理。基于深度学习的跨模态图文检索研究因其良好的性能而倍受关注。

接下来列举近年来相关文献和综述:

2014年,文献[15]将跨模态建模策略分为直接建模和间接建模,前者指通过建立共享层来直接度量
不同模态数据间的相关性,后者指通过构建公共表示空间来建立不同场景不同模态间的语义关联。

[15] FENG F X, WANG X J, LI R F. Cross-modal retrieval with correspondence autoencoder[C]//Proceedings of the 2014 ACM International Conference on Multimedia, Orlando,
Nov 3-7, 2014. New York: ACM, 2014: 7-16.

2015 年,文献[16]将多模态数据间建立关联的策略分为基于共享层与基于公共表示空间的两种关
联方法,该文献对跨模态深度学习模型的设计进行了深入分析。

[16] 冯方向. 基于深度学习的跨模态检索研究[D]. 北京: 北京邮电大学, 2015.
FENG F X. Deep learning for cross-modal retrieval[D]. Beijing: Beijing University of Posts and Telecommunications,2015.

2016年,文献[17]将已有的跨模态检索方法归纳为实值表示学习和二进制表示学习两大
类,并总结了各自的核心思想。

[17] WANG K, YIN Q, WANG W, et al. A comprehensive survey on cross-modal retrieval[J]. arXiv:1607.06215, 2016

2018 年,文献[18]针对模态间内容相似性度量的技术难点,将跨模态检索分为公共空间学习方法和跨模态相似性度量方法,并对不同跨模态检索技术进行总结。

[18] PENG Y, HUANG X, ZHAO Y. An overview of cross-media retrieval: concepts, methodologies, benchmarks, and challenges[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2018, 28(9): 2372-2385.

2018 年,文献[7]将跨模态检索方法分为基于子空间的方法、基于深度学习的方法、基于哈希变换的方法和基于主题模型的方法,指出当前跨模态检索面临的主要问题是缺乏对模态内局部数据结构和模态间语义结构关联的研究。

[7] 欧卫华, 刘彬, 周永辉, 等. 跨模态检索研究综述[J]. 贵州师范大学学报(自然科学版), 2018, 36(2): 114-120.OU W H, LIU B, ZHOU Y H, et al. Survey on the cross-modal retrieval research[J]. Journal of Guizhou Normal University (Natural Sciences), 2018, 36(2): 114-120.

同年,文献[19]从信息抽取与表示、跨模态系统建模两个维度评述了基于表示学习的跨模
态检索模型,并总结了特征抽取方面的研究成果。

[19] 李志义, 黄子风, 许晓绵. 基于表示学习的跨模态检索模 型 与 特 征 抽 取 研 究 综 述 [J]. 情 报 学 报, 2018, 37(4):422-435.LI Z Y, HUANG Z F, XU X M. A review of the cross-modal
retrieval model and feature extraction based on representation learning[J]. Journal of the China Society for Scientific and Technical Information, 2018, 37(4): 422-435.

2018年,文献[20]探索了联合图正则化的跨模态检索方法。

[20] AYYAVARAIAH M, VENKATESWARLU B. Joint graph regularization based semantic analysis for cross-media retrieval: a systematic review[J]. International Journal of Engineering & Technology, 2018, 7: 257-261.

2019年,文献[21]简要介绍了近年来跨模态特征检索及优化的研究进展,并对跨模态数据联合分
析方法及跨模态特征检索面临的问题与挑战进行了概述。

21] AYYAVARAIAH M, VENKATESWARLU B. Cross media feature retrieval and optimization: a contemporary review of research scope, challenges and objectives[C]//Proceedings of the 3rd International Conference on Computational Vision and Bio Inspired Computing, Coimbatore, Sep 25-26, 2019.Cham: Springer, 2019: 1125-1136.

文献[20-21]对跨模态检索方法的具体分支进行了梳理,为相关领域的探索提供了新思路。
本文更聚焦于针对图像-文本的跨模态检索。当前,该领域相关成果归纳如下:
2017年,文献[22]将跨模态图文检索的研究内容分为多模态数据特征表示和模态间关联机制两方面。

[22] 邵杰. 基于深度学习的跨模态检索[D]. 北京: 北京邮电大学, 2017.SHAO J. Cross-modal retrieval based on deep learning[D].Beijing: Beijing University of Posts and Telecommunications, 2017.

2019年,文献[23]根据构建模态间关联方式的区别,将跨模态图文检索分为基于典型关联分析、基于深度学习和基于深度哈希的方法,并就各种跨模态关联方式的缺陷探索了具体的解决思路。

[23] 赵天. 基于深度学习的跨模态图文检索方法研究[D]. 桂林: 桂林电子科技大学, 2019.ZHAO T. Research on the method of cross-modal imageand text retrieval based on deep learning[D]. Guilin: GuilinUniversity of Electronic Technology, 2019.

2021年,文献[24]重点对跨模态图文检索的各种研究工作进行了对比评述,并从文献计量的角度分析了该领域文献的发表情况,同时也对跨模态检索领域的实际应用做了简要介绍,然而,基于深度学习的方法只是其框架中的分支之一,并未详尽介绍其发展状况。

[24] KAUR P, PANNU H S, MALHI A K. Comparative analysison cross-modal information retrieval: a review[J]. Computer Science Review, 2021, 39(2): 100336.

同文献[24]相比,本文除涵盖了实值表示和二进制表示的方法外,更进一步以多模态学习为背景,以深度学习技术为支撑,对基于深度学习的跨模态图文检索现有的研究成果进行了总结。相比于已有综述,本文主要有以下突破:(1)聚焦于近年来最新基于深度学习的跨模态检索研究,弥补了现有文献的不足;(2)着重分析公安、传媒及医学三大领域对跨模态图文检索的具体应用。

1. 跨模态图文检索相关工作介绍

1.1 相关概念

跨模态重构:在给定跨模态数据的情况下联结输入特征表示,然后相互重构各模态数据且保留重构信息,最后比较重构信息与原始信息相似性的过程。

细粒度数据:指信息非常详细具体的数据。数据粒度指数据的详细程度,粒度越小,数据的信息越具体,越容易在机器学习中把握数据的规律与本质。

无监督学习:指事先没有任何训练数据样本而需要直接对数据建模的学习方法。无监督学习仅使用共现信息来学习跨模态数据的公共表示。共现信息指在多模态文档中所共存的不同形式的数据具有相同的语义。

监督学习:指通过有标记的训练数据来推断或建立一个最优模型的学习方法。监督学习利用标签信息来学习公共表示,强制不同类别样本的学习表示距离尽可能远,而相同类别样本的学习表示尽可能接近。

端到端学习(end-to-end learning):也称端到端训练,指在学习过程中缩减人工预处理和后续处理,使模型从原始输入直接到最终输出。其训练数据为“输入-输出”对的形式,无需提供其他额外信息。端到端学习为模型提供了更多根据数据自动调节的空间,增加了模型的整体契合度。

1.2 相关网络结构

跨模态图文检索在深度学习领域主要涉及七种网络结构,现对这七种网络结构做如下介绍。

深度自编码器模型(deep autoencoder,DAE)由一个编码器和一个生成重构的解码器组成。深度自编码器可以产生对输入进行刻画的编码,其通常用于跨模态重构,从而发现跨模态相关性。

深度信念网络(deep belief nets,DBN)由Hinton在 2006 年提出,该网络既可以被视为自编码器进行非监督学习,也可以被视为分类器进行监督学习。

受限玻尔兹曼机模型(restricted Boltzmann machine,RBM)可用于跨模态重建。2012年,Srivastava等人[27]提了一种由多种模态输入组成的深度玻尔兹曼机,该模型可实现模态融合与统一表示,也可应用于分类识别和信息检索任务。

注意力机制模型最早提出于视觉图像领域中,2015 年 DeepMind 团队[28]将其引入到循环神经网络
(recurrent neural network,RNN)模型进行图像分类,取得了良好的效果。目前大多数注意力模型在跨模态图文检索中用于对模态局部特征的表示,以及对不同模态片段的对齐,有助于挖掘模态间细粒
度的对应关系,并在一定程度上能够弥补模态数据缺失的问题。

生成对抗网络(generative adversarial networks,GAN)能够通过两个模块的互相博弈得到良好
的输出。在跨模态图文检索任务中,生成对抗网络一般通过图片和文本相互对抗,使数据间的潜在关系及语义结构被更好地保留,同时生成过程可以学习强大的跨模态特征表示,从而增强跨模态语义一
致性。

卷 积 神 经 网 络(convolutional neural networks,CNN)广泛应用于跨模态图文检索中,是深度学习的代表算法之一。经典的卷积神经网络模型有AlexNet、GoogLeNet、VGGNet、ResNet以 及DenseNet等,常用框架有 Caffe、Torch及 Tensorflow等。其优点在于对高维数据的处理能力强、特征分类效果良好,具有强大的特征表示能力;缺点是依赖于大规模标记样本和复杂的调参过程。跨模态图文检索中常用的卷积神经网络模型有 ResNet、AlexNet等。

长短期记忆网络(long short-term memory,LSTM)可以有效地将短时记忆与长时记忆相结合,借此联合学习数据的上下文信息。在跨模态图文检索任务中,需首先确定从单元状态中被遗忘的信息,进而确定能够被存放到单元状态中的信息,最后通过 tanh的单元状态乘以输出门,用于确定输出的部分。

此外,双向递归神经网络(bidirectional recurrentneural network,BRNN)、基于字嵌入(矢量)的卷积神经网络(word embedding (vector) based convolutionalneural network,WCNN)、循环神经网络、递归神经网络(recursive neural network,RNN)、区域卷积神经网络(region convolutional neural network,RCNN)等也被广泛应用于跨模态图文检索的特征提取任务中。

2. 跨模态图文检索算法研究现状

对基于深度学习的跨模态图文检索,为确保检索准确度,需解决的主要问题是模态间底层数据特
征异构而导致的语义鸿沟
;除此之外,出于对快速检索的需求,跨模态图文检索效率的提升也是当前的研究热点。

因此,基于跨模态图文检索的准确度和效率,目前流行的算法可以被分为两类:实值表示学习和二进制表示学习

实值表示学习方法通常具备高准确率,且更关注图像和文本间的语义匹配问题,旨在学习一个实值公共表示空间,在该空间中不同模态的数据其通用表示是实值的。

二进制表示学习也称为跨模态哈希,通常用于加速跨模态检索,其将不同模态的数据映射到一个共同的汉明空间,但此类方法的二值化过程通常会导致检索精度的降低

文献阅读-深度学习跨模态图文检索研究综述_第4张图片

2.1 实值表示学习方法

目前流行的基于深度学习的实值表示跨模态图文检索方法可分为两类:基于特征表示的方法和基于图文匹配的方法

前一类方法聚焦于对不同模态间特征进行建模,以良好的特征提取来有效解决不同模态数据特征的异构问题,从而保障检索准确度;

后一类方法则关注图像和文本模态间的语义对应关系,旨在通过减小语义鸿沟以提高图文匹配的准确性,从而提高检索的准确度。

2.1.1 基于特征表示的方法

特征提取是影响跨模态图文检索准确度的重要因素,多模态信息的引入使得对不同模态数据进行
建模成为解决跨模态图文检索异构鸿沟问题的关键,基于特征表示的方法将基于深度学习的单模态
特征提取算法应用在跨模态图文检索中,以便对不同模态间特征进行建模。

在基于特征表示的方法中,一些研究者建立了基于最大似然准则的学习框架,通过反向传播和随机梯度下降来优化网络参数。

针对模态特定的特征,文献[8]提出了模态针对型深层结构模型(modality specific deep structure,MSDS)。
该模型使用 CNN 和WCNN 分别提取图像和文本表示,通过使用标准反向传播技术来更新 CNN 与 WCNN 的参数。WCNN可以处理不同长度的序列并获取具有相同维度的结果特征向量[44],能够有效提取文本特征。
实验表明,大规模数据集时模态特定特征学习能够更好地提取输入模态表示,且WCNN的文本特征提取能力优于深度CNN。

更进一步,在文献[8]基础上,文献[46]提出了基于深度双向表示学习模型(deep and bidirectional
representation learning model,DBRLM)的方法。
利用文本描述中的序列和结构信息对特征进行增强,利用双向结构探索匹配与不匹配图像文本对的关系,增加了匹配对的相似性。
实验对比发现,双向表示模型比只考虑单向模态不匹配对的情况有更好的效果,且该方法在匹配数据中能够学习丰富的鉴别信息。

[46] HE Y, XIANG S, KANG C, et al. Cross-modal retrieval via deep and bidirectional representation learning[J]. IEEE Transactions on Multimedia, 2016, 18(7): 1363-1377.

针对单标签或多标签样本跨模态图文检索问题,为了更好地弥合图像和相应语义概念间的差距,文 献 [47]使 用 了 深 度 卷 积 激 活 特 征 描 述 子(deepconvolutional activation feature,DeCAF),将 CNN 实现产生的1 000维度预测得分作为ImageNet的输入视觉特征。
实验表明,DeCAF 可以使学习到的视觉特征具有足够的表征能力,特征提取效果良好。由于预训练的 CNN 模型可以被直接迁移以提取图像视觉特征。

[47] LI Z, LU W, BAO E, et al. Learning a semantic space by deep network for cross-media retrieval[C]//Proceedings of the 21st International Conference on Distributed Multimedia Systems,Vancouver, Aug 31-Sep 2, 2015. Skokie: Knowledge Systems Institute, 2015: 199-203.

针对同一问题,文献[48]对预训练的 CNN 模型进行微调,提出了深度语义匹配方法(deep semantic
matching,deep-SM)。
对不同的目标数据集采用不同的损失函数,使用微调的 CNN 和训练的全连接神经网络将图像和文本投影到高抽象级别的同构语义空间中。
实验表明,微调的方法可以提高其对目标数据集的适应性,有效降低图像与相应语义之间的鸿沟。

[48] WEI Y, ZHAO Y, LU C, et al. Cross- modal retrieval with CNN visual features: a new baseline[J]. IEEE Transactions on Cybernetics, 2017, 47(2): 449-460.

文献[49]利用同一思路,通过微调深度 CNN 模型对图像生成视觉嵌入,有效避免了部分语义信息
的丢失。

总结:基于特征表示的方法一般通过两种方式来获取更好的跨模态输入特征:第一种针对不同应用场景,采用特殊的网络结构或提取特定的特征来获得图像文本表示;第二种方法则对经典的 CNN 模型进行微调改进。该类方法尤其对大规模、多标签数据集有良好的适应性,可以为未来跨模态检索提供更有效的设计思路。

2.1.2 基于图文匹配的方法

基于特征表示的方法面向跨模态原始数据,其关注点在于获得更好的输入特征,通过模态特征学
习减小模态异构问题;相比于基于特征表示的方法,基于图文匹配的方法更关注于不同模态间的结构关联,此类方法通过研究图像和文本模态间的语义对应关系来增强模态间特征表示的一致性

目前主流的基于图文匹配的方法按照模态间语义结构关联的不同可分为三类:图像-文本对齐的方
法、跨模态重构的方法和图文联合嵌入的方法

(1)图像-文本对齐的方法
图像-文本对齐的方法一般通过学习同一实例不同模态特征之间的关系来推断句子片段与图像区域
之间的潜在对齐,进而实现图文匹配。

为了对图像内容及其在自然语言领域的表示同时进行推理,文献[50]提出了多模态双向递归神经网
络结构

核心观点是将句子视为丰富的标签空间,使连续的单词片段对应于图像中某个特定但未知的位置。该模型能够实现对小区域或相对罕见对象的视觉语义对应关系的解释,在图像-句子排序实验中有良好的性能表现。

[50] KARPATHY A, LI F F. Deep visual-semantic alignments for generating image descriptions[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition, Boston, Jun 8-10, 2015. Washington: IEEE Computer Society, 2015: 3128-3137.

进一步,通过结合图像表示和自然语言处理的研究进展,为了回答关于图像的自然语言问题,文献[51]将问题意图推理、视觉场景理解与单词序列预测任务结合起来,提出了 Neural-ImageQA 模型,其中问题与视觉表征一起被输入 LSTM 进行联合训练,其语言输出取决于视觉和自然语言输入,通过单词和像素的端到端训练,获取了良好的匹配结果。
实验表明该方法在“单字”变体情况下能实现最佳性能。

[51] MALINOWSKI M, ROHRBACH M, FRITZ M. Ask your neurons: a neural-based approach to answering questions about images[C]//Proceedings of the 2015 IEEE International Conference on Computer Vision, Santiago, Dec 7-13, 2015.Washington: IEEE Computer Society, 2015: 1-9.

由于图像-文本对齐的方法更关注局部精细的信息,也常用于细粒度的跨模态图文检索任务

文献[52]针对服装领域提出了 FashionBERT 模型,相比于感兴趣区域(region of interest,RoI)模型,时尚文本倾向于描述更精细的信息。因此,FashionBERT 模型由 BERT(bidirectional encoder representations fromtransformers)模型[53]引申得到。BERT 是一种双向注意力语言模型,作为 Transformer[54]在自然语言处理任务的变体之一,其主要作用是对单模态文本数据进行编码。FashionBERT 在提取图像表示时将每个图像分割成相同像素的补丁,作为 BERT 模型的序列输
入,在匹配时将文本标记和图像补丁序列进行连接。
实验表明该方法可以在一定程度上掩盖图像中不相关的信息,减小了检测到无用和重复区域的可能性。

[52] GAO D H, JIN L B, CHEN B, et al. FashionBERT: text and image matching with adaptive loss for cross-modal retrieval [C]//Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval, Jul 25- 30, 2020. New York: ACM, 2020: 2251-2260.
[53] DEVLIN J, CHANG M W, LEE K, et al. BERT: pre-training of deep bidirectional transformers for language understanding[J]. arXiv:1810.04805, 2018.
[54] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Proceedings of the Annual Conference on Neural Information Processing Systems, Long Beach,Dec 4-9, 2017. Cambridge: MIT Press, 2017: 5998-6008.

此外,由于注意力机制模型在图像-文本对齐方法中的良好表现,文献[55]提出了堆叠交叉注意力模
(stacked cross attention network,SCAN)。
该模型对图像 RoI和文本标记执行跨模态匹配,利用注意力机制将每个片段与来自另一模态的所有片段对齐,以区分单词及图像区域的被关注度,有助于捕捉视觉和语言间的细粒度相互作用,增强匹配能力。该方法可以灵活地发现细粒度对应关系,在多个基准数据集上都获得了最佳性能。

[55] LEE K H, CHEN X, HUA G, et al. Stacked cross attention for image-text matching[C]//LNCS 11208: Proceedings of the 15th European Conference on Computer Vision, Munich, Sep
8-14, 2018. Cham: Springer, 2018: 212-228.

基于注意力机制的方法大多忽略了全局上下文中出现的多种语义情况。基于此,文献[56]提
出 了 语 境 感 知 注 意 力 网 络(context- aware attention network,CAAN)。
根据全局上下文有选择地关注信息量最大的局部片段,综合了模态间和模态内注意过程,同时执行图像辅助的文本注意和文本辅助的视觉注意,很好地聚合了上下文信息,捕捉了潜在的模态内相关性。
实验表明自适应检索过程中考虑特定上下文能够帮助模型获得更好的检索结果。

[56] ZHANG Q, LEI Z, ZHANG Z X, et al. Context-aware attention network for image-text retrieval[C]//Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern
Recognition, Seattle, Jun 16-20, 2020. Piscataway: IEEE,2020: 3533-3542.

针对语义模型的复杂性,文献[57]提出了基于循环注意记忆的迭代匹配(iterative matching with recurrentattention memory,IMRAM)方法。
该方法通过迭代匹配方案逐步更新跨模态注意力核心,挖掘图文间细粒度的对应关系。
文献阅读-深度学习跨模态图文检索研究综述_第5张图片

如图 3所示,该模型首先通过跨模态注意单元估计 V 和 T两组特征点之间的相似度;然
后通过记忆提取单元细化注意力结果,深化潜在对应关系,以便为下一次比对提供更多信息。在 K 个
匹配步骤之后,该方法通过对匹配分数求和得出图文之间的相似度。
实验表明 K = 3 比 K = 2 有更好的表现,证明了迭代匹配方案有效地提高了检索性能。

[57] CHEN H, DING G G, LIU X D, et al. IMRAM: iterative matching with recurrent attention memory for cross-modal image-text retrieval[C]//Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, Jun 16- 20, 2020. Piscataway: IEEE, 2020: 12652-12660

图像-文本对齐的方法更加关注图像和文本的局部区域片段信息。此类方法的优势在于,通过注意力机制等方式,能够获得更好的细粒度语义区分能力,有效解决多语义、图像问答、图像描述和细粒度交互等问题,进而提高了图文匹配的准确度,具有良好的检索性能。然而,此类方法由于更多聚焦于局部信息,对数据集的规模和质量以及模型的精细度会有更高的要求,且大多并不适用于全局信息的匹配。如何在保证局部片段信息良好对齐的前提下实现图文整体的准确匹配仍是目前需要研究的方向。

(2)跨模态重构的方法
跨模态重构的方法更关注全局信息,此类方法通常利用一种模态信息来重构对应模态,同时保留
重建信息,能够增强跨模态特征一致性及语义区分能力。

由于跨模态相关性是高度非线性的,而 RBM 很难直接对这种相关性进行学习。基于此,考虑在每
个模态的预训练层上训练 RBM 的方法,文献[58]提出不同模态数据共享权重的双模深度自编码器模
,在仅给定视频数据的情况下进行跨模态重建,从而发现跨模态的相关性。

[58] NGIAM J, KHOSLA A, KIM M, et al. Multimodal deep learning[C]//Proceedings of the 28th International Conference on Machine Learning, Bellevue, Jun 28- Jul 2, 2011.Madison: Omnipress, 2011: 689-696

在此研究基础上,文献[59]提出了一种图像字幕生成的方法,引入了结构-内容神经语言(structure- content neural language model,SCNLM)模型
SC-NLM 通过编码器学习图像句子联合嵌入,并根据编码器产生的分布式表示,将句子的结构与内容分离,再通过解码器生成新的字幕。该模型有效地统一了联合图像-文本嵌入模型和多模态神经语言模型,实现了对图像和字幕的排序及新字幕的生成。

[59] KIROS R, SALAKHUTDINOV R, ZEMEL R S. Unifying visual-semantic embeddings with multimodal neural language models[J]. arXiv:1411.2539, 2014

由于源集和目标集实例在不可扩展跨模态检索任务中通常被假定共享相同范围的类,当二者实例具有不相交的类时,难以取得理想的检索结果
针对此问题,文献[60]提出了模态对抗语义学习网络(modal-adversarial semantic learning network,MASLN),其中,跨模态重构子网络通过条件自编码器相互重建各模态数据,实现从源集到目标集的知识转移,使跨模态分布差异最小化;模态对抗语义学习子网络通过对抗性学习机制产生语义表征,使学习到的公共表示对语义有区别而对模态无区别。
实验表明,该方法在可扩展和不可扩展的检索任务中结果都优于其他方法,有效缩小了不同模态之间的异质性差距。该网络流程图如图 4所示。
文献阅读-深度学习跨模态图文检索研究综述_第6张图片
为了克服对嵌入空间的需求,文献[61]提出了循环一致图文检索网络(cycle-consistent text and image retrieval network,CyTIR-Net),将图文检索问题表述为文本和视觉转换的问题。该方法利用文本项和视觉特征的相互翻译建立重构约束。
文献阅读-深度学习跨模态图文检索研究综述_第7张图片

如图 5 所示,txt2img和 img2txt模型分别实现了图像和文本域之间的前向和后向转换,确保重构的文本或图像与原始文本或图像向量相似,并包含足够的重构信息。
实验表明该方法对中小型数据集表现更好,良好地展示了循环一致性约束的正则化能力和网络的泛化能力,以及增强模型在跨模态检索中的场景辨别能力。

跨模态重构的方法利用深度自编码器等方式,有效缩小了模态间的异构性差异,增强了语义辨别
能力。此类方法对数据集的训练及其规模要求并不高,注释成本低,更适用于中小型数据集,具有可扩
展性,多用于图像字幕生成等任务。然而,此类方法在模型训练过程中容易忽略细节信息,对目标数据
集成对相关性的表现度不足。因此,如何在缩小模态间统计差距的前提下,共同学习局部文本与图像
信息的对齐,并据此来动态地调节模态间的生成过程,是目前此类方法所面临的挑战。

(3)图文联合嵌入的方法
图文联合嵌入的方法一般结合了全局和局部信息作为语义特征的嵌入,因此能够学习到更好的特
征判别性。此类方法一般通过图像和文本模态数据的联合训练及语义特征的嵌入来学习图像文本的相
关性,进而实现图文匹配。

针对模态特征的不一致性导致的跨模态迁移困难的问题,文献[62]使用弱对齐的数据来学习具有强
对齐的跨模态表示
,在共享层使用多层感知器将文本信息映射到与视觉模态相同维度的表示空间中。
该模型同时用到了微调和统计正则化的方法,可以在训练数据没有明确对齐的情况下跨模态检测相同的
概念,具有良好的检索性能。

[62] CASTREJÓN L, AYTAR Y, VONDRICK C, et al. Learning aligned cross-modal representations from weakly aligned data[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, Jun 27-30, 2016. Washington: IEEE Computer Society, 2016: 2940-
2949

为了寻找公共表示空间来直接比较不同模态的样本,文献[63]提出了深度监督跨模态检索(deep supervised cross-modal retrieval,DSCMR)方法。
通过最小化样本在标签空间和公共表示空间中的判别损失来监督模型学习判别特征,以保持不同类别语义样本间的区分度,并使用权重共享策略来消除多媒体数据在公共表示空间中的跨模态差异。相比以往的方法,DSCMR 的学习策略可充分利用成对标签信息和分类信息,有效学习了异构数据的公共表示。

[63] ZHEN L L, HU P, WANG X, et al. Deep supervised cross-modal retrieval[C]//Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, Jun 15- 20, 2019. Piscataway: IEEE, 2019: 10394-10403

值得注意的是,尽管以上方法已考虑到不同模态到公共空间的特征映射,但这种映射函数仅关注于学习模态内或模态间的区分特征,而未能在跨模态学习方法中充分利用语义信息。
为此,文献[14]提出了基于正则化跨模态语义映射的深度神经网络(regularized deep neural network,RE-DNN)。
通过施加模态内正则化,进而获得一个联合模型来捕捉不同输入之间的高度非线性关系。该模型在语义层同时捕获模态内和模态间的关系,且所学习的深层架构能够通过停用部分网络来解决模态缺失问题,具有良好处理不成对数据的能力。该算法仅需要很少的模型训练先验知识,且对大规模数据集可扩展。

[14] WANG C, YANG H J, MEINEL C. Deep semantic mappingfor cross-modal retrieval[C]//Proceedings of the 27th International Conference on Tools with Artificial Intelligence,Vietri sul Mare, Nov 9-11, 2015. Washington: IEEE Computer Society, 2015: 234-241.

进一步,为了减小低级视觉特征和高级用户概念之间的“认知鸿沟”,文献[49]提出了多感官融合网络(multi-sensory fusion network,MSFN)联合模型
将同维 CNN 视觉嵌入和 LSTM 描述嵌入看作人类的两种感官,从人类感知角度将视觉和描述性感官相结合。在测试集中的所有图像和文本映射到公共语义空间后,跨模态检索被转化为用传统相似性度量评估的同构检索问题,该方法通过最小化类别损失函数挖掘了跨模态丰富的语义相关性

[49] FAN M D, WANG W M, DONG P L, et al. Cross-media retrieval by learning rich semantic embeddings of multimedia[C]//Proceedings of the 2017 ACM on Multimedia Conference, Mountain View, Oct 23- 27, 2017. New York: ACM,2017: 1698-1706.

图文联合嵌入方法通常会学习内嵌式嵌入函数(injective embedding functions),对于具有歧义的实例,内嵌函数寻找单个点会严重限制其在现实世界中的应用。对此,文献[64]引入了多义实例嵌
入网络
(polysemous instance embedding networks,PIENets)
文献阅读-深度学习跨模态图文检索研究综述_第8张图片
如图6所示,通过结合输入的全局和局部信息来提取每个实例的 K 个嵌入,同时使用局部Transformer
模块关注输入实例的不同部分,获得局部引导特征表示,并利用残差学习将局部和全局表示结合起
来,进而提升特征的判别性。

针对内嵌函数学习某一模态只能表示对应模态的部分信息,进而导致被忽略信息在映射点丢失的问题,文献[64]还提出了多义视觉语义嵌入方法(polysemous visual-semantic embedding,PVSE),在多实例学习框架中对图像和文本 PIE 网络进行联合优化,且该方法通过最大平均差异(maximum mean discrepancy,MMD)[14]来最小化两个嵌入分布之间的差异。
实验表明了残差学习和多实例学习对于实例语义模糊数据检索的重要性。

[64] SONG Y, SOLEYMANI M. Polysemous visual- semantic embedding for cross-modal retrieval[C]//Proceedings of the 2019 IEEE Conference on Computer Vision and Pattern Recognition, Long Beach, Jun 15-20, 2019. Piscataway: IEEE,2019: 1979-1988

同样为解决多义实例问题,文献[65]提出了生成式 跨 模 态 学 习 网 络(generative cross- modal feature learning,GXN)。
将基础表示和抽象表示相结合。除了全局语义层的跨模态特征嵌入外,GXN 还引入了图像到文本和文本到图像两种生成模型的局部跨模态特征嵌入,通过生成过程来学习全局抽象特征及局部基础特征。
该方法能够有效处理多义实例问题,并能够检索具有局部相似性的图像或具有词级相似性的句子。

[65] GU J X, CAI J F, JOTY S R, et al. Look, imagine and match :improving textual-visual cross-modal retrieval with generative models[C]//Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake City,Jun 18-22, 2018. Piscataway: IEEE, 2018: 7181-7189

通过引入 GAN 网络的对抗 思 想 ,文 献 [66]提 出 了 对 抗 式 跨 模 态 检 索 方 法(adversarial cross-modal retrieval,ACMR)。
该模型在对抗机制下执行语义学习,其中,特征投影器从公共子空间中的不同模态生成模态不变表示,模态分类器根据生成的表示来区分不同的模态,并以这种方式引导特征投影器的学习。通过对特征投影器施加三元组约束,将具有相同语义标签的跨模态表示差异最小化,同时最大化具有不同语义的图像文本之间的距离。
该方法在跨模态数据被投影到公共子空间中时,数据的潜在语义结构被更好地保留。

[66] WANG B K, YANG Y, XU X, et al. Adversarial cross-modal retrieval[C]//Proceedings of the 2017 ACM on Multimedia Conference, Mountain View, Oct 23- 27, 2017. New York:ACM, 2017: 154-162.

图文联合嵌入的方法更关注对高级语义信息的探索。此类方法一般利用生成对抗等思想,通过最小化判别损失函数和模态不变性损失等方式挖掘丰富的语义相关性,能够很大程度上消除跨模态异构差异,减小“语义鸿沟”及“认知鸿沟”,有效解决多义实例、模态缺失等问题,并能良好地捕获成对信息相关性,提高图文匹配的准确度和可扩展性,具有很好的检索性能。

2.2 二进制表示学习方法

实值表示学习方法具有良好的语义区分能力,能够很大程度上减小“语义鸿沟”及“认知鸿沟”,因此其检索准确性一般很好,但对于一些对检索效率要求高的任务场景,实值表示学习并不适用。相比于实值表示学习方法,二进制表示学习方法在检索效率上具有优势,其在保证准确率波动幅度可控的
前提下,可显著提升检索速度。

实值表示学习方法在检索准确性强,二进制表示学习方法在检索效率上强。

二进制表示学习方法将跨模态数据投影到一个公共汉明空间,目的在于给相似的跨模态内容赋予相似的哈希码。

2009 年,深度哈希算法由Hinton[67]研究组提出。

2014 年,文献[68]提出了卷积神经网络哈希(convolutional neural network Hashing,CNNH)模型,使基于 CNN 的深度哈希算法开始受到关注。

2015年,文献[69]提出二进制哈希码的深度学习(deep learning of binary Hash codes,DLBHC)方法,利用深度 CNN 的增量学习特性,以点的方式进行编码和图像表示,同时学习特定图像表征和类似哈希的函数,实现了快速图像检索并使其适用于大规模数据集。

[69] LIN K, YANG H F, HSIAO J H, et al. Deep learning of binary Hash codes for fast image retrieval[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition Workshops, Boston, Jun 7- 12, 2015. Washington: IEEE Computer Society, 2015: 27-35

为了进一步探索多标签关联图像的复杂多级语义结构,文献[70]提出深度语义哈希排序(deep semantic ranking Hashing,DSRH)方法,利用深度 CNN 与列表排序监督哈希,共同学习特征表示和从它们到哈希码的映射,避免了传统方法特征语义表示能力不足的限制。

[70] ZHAO F, HUANG Y Z, WANG L, et al. Deep semantic ranking based Hashing for multi- label image retrieval[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition, Boston, Jun 8-10, 2015. Washington: IEEE Computer Society, 2015: 1556-1564.

基于二进制表示学习方法由于二进制哈希码较短,有利于在现实世界中对大规模数据的处理,因而
被广泛应用于跨模态图文检索任务中。

确保哈希码和不同信息源所设计哈希函数的一 致 性 ,文 献 [71]提 出 了 多 源 信 息 复 合 哈 希 算 法(composite Hashing with multiple information sources,CHMIS)。
通过调整权重的信息集成方法(CHMIS with adjusted weights,CHMIS-AW)调整每个单独源的权重,将来自不同源的信息集成到二进制哈希码中,进而最大化编码性能,保留了训练示例之间的语义相似性。

[71] ZHANG D, WANG F, SI L. Composite Hashing with multiple information sources[C]//Proceeding of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval, Beijing, Jul 25-29, 2011. New York:ACM, 2011: 225-234.

在基于深度哈希的跨模态图文检索算法中,一些研究者使用了端到端的方法。针对不同模态的异
构性
,文献[72]提出了深度视觉语义哈希(deep visualsemantic Hashing,DVSH)模型
该模型是首个跨模态哈希的端到端学习方法,设计了学习图文联合嵌入的视觉语义融合网络,以桥接不同模态及两个模态特定的哈希网络,其生成的紧凑哈希码能够捕捉视觉数据和自然语言之间的内在对应关系,进而获取判别性特征,且该模型有效克服了传统融合网络对双峰对象联合嵌入的需求,更适用于高精度的应用程序。

[72] CAO Y, LONG M S, WANG J M, et al. Deep visual-semantic Hashing for cross-modal retrieval[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Francisco, Aug 13-17, 2016.New York: ACM, 2016: 1445-1454.

针对跨模态哈希(cross-modal Hashing,CMH)手工制作特性与哈希码学习不能良好兼容的问题,文献[73]介绍了跨模态深度哈希算法(deep crossmodal Hashing,DCMH),将特征学习和哈希码学习集成到同一端到端学习框架,通过同时对不同类型样本对施加约束使相似样本间相互靠近,从而保证模态间的对齐,且 DCMH 直接学习离散的哈希码,避免了检索准确性的降低,提高了检索性能

[73] JIANG Q Y, LI W J. Deep cross-modal Hashing[C]//Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, Jul 21-26, 2017. Washington:IEEE Computer Society, 2017: 3270-3278.

为了弥补模态差异以进一步提高检索准确度,文献[74]提出了自我监督的对抗式哈希方法(self supervised adversarial Hashing,SSAH)。
将对抗式学习以自监督方式结合到跨模态哈希中,由自监督语义生成网络(LabNet)和图像文本对抗网络(ImgNet和 TexNet)组成。其中,自监督语义生成网络用来监督两个模态的语义空间以及对抗性学习。两个对抗网络用来共同学习不同模态的高维特征及其对应的哈希码。
实验表明,SSAH比 DCMH减少了 90%的训练时间,且 SSAH 学习了更充分的监督信息,可以捕
获不同模态间更精确的相关性。

[74] LI C, DENG C, LI N, et al. Self-supervised adversarial Hashing networks for cross-modal retrieval[C]//Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, Jun 18- 22, 2018. Piscataway: IEEE, 2018: 4242-4251.

针对跨模态哈希在有限数量标记样本上容易过拟合以及高维输入转换成二进制代码导致的信息丢失
问题
,文献[75]提出了循环一致的深层生成哈希算法(cycle-consistent deep generative Hashing,CYC-DGH)。
通过循环一致的对抗学习在没有成对对应的情况下学习耦合的生成哈希函数。该算法通过深度生成模
型从哈希码中重新生成输入,使学习到的哈希码最大限度地关联每个输入-输出对应关系,且哈希嵌入过
程中的信息损失被最小化,有效压缩了输入数据,同时能够最大限度地保留自身信息及不同模态样本间
的关系,对减小哈希函数间的模态差异有良好表现。

[75] WU L, WANG Y, SHAO L. Cycle-consistent deep generative Hashing for cross-modal retrieval[J]. IEEE Transactions on Image Processing, 2019, 28(4): 1602-1612.

二进制表示学习方法更侧重解决模态特征异构引起的模态差异问题,运用端到端、生成对抗等思想,
致力于最大化特征分布的一致性。此类方法还有效解决了过拟合等问题。然而由于此类方法在二值化
过程中会导致信息的丢失以及原有结构被破坏,考虑模态内数据结构和模态间结构匹配的关联,优化
计算等是目前需要研究的方向。

2.3 小结

针对检索的准确度与检索效率,分别从实值表示学习和二进制表示学习两个方法出发,对不同跨模态图文检索方法的研究现状进行了分类总结。表 1、表 2、表 3 从类别、代表性方法、特点和适用场景四方面对一些具有重要作用的跨模态检索算法进行了对比分析。

文献阅读-深度学习跨模态图文检索研究综述_第9张图片
文献阅读-深度学习跨模态图文检索研究综述_第10张图片
文献阅读-深度学习跨模态图文检索研究综述_第11张图片

3. 常用数据集及评价指标

3.1 常用数据集

目前跨模态图文检索中常用的数据集有以下几种。

(1)NUS-WIDE
NUS-WIDE 是由新加坡国立大学多媒体检索实验室创建的网络图像数据集,其图像主要来源于
Flickr 网站。该数据集包括了 269 648 幅图像,平均每幅图像带有 2~5 个标签语句,其中独立标签共有
5 018 个。该数据集只局限于图像和文本两种模态,常用于跨模态哈希中。基于这个数据集,可以探索
有关于网络图像注释和检索的研究问题

(2)MSCOCO
COCO 数据集是微软团队发布的一个可以用于识别、分割和图像语意描述等任务的数据集。该数
据集以场景理解为目标,其图像内容主要从复杂的日常场景中截取而来。该数据集是一个大规模基于
句子的图像描述数据集,包含了 123 287 幅图像,且每幅图像至少包含 5 句对应的语句描述。数据集中
的图像来自 91个不同类别,包含了 328 000种影像和2 500 000个标签。虽然 COCO 数据集比 ImageNet类别少,但是各类别包含的图像多,有利于获得更多不同类别中的特定场景

(3)Flickr30k
Flickr 数据集由雅虎发布,由 1 亿幅图像和 70 万个视频的统一资源定位器(uniform resource locator,URL)以及与之相关的元数据(标题、描述、标签)组成,其焦点是人或动物执行的一些动作。数据集中的图像由6个不同的Flickr组手动收集,由美国选定工作人员使用多种形式的标题进行注释。其中 Flickr30k数据集采集于 Flickr 网站,包含 31 783 张日常场景、活动和事件的图像,图像与 158 915 个标题相关联,每一张都用 5 个句子注释。该数据集常用于图像-句子检索中

(4)Wikipedia
Wikipedia 数据集采集于维基百科,是跨模态检索研究使用最多的数据集,由带有相关图像文本对的文档语料库组成。该数据集是根据维基百科的特色文章设计的,由维基共享资源的一个或多个图像补充,包含 2 866 个图像/文本数据对,共 10 个不同的语义类。该数据集所囊括的样本和语义类别相对较少且模态类型相对有限,且也只包含图像和文本两种模态

(5)IAPRTC-12
IAPRTC-12 最初由 Grubinger 等人发布,也称为Image CLEF 2006,是为 CLEF(cross-language evaluationforum)跨语言图像检索任务创建的,其目的在于评估基于视觉和文本检索技术的效率。该数据集共有19 627 幅图像,其描述由多种语言(主要是英语和德语)组成,每个图像与 1~5个描述相关联,其中每个描述均指图像的不同方面。该数据集词汇量为 4 424。值得注意的是,该数据集中的文本都是语法性的,几乎没有噪音。句子中的语言组织良好,其内容与相应的意象密切相关

对于以上常用数据集,主要参数如表 4 所示
文献阅读-深度学习跨模态图文检索研究综述_第12张图片

3.2 性能评价指标

目前跨模态图文检索常用的性能评价指标有召回率、精确率、准确率和平均精度等。

(1)召回率(Recall,R)
文献阅读-深度学习跨模态图文检索研究综述_第13张图片

(2)精确率(Precision,P)

文献阅读-深度学习跨模态图文检索研究综述_第14张图片

(3)准确率(Accuracy,A)

文献阅读-深度学习跨模态图文检索研究综述_第15张图片

(4)综合评价(F-score,FS)

文献阅读-深度学习跨模态图文检索研究综述_第16张图片
文献阅读-深度学习跨模态图文检索研究综述_第17张图片

(5)平均精度(mean average precision,MAP)
文献阅读-深度学习跨模态图文检索研究综述_第18张图片

4. 应用

目前,跨模态图文检索技术在公安、传媒及医学领域等都有着广泛的应用。其中在公安领域主要应
用于舆情分析以及对网络舆论欺诈事件的预测和处理,现有的舆情检测系统通常利用互联网来实现舆
情的收集、追踪、监控和预警;在传媒领域主要应用于多媒体事件检测和意见挖掘,以及网络推荐系统
等;在医学领域可应用于医学存储数据的查询。

5. 难点及未来研究趋势展望

(1)更精细的模态数据特征表示
模态特征表示是决定跨模态图文检索准确度的重要因素,不同的应用场景对于单模态全局或局部特征的选取要求以及特征提取方法各不相同。随着数据复杂度和用户需求的不断升级,对跨模态图文检索任务模态特征精细度会有更高的要求。

(2)不同模态特征之间的细粒度对齐
由于图像和文本之间存在异质性差异,导致从视觉数据中提取的信息与给定条件下用户对相同数据的解释之间会缺乏一致性。针对这一不足,利用注意力模型等,通过捕捉图像和文本间细粒度的对应关系以更好地表达模态特性是图文检索领域未来研究的一个热点。

(3)上下文相关信息的开发
跨模态关联往往与上下文信息有关。现有方法大多只将共存关系和语义类别标签作为训练信息,而事实上,跨模态数据通常包含了链接关系等重要的上下文信息。上下文信息的准确度是有效进行跨模态检索的重要保障,因此在复杂的实际应用中,需要开发上下文信息以更好地表达模态间的共性,并就此开展进一步的研究,以提高跨模态检索性能。

(4)简化参数形式和提高跨模态检索效率
跨模态图文检索的模型参数个数往往非常多,以至于在很大程度上限制了其应用场景,这也是目前研究
者面临的主要挑战。到目前为止,虽然诸如跨模态哈希等技术已被用于提高跨模态检索效率,但跨模
态检索速度的提升仍有待发展。

(5)优化目标函数求解算法
目前跨模态深度学习的训练算法仍不能避免鞍点所导致的寻优过程失败问题。因此,尽快提出非凸优化问题的优化求解算法也是跨模态检索领域需要解决的问题。

(6)数据集的扩展和标注
对于跨模态信息处理,高质量数据集可以有效避免过拟合等问题。跨模态信息处理的数据集非常难以构建,尽管 Flickr和MSCOCO 等数据集的图像数据量以及每幅图像的文本描述都很丰富,但是实际中的物体类别仍远超其所囊括的图像种类。因此,扩充数据集类别,对数据集进行更加充分的标注,能够从另一方面促进跨模态图文检索技术的发展和升级。

你可能感兴趣的:(文献阅读,图搜索)