论文信息:
期刊论文-跨媒体检索研究综述-2018-欧卫华
文末部分参考文献附有论文下载链接,并提供了本论文下载地址
欧卫华, 刘彬, 周永辉, et al. 跨模态检索研究综述[J]. 贵州师范大学学报(自然版), 2018(2).
跨模态检索是对一种模态的查询词,返回与之相关的其他不同模态检索结果的新型检索方法,是跨媒体检索的新兴技术。通过分析跨模态检索的实际需求,给出了跨模态检索问题的定义,综述了目前主流跨模态检索方法的核心思想,列举了常用数据集与评价方法,最后分析了跨模态检索存在的问题以及未来研究趋势。
国内外研究团队和成果
北京大学彭宇新老师课题组
采集并发布了XMedia数据集,并在半监督跨模态检索等方面做了深入研究。
北京交通大学张磊[2] 博士和北京邮电大学花妍[3] 博士等分别在语义一致的跨模态关联学习方面做了深入研究。
浙江大学金仲明[4] 博士和北京邮电大学冯方向[5] 博士分别在基于深度学习的跨模态检索研究中取得了很好的成果。
西安光电精密机械所的李学龙老师课题组在跨模态哈希算法方面做出了突出的贡献。
中国科学院王亮和赫然老师课题组
南京大学李武军老师课题组
浙江大学杨易老师课题组
厦门大学纪嵘嵘老师课题组
电子科技大学沈复明老师课题组等
就跨模态检索数据集的采集、跨模态关联学习、高层语义建模、跨模态哈希学习等方面进行了广泛的研究。
跨模态检索的主流方法大致可以分为四类:子空间的方法、深度学习的方法、哈希变换的方法和主题模型的方法。
基本思想
利用不同模态样本对的成对共生信息学习投影矩阵,将不同模态的特征投影到一个共同潜在子空间,然后在该子空间中度量不同模态的相似性,从而实现跨模态检索。
文献
优劣
这些方法在跨模态检索中取得了较好的效果,但一个共同的不足就是没有考虑各模态内的数据局部结构和模态间的结构匹配。事实上,与一个模态中的邻域内样本对应的另一个模态内的样本也应该具有相邻关系,反之亦然。另外子空间方法学习到的都是线性映射,无法有效的建模不同模态的高阶相关性。
基本思想
利用深度学习的特征抽取能力,在底层提取不同模态的有效表示,在高层建立不同模态的语义关联。
两个阶段
首先,对不同模态学习单独的表示,然后利用高层网络最大化不同模态表示的相关性。
文献
Ngia[17] 等提出了基于深度网络的跨模态学习方法。该模型考虑了多模态融合学习、跨模态学习和共享表示学习,通过视频、语音识别证实了方法的有效性。
考虑到跨模态数据的关联重点在不同模态的语义相关性,Srivastava[18] 等提出了深度玻尔兹曼机。该方法先对不同模态分别学习底层表示,然后利用高层语义将不同模态表示融合来建立不同模态间的关联。
Andrew[19] 等提出了深度典型相关分析,通过多层深度网络学习复杂的非线性投影,最大化投影后的共同表示的相关性。
Feng[20] 等提出基于跨模态对应自编码器的深度学习模型。该模型通过最小化单模态自编码器的重构误差和不同模态表示层的相关性误差之和,从而将单模态表示学习和模态间的相关性学习集成到一个框架下。
上述方法为无监督学习方法,为了学习更加判别性的表示,Wang[21] 等提出了监督的多模态深度神经网络。该网络由处理图像的卷积网络和处理文本的语言神经网络构成,通过五层的神经网络将不同模态映射到共同的语义空间,然后在语义空间进行不同模态的相似性度量。
在仅仅给出模态的场景类标的前提下,Castrejon[22] 等提出了正则化跨模态深度学习网络,旨在模态差异很大的情况下学习不同模态的共同表示。
综合考虑语义信息,Li[23] 等利用多类标监督信息学习共同的语义空间实现跨模态检索。具体地,对单个模态,该方法使用深度网络学习对应的特征,而将不同模态的共同语义向量作为不同模态相关性的优化目标,实现不同模态的语义关联。
Wang[24] 等利用主题特征表示文档,同时考虑模态内和模态间,通过正则化深度网络来建立不同模态的语义相关性。
基于标签信息,Wei[25] 等则提出了深度语义匹配方法。
优劣
相比如前面的子空间方法,深度学习方法取得了更好的检索结果,这部分得益于大量的训练样本、超级的计算能力和深度模型的丰富表示能力。然而上述方法主要关注的还是底层特征学习和高层网络相关性,而对不同模态内的数据局部结构和模态间语义类结构关联缺乏关注和深入研究。
过渡
基本思想
利用不同模态的样本对信息,学习不同模态的哈希变换,将不同模态特征映射到一个汉明(Hamming)二值空间,然后在汉明空间实现快速的跨模态检索。哈希映射学习的基本依据是相似样本的哈希编码是相似的
文献
上述方法属于无监督的,没有考虑模态间的语义。事实上,跨模态数据具有底层特征异构、高层语义相关的特点。
上述方法是基于两阶段的思路,Jiang[39] 等提出了一个端对端的学习框架,即将特征学习和哈希编码学习统一到同一个框架下,从而增强特征学习和哈希编码学习的一致性。
优劣
哈希类检索算法具有存储空间小、检索速度快等特点。存在的主要问题是二值化的过程中有精度损失,实值到二值化的过程中原有结构被破坏,没有充分考虑模态内的数据结构和模态间的结构匹配关联,优化计算复杂等。
基本思想
主题模型法基本思想是将跨模态数据的底层特征映射到一个“隐性语义空间”。与上述方法不同,基于主题模型的方法通过生成式模型来发掘跨模态数据中隐含主题空间,学习得到的”主题”具有较强的可解释性。
文献
Wikipedia数据集采集于wikipedia,是跨模态检索研究使用最多的一个数据集。该数据集包含2866个图影文本数据对,共10个不同的语义类。显然该数据集存在语义类少,模态类型有限,只包括图像文本两种模态等不足。下载链接如下:http://www.svcl.ucsd.edu/projects/crossmodal/.
该数据集由新加坡国立大学媒体研究实验室通过网络爬虫从Flickr采集得到,主要包括图像及与之对应的图像标签,共包括269,648幅图像。去掉无意义的标签,共有5108个独立标签,平均每幅图包括大约6个标签。该数据集数据量有了大幅增加,但仍局限两种模态。下载链接如下:
http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm.
数据集由北京大学多媒体计算实验室通过Wikipedia、Flickr、YouTube等来源采集。共包括20个语义类,每一类分别包含250段文本、250幅图像、25段视频、50段语音、25个3D模型五种不同模态,是目前跨模态检索领域数据量最大,模态最多的一个数据集。下载链接如下:
http://www.icst.pku.edu.cn/mipl/XMedia.
平均精度均值(mean average precision,MAP)是评价跨模态检索方法的主要指标,它是平均精度(average precision,AP)的平均值,AP计算如下:
A P = 1 R ∑ r ≡ 1 R P ( γ ) δ ( γ ) AP = \frac1{R}\sum^R_{r\equiv1}P(\gamma)\delta(\gamma) AP=R1r≡1∑RP(γ)δ(γ)
P ( r ) P(r) P(r)表示 r r r个检索文档的精度, δ ( r ) = 1 δ(r)=1 δ(r)=1,如果第 r r r结果相关,否则 δ ( r ) = 0 δ(r)=0 δ(r)=0。
[1]RASIWASIA N,COSTA PEREIRA J,LANCKRIET R,eta1.A new approach to cross—modal multimedia retrieval[C].in International conference on Multimedia,ACM.Florence,Italy,2010:251-260
[2]张磊.跨媒体语义共享子空间学习理论与方法研究[D./OL].北京:北京交通大学,2015.http:/kns.cnki.net/kns/brief/default—result.aspx
[3]花妍.具有语义一致性的跨模态关联学习与信息检索[D/OL].北京:北京邮电大学,2015.http:/kns.cnki.net/kns/brief/default—result.aspx
[4]金仲明.基于哈希算法的海量多媒体数据检索研究[D/OL].杭州:浙江大学,2015:27.107.http:/kns.cnki.net/kns/brief/default—result.aspx
[5]冯方向.基于深度学习的跨模态检索研究[D/OL].北京:北京邮电大学,2015.http:/kns.cnki.net/kns/brief/default—result.aspx
[6]Li D,DIMITROVA N,LI M,et a1.Multimedia content processing through cross-modal association[C].in International Conference on Multimedia.ACM,Toronto,Cana—da,2003:604-611
[7]HOTELLING H.Relations between two sets of variates[J].Biometrika,1936(28):321—377
[8]LIANG J,HE R,SUN z,et a1.Group-invariant cross-modal subspace learning[C].In Processding of IJCAI,New York,USA,2016:1739—1745
[9]MAHADEVAN V,WONG C W,PEREIRA J C,et a1.Maximum Covariance Unfolding - Manifold Learning for Bimodal Data[C].Advances in Neural Information Proeessing Systems.Granada,Spain,201 1:918-926
[10]SHARMA A,KUMAR A,DAUME H,et a1.Generalized muhi-view analysis:A discriminative latent space[C].in Computer Visionand Pattern Recognition.IEEE,RhodeIsland,USA,2012:2160.2167
[11]KAN M,SHAN S,ZHANG H,et a1.Multi—view discriminant analysis[C].European Conference on Computer Vision.Sydney,Australia,Springer Berlin Heidelberg,2012:808—821
[12]WANG K,HE R,WANG W,et a1.Learning coupled feature spaces for CROSS-modal matching[C].Proceedingsof the IEEE International Conference on Computer Vi—sion.Sydney,Australia,2013:2088-2095
[13]ZHUANG Y T,WANG Y F,WU F,et a1.Supervised coupled dictionary learning with group structures for multi-modal retrieval[C].in AAAI Conference on Artificial Intelligence,Washington,USA,2013:1070-1076
[14]GONG Y,KE Q,ISARD M,et a1.A multi-view embedding space for modeling internet images, tags, and their semantics[J].International Journal of Computer Vision,2014,106(2):210—233
[15]RANJAN V,RASIWASIA N,JAWAHAR C V.Multi-Label Cross-modal Retrieval[C].in International Conferenceon Computer Vision S/antiago,Chile,2015:4094-4102
[16]JIA Y,SALZMANN M,DARRELL,T.Learning cross—modality similarity for muhinomial data [C].In Interna.tional Conference onComputer Vision,Barcelona,Spain,20l 1:2407-2414
[17]NGIAM J,KHOSLA A,KIM M,et a1.Multimodal deeplearning[C].in International Conference on MachineLearning,Washington,USA,201 1:689-696
[18]SRIVASTAVA N,SALAKHUTDINOV R R.Multimodallearning with deep bohzmann machines[C].in Advancesin Neural InformationProcessing Systems,Lake Tahoe,Spain,2012:2222-2230
[19]ANDREW V,ARORA R,BILMES J,et a1.Deep canon.ical correlation analysis f C].in International Conferenceon Machine Learning,Atlanta,USA,2013:1247—1255
[20]FENG F,WANG X,LI R.Cross-modal retrieval withcorrespondence auto.encoder『C].in International Con.ference on Muhimedia.ACM,Orlando,FL,USA,2014:7.16
[21]WANG C,YANG H,MEINEL C.Deep semantic map—ping for cross modal retrieval[C].in International Con.ference on Tools with Artificial Intelligence,Vietri sulMare,Italy,2015:234—241
[22]CASTREJON L,AYTAR Y,VONDRICK C,et a1.Learning aligned cross·modal representations from weakly a—ligned data[C].Computer Vision and Pattern Recogni.tion,LasVegas,USA,2016:2940·2949
[23]u z,LU W,BAO E,et a1.Learning a semantic space bydeep network for cross.media retrieval『C].in Interna.tional Conference on Distributed Multimedia Systems,Vancouver Canada,2015:199-203
[24]WANG C,YANG H,MEINEL C.Deep semantic map.ping for cross medal retrieval[c].in In’’'ternational Con.ference on Tools with ArtificialIntelligence,Vietri sulMare laaly,2015:234-241
[25]WEI Yunchao.Cross.modal retrieval with cnn visual fea.tures:A new baseline[J].IEEE transactions on cyber.netics,2017,47(2):449-460
[26]WANG L,LI Y,LAzEBNIK S.Learning deep structure—preserving image·text embeddings[C].in the IEEEConference onComputer Vision and Pattern Recognition.Las Vegas,USA,2016:5005-5013
[27]KUMAR S,uDuPA R.Learning hash functions forCroSS-view similarity search[C].proceedings internation—al joint conference on artificial intelligence.Barcelona,Spain,2011,22(1):13印
[28]DING G,GUO Y,ZHOU J,et a1.Collective matrix fac.torization hashing for multi-modal data[C].in ComputerVision and Pattern Recognition.,Washington,USA,2014:2083.2090
[29]WANG D,CUI P,OU M,ZHU W,et a1.Learning com.pact hash codes for multi-medal representations using orthogonal deep structure[J].IEEE Transactions on Multi.media,2015,17(9):1404—1416
[30]SONG J,YANG Y,YANG Y,et a1.Inter-media hashingforlarge—scale retrieval from heterogeneous data sources[C]Proceedings of the 2013 ACM SIGMOD InternationalConference on Management of Data.New York,USA,2013:785-796
[31]wu F,Yu Z,YANG Y,et a1.Sparse multi.modal has—hing[J].IEEE Transactions on Multimedia,2014,16(2):427-439
[32]LIN Z,DING G,HAN J,et a1.Cross·view retrieval viaprobability-based semantics·preserving hashing[J].IEEE Transactions on Cybernetics,2016,DOI:10.1 109/TCYB.2016.2608906
[33]ZHOU J,DING G,GUO Y.Latent semantic sparse has—hing for CroSS-modal similarity search[C].in Conferenceon Research&Development in Information Retrieval.Queensland,Australia,July 06-11,2014:415-424
[34]ZHANG D,LI WJ.Large—scale supervised multi—modalhashing with semantic correlation maximization[c].inAAAI Conference on Artificial Intelligence,Quebec,Canada,July 27—31.2014:2177-2183
[35]Yu z,WU F,YANG Y,et a1.Discriminative coupleddictionary hashing for fast cross-media retrieval[c].inProceedings of the 37th international ACM SIGIR confer- ence on Research&development in information retrieval.Queensland,Australia,2014:395—404
[36]HU Y,JIN Z,REN H,CAI D,et a1.Iterative multi.view hashing for CroSS media indexing[C].in Intema—tional Conference on Muhimedia ACM.Orlando。FL.USA,2014:527-536
[37]WANG W,YANG X,ZHANG D,et a1.Effective multi—modal retrieval based on stacked auto.encoders f C 1.jnInternational Conference on Very Large Data Bases,Han—gzhou China,2014:649-660
[38]CAO Y,LONG M,WANG J,et a1.Correlation auto.en.coder hashing for supervised CroSS—modal search[C].inInternational Conference on Multimedia Retrieval,NewYork,USA,2016:197.204
[39]JIANGQ,LI W.Deep cross-modal hashing,available[J].http:/arxiv.org/abs/1602
[40]BLEI D M,JORDAN M I.Modeling annotated data[C].international ACM SIGIR conference on Research and de.velopment in information retrieval.Toronto,Canada,2003:127-134
[41]PUTFHIVIDHY D,ATHAS H T,NAGARAIAN S S.Topic regression multi—modal latent dirichlet allocation forimage annotation[C]IEEE Conference on Computer Vi·sion and Pattern Recognition,San Francisco,2010:3408-3415
[42]ZHENG Y,ZHANG Y J,LAROCHELLE H.Topic mod—cling of muhimodal data:an autoregressive approach[C].in IEEE Conference on Computer Vision and Pat.tern Recognition,Columbus,Ohio,2014:1370—1377
[43]JIA Y,SALZMANN M,DARRELL T.Learning crossmodality similarity for muhinomial data[C].IEEE International Conference on Computer Vision,Barcelona,Spain,201 1:2407-2414
[44]HAO R,ZHU J,QIN Z.Nonparametrie bayesian up—stream supervised multi—modal topic models[C].Proceedings of the international conference on web searchand data mining.New York,USA,2014:493-502
[45]WANG Y,wu F,SONG J,et a1.Multi-modal mutualtopic reinforce modeling for cross-media retrieval[C].inProceedings of the 22nd international conference on MUl—timedia.ACM,Orlando,F10rida,USA,2014:307-316
[46]RASIWASIA N,COSTA PEREIRA J,COVIELLO E,eta1.A newapproac to CFOSS—modal multimedia retrieval[C].in ACM international conference on Multimedia,Florence,Italy,2010:251-260
[47]CHUA T S,TANG J,HONG R,et a1.Nuswide:a re.al—world webimage database from national university ofsingapore[C].in ACM International Conference on Image and Video Retrieval,Santorini Island,Greece,2009:1-9.
30+篇跨媒体中文论文下载地址