论文笔记--An Overview of Cross-Media Retrieval: Concepts, Methodologies, ...-2018-(一)

论文-An Overview of Cross-Media Retrieval: Concepts, Methodologies, Benchmarks, and Challenges-2018-彭宇新




  • An Overview of Cross-Media Retrieval: Concepts, Methodologies, Benchmarks, and Challenges(一)
An Overview of Cross-Media Retrieval: Concepts, Methodologies, Benchmarks, and Challenges(一)


Y. Peng, X. Huang and Y. Zhao, "An Overview of Cross-Media Retrieval: Concepts, Methodologies, Benchmarks, and Challenges," in IEEE Transactions on Circuits and Systems for Video Technology, vol. 28, no. 9, pp. 2372-2385, Sept. 2018. doi: 10.1109/TCSVT.2017.2705068



  • 总结现有的工作和方法,以提供概述,这将有助于跨媒体检索的研究。
  • 建立基准,包括数据集和实验结果。 这将有助于研究人员专注于算法设计,而不是耗时的比较方法和结果,因为他们可以直接采用基准来及时评估他们提出的方法。
  • 提供新的数据集XMedia,以全面评估跨媒体检索。 这是第一个公开可用的数据集,包含多达五种媒体类型(文本,图像,视频,音频和3D模型)。
  • 提出主要挑战和开放性问题,这对于跨媒体检索的进一步研究方向具有重要意义。


以两种媒体类型 X X X Y Y Y为例,训练数据可表示为 D t r = { X t r , Y t r } D_{tr}=\{X_{tr},Y_{tr}\} Dtr={Xtr,Ytr}其中 X t r = { x p } p = 1 n t r X_{tr}=\{x_{p}\}^{n_{tr}}_{p=1} Xtr={xp}p=1ntr Y t r = { y p } p = 1 n t r Y_{tr}=\{y_{p}\}^{n_{tr}}_{p=1} Ytr={yp}p=1ntr n t r n_{tr} ntr表示用于训练的媒体实例的数量,并且 x p x_p xp表示第 p p p个媒体实例。 x p x_p xp y p y_p yp之间存在共存关系,这意味着不同媒体类型的实例一起存在以描述相关语义。

另外,提供训练数据的语义类别标签,表示为 { c p X } p = 1 n t r \{c^X_p\}^{n_{tr}}_{p=1} {cpX}p=1ntr { c p Y } p = 1 n t r \{c^Y_p\}^{n_{tr}}_{p=1} {cpY}p=1ntr,其指示媒体实例所属的语义类别。

类似地,测试数据表示为 D t e = { X t e , Y t e } D_{te}=\{X_{te},Y_{te}\} Dte={Xte,Yte},其中 X t e = { x p } p = 1 n t e X_{te}=\{x_{p}\}^{n_{te}}_{p=1} Xte={xp}p=1nte Y t e = { y p } p = 1 n t e Y_{te}=\{y_{p}\}^{n_{te}}_{p=1} Yte={yp}p=1nte

而我们的目标是计算跨媒体相似度 s i m ( x a , x b ) sim(x_a,x_b) sim(xa,xb),并在测试数据中检索不同媒体类型的相关实例以用于任何媒体类型的一个查询。


论文笔记--An Overview of Cross-Media Retrieval: Concepts, Methodologies, ...-2018-(一)_第1张图片



表1.1 基于公共子空间的N(7+n)种方法

方法名称 简介 相关论文 优缺点
Traditional Statistical Correlation Analysis Methods (CCA) 传统的统计相关分析方法是CSL的基本范式和基础,主要通过优化统计值来学习公共空间的线性投影矩阵。 U:[18][19][22][24][30] F:[23][26][27][28][29] U-F:[25] 优:相对有效,容易训练和实施 缺:难以模拟跨媒体数据复杂的相关性,大多数只能模拟两种媒体类型
DNN-based 基于DNN的方法以深度神经网络为基本模型,旨在利用其强大的抽象能力进行跨媒体相关学习。 U:[24][33][34][35][36][37][38][39][41][42] F:[12][40][43] 优: 具有处理复杂跨媒体相关性的抽象能力 缺: 暂定
Cross-Media Graph Regularization Methods 跨媒体图正则化方法采用图模型来表示复杂的跨媒体相关性 U:[51] F:[7][49] 优:可以模拟两种以上媒体类型 缺:时间和空间开销较大
Metric Learning Methods 度量学习方法将跨媒体关联视为一组相似/不相似的约束 F:[7][54] 优:保留了语义相似信息 缺:较多依赖于监督信息
Learning to Rank Methods 排序学习方法的重点是跨媒体排名信息作为他们的优化目标(对象) U:[56] F:[57][58][59] 优:提升最终检索性能 缺:一般应用于两种媒体类型
Dictionary Learning Methods 字典学习方法生成字典和学习的公共空间用于(解决)跨媒体数据的稀疏度 U:[61] F:[64] S-F:[62] 优:效率高? 缺:数据量大的优化问题是一个挑战
Cross-Media Hashing Methods 跨媒体散列(哈希)方法旨在学习共同的汉明空间以加速检索 U:[67][68][69][73][75][76][79][80][82][83] F:[49][70][71][72][74][77][78][81] 优:在大规模数据集检索效率高 缺:小数据集发挥不出效率高的优势
Other Methods 其它方法 U:[20] S:[89] F:[84][85][86][87] ……


用于跨媒体相似性测量的现有方法通常采用使用图中的边来表示媒体实例和多媒体文档(MMD)之间的关系的思想。根据方法的不同侧重点,我们进一步将它们分为两类:(A)基于图的方法(Graph-based methods),其侧重于图的构造,(B)邻近分析方法(neighbor analysis methods)主要考虑如何利用数据的邻居关系相似度量。这两个类别在算法过程中具有重叠,因为可以在构造的图中分析邻居关系。

表1.2 跨媒体相似性衡量的两种方法

方法名称 简介 相关论文 优缺点
Graph-based methods 基于图的方法的基本思想是将跨媒体数据视为一个或多个图中的顶点,并且边是由跨媒体数据的相关性构成 S:[6]R:[4][90][91][92][93][94][95] 优:对合并不同类型信息有帮助 缺:时间和空间开销较大;现实场景中存在挑战
neighbor analysis methods 邻居分析方法通常基于图构造,因为可以在给定图中分析邻居。该方法侧重于使用邻域关系进行相似性测量 U:[2] F:[5] U-F:[8] 优:方法灵活 缺:时间和空间开销较大;确保邻居的相关关系困难,性能不稳定


介绍两种其它方法:(A)相关反馈分析是一种辅助方法,用于提供有关用户意图的更多信息,以提高检索性能。 (B)多模式主题模型在主题级别中查看跨媒体数据,并且通常通过计算条件概率来获得跨媒体相似性。这两种具体方法描述如表1.3所示。

表1.3 其它两种方法

方法名称 简介 相关论文 优缺点
Relevance Feedback Analysis 相关反馈广泛应用于跨媒体相似性测量。包括短期和长期两种反馈类型 R:[4][90][93][95] 优:提供更准确的信息,有助于提高检索准确性 缺:需要一些人工成本
Multimodal Topic Model LDA模型在多模态领域的扩展 U:[97][98][99] F:[100] 优:论文中未提到 缺:跨媒体主题分布的约束条件…





