u013250861

跨模态检索研究进展综述【跨模态检索的核心工作在于：①不同模态数据的特征提取、②不同模态数据之间内容的相关性度量】【主流研究方法：基于传统统计分析的技术、基于深度学习的技术】【哈希编码提高检索速度】

随着互联网上多媒体数据的爆炸式增长,单一模态的检索已经无法满足用户需求,跨模态检索应运而生.

跨模态检索旨在以一种模态的数据去检索另一种模态的相关数据。

跨模态检索的核心任务是：数据特征提取 和 不同模态数据之间内容的相关性度量。

文中梳理了跨模态检索领域近期的研究进展,从以下角度归纳论述了跨模态检索领域的研究成果.：

传统方法；
深度学习方法；
手工特征的哈希编码方法；
深度学习的哈希编码方法

在此基础上,对比分析了各类算法在跨模态检索常用标准数据集上的性能。最后,分析了跨模态检索研究存在的问题,并对该领域未来发展趋势以及应用进行了展望.

一、概述

随着互联网上数据规模的不断壮大,数据类型越来越呈现多样化的特点,用户感兴趣的数据模态不再单一,用户的检索需求也越来越呈现出从单一模态到跨模态的发展态势.模态是指数据的表达形式,包括文本、图像、视频和音频等.

跨模态检索是至少两种模态的数据之间互相检索，通常是以一种模态作为查询来检索另一种模态的相关数据。通过找出不同模态数据之间的潜在关联，实现相对准确的交叉匹配.

如以文本检索相关图像,文本集为 $T＝\{t_,…,t_n\}$ , 图像集为 $V＝\{v_,…,v_n\}$ ，针对查询文本 $t_q,q∈[1,n]$ ,检索出与 $t_q$ 最相似的图像 $v_q＝\{v_i|maxsim(t_q,v_i),i∈[1,n]\}$ .

在互联网海量多模态数据的背景下,跨模态检索一直是学术界的研究热点.

不同模态数据之间的内容相关性度量是跨模态检索任务的核心与挑战，现有研究：

一方面通过改善特征提取和公共空间映射等方法减少多模态数据间的跨模态差异,使跨模态检索更精准;
另一方面通过采用哈希编码的方式提升搜索效率,使跨模态检索任务更高效.

由于跨模态检索包括但不限于两种模态,因此设计方法还应考虑模型的可扩展性.尽管国内外学者采用各种方法从不同角度提出了解决跨模态检索的方案,但该领域研究目前仍面临诸多挑战和困难,具体表现在:

多模态表达差异：不同模态的数据表达之间存在较大差异,如文本和图像之间差异巨大,如何度量不同模态数据之间的相关性成为跨模态检索任务必须应对的挑战之一.
语义鸿沟：不同模态之间特征分析的困难在于底层表达和高层语义之间的断层,也称为语义鸿沟,如何挖掘不同模态之间的数据高级语义成为挑战之一.
样本增量学习：在检索数据库中,一旦加入新数据,则需要花费大量时间重新训练模型或者
重新计算,此时样本的增量学习就显得尤为重要.

一次性解决上述挑战是不现实的,跨模态检索也远未取得令人满意的效果.

对比分析现有研究进展及存在问题,有助于研究人员未来在此基础上找到更好的解决方案.围绕跨模态检索研究进展,

Liu 等[１]在2010年分析梳理了传统方法在跨模态检索领域的应用研究.
Wang 等[２]在2016年总结分析了跨模态检索领域的相关动态,重点从实值表示和二值表示的角度对训练形式进行梳理.不同于上述文献,

本文一方面增加了深度学习相关方法的论述,另一方面侧重从技术方法角度归纳分析目前主流的跨模态检索解决方案,重点关注近年来的最新研究进展,指出现阶段该领域仍然存在的问题及挑战,并对该领域的未来方向进行展望.本文的主要贡献总结如下:

探讨了跨模态检索存在的挑战及困难,系统地分析了跨模态检索领域主流方法以及最新研究进展,为跨模态检索领域的初学者提供了便利;
针对跨模态检索研究面临的不同挑战,讨论了不同应对策略,有助于正在做跨模态检索研究的读者更好地理解该问题,并且可以使其从中了解各种解决方案;
梳理了用于跨模态检索研究的多种常用标准数据集以及一些针对特殊场景的数据集,并对相关算法在数据集上的性能做出对比;
分析总结了目前跨模态检索存在的问题,并展望了未来可能的发展方向.

跨模态检索研究近年来发展迅速,在跨模态检索任务中利用深度学习的方法也越来越丰富.

当前跨模态检索的主流方法是基于公共空间学习的方法,其依据是不同模态数据具有相似的语义,如数据中的对象、方位、背景等语义信息,而相似语义的数据具有潜在相关性,从而使得构建公共空间并将不同媒体类型的数据投影到这个空间进行相关性度量成为可能.

基于公共空间学习的方法的目的是学习一个公共空间,并显式地将不同媒体类型的数据投影到这个空间进行相关性度量.跨模态检索的流程框架如图１所示.

基于公共空间学习的方法：

首先分别提取不同模态数据的特征；
然后学习多模态数据的公共表示；
最后进行跨模态的匹配与排名；

从图1可以看出,文本、图像、视频等模态数据可以在一个公共高级语义空间中彼此接近。

本文从技术方法的角度出发,主要将跨模态检索研究分为三大类,包括：

传统方法、
基于深度学习的方法、
基于哈希编码的方法,

研究方法的分类架构如图2 所示.其中：

深度学习方法主要侧重于提升检索准确性,
哈希编码方法主要侧重于提升检索效率.哈希方法中的深度学习哈希方法则是深度学习与哈希编码的融合,以平衡检索的准确性与效率.

一、传统方法

特征提取和内容相关性度量是跨模态检索研究要解决的关键问题。早期特征提取主要围绕文本、视觉及音频展开,本节重点介绍这些模态特征提取的传统方法.

1、特征提取

1.1 文本特征提取

词袋法(Bag-of-Words,BoW)是一种简单的文本表示方式,它将每个输入文本视为多个单词集合,不考虑其复杂的语义或者语法.也就是说,文本中每个词的出现都是独立的,不影响文中其他词的出现.

在标准的词袋表示法的背景下,Zhu 等[４]对大规模公共数据集的不对称程度进行了度量,提出了新的不对称差异,分析了标准 BoW 在这种情况下的局限性.TF-IDF通过对每个词进行加权来改进 BoW,从而可以识别出输入文本所特有的关键性词汇.其中,当文本较长时,TF-IDF 可以有效地提取输入文本的特征.

Blei 等[６]于2003 年提出了三层贝叶斯主题模型(Latent Dirichlet Allocation,LDA),LDA 通过无监督的学习方法获取输入文本中隐含的主题信息,隐性的语义分析实际上是利用文本中的词项的共现特征来体现文本的主题或概念结构,LDA 模型能够以更精炼的尺度表示文本.

1.2 视觉特征提取

尺度不变特征变化(Scale-Invariant Feature Transform,SIFT)是一种检测图像局部特征的算法,该算法通过求一幅图像中的特征点及其尺度上和方向上的相关描述子得到图像特征并进行图像特征点匹配.

方向梯度直方图(Histogramof Oriented Gradient,HOG)特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子,它通过计算和统计图像局部区域的梯度方向直方图来构成图像特征.

SIFT 的缺点是需要专业的图像处理器来实现,而加速稳健特征(Speeded Up Robust Features,SURF)把 SIFT 中的卷积平滑操作简化成加减运算,提高了算法的鲁棒性,降低了复杂度,但在运行时间上提升并不显著.

ORB(Oriented Fast and Ro-tated Brief)特征描述算子在运行时间上实现了质的飞跃.

HOG 特征结合 SVM分类器已经被广泛应用于图像识别中,代表性工作包括２００５年 CVPR 会议上 Dalal 等[７]提出的并获得极大成功的行人检测模型,文献[８]使用具有 HOG 特性的线性 SVM分类器也在字符检测中取得了不错的性能.针对视频中的运动特征的提取方法有光流方程、贝叶斯方法等.

1.3 音频特征提取

声波是一种音频信号.

针对音频的相关工作必须对音频信号进行预处理和特征提取.

在传统的语音信号处理中,语音特征以短时音频帧(audio frame)的方式提取.

早期提出的音频特征提取方法主要有线性预测倒谱系数(Linear Predic-tion Cepstrum Coefficient,LPCC)和梅尔频率倒谱系数(Mel- Frequency Cepstrum Cofficients,MFCC ),其中：

LPCC 特征对辅音描述能力弱,抗噪性能差.
而 MFCC 是基于人的听觉特征提取出来的特征参数,更符合人的听觉特性,因此在对音频信号进行特征提取时通常使用 MFCC 特征.但 MFCC 相邻帧特征相对独立,忽略了信号可能的内在结构,如相邻帧的强关联.文献[９-１１]在提取音频特征时都采用该思想.

2、内容相关性度量

多模态检索主要实现文本、图像等不同模态数据的相互检索,这种相互检索的前提是文本内容和图像内容的相互关联.

2.1 典型相关分析（CCA）

2004年 Hardoon 等提出的典型相关分析 (Canonic Correlation Analysis,CCA)用于跨模态检索中的内容相关性度量，是一个里程碑式的工作，其通过最大化两种模态投影之间的相关性来学习公共子空间,在跨模态检索的公共子空间方法中,迅速成为此后同类算法的基准算法.

尽管 CCA 因其简单和高效而广受欢迎,但其缺点也很显著：

经典 CCA 无法理解类标签等高级语义信息,未能充分利用类别信息,因而其学习到的公共子空间本质上判别力较弱.与 CCA 类似,偏最小二乘(Partial Least Squares,PLS)和双线性模型[１４]等方法也尝试通过学习子空间来进行跨模态检索,但这些方法都依靠两个模态间的显式配对来建立对应关系.事实上,某个模态的某项数据可能存在不止一个语义,因此,仅关注成对耦合还远远不够,以这种方式学习到的通用表示也无法完全保留数据中潜在的跨模态语义结构.

总体来说,上述方法都未利用多标签信息.要想准确表达图像中存在的多个概念,必须充分考虑多标签信息,精确建模不同模态之间的相关性.

2.2 多标签典型相关分析（ml-CCA）

2015年,Ranjan 等[15]提出了多标签典型相关分析 ml-CCA,ml-CCA 是 CCA 的扩展,主要用于学习共享子空间,同时考虑了多标签注释等高级语义信息.与 CCA 不同,ml-CCA 不依赖于模态之间一对一的显式配对,而是使用多标签信息来建立对应关系,因而可产生一对多、多对一等配对情况,形成一个判别子空间,更适合于跨模态检索任务.实际应用中,ml-CCA 的性能胜过大多数其他CCA扩展方法.

2.3 基于内核的 CCA（KCCA）

如前所述,ml-CCA 依赖于模态对应关系的预建立,因此针对难以线性建模的更复杂相关性分析问题,ml-CCA 的表现不很理想.

为此,Hwang 等提出了基于内核的 CCA(简称 KCCA)方法,用于发现图像与文本模态的共享特征空间.

KCCA 增加了特征选择的灵活性,是一种在机器学习领域提取非线性特征的有效方法.

2.4 多标签核典型相关分析（ml-KCCA）

在 KCCA 的基础上,Jia 等提出了多标签核典型相关分析(简称 ml-KCCA),通过多标签注释中的高级语义信息对 KCCA 进行增强.从多标签中提取相关性进行核化,可以测量不同模态之间更复杂的非线性相关性,从而学习更适合跨模态检索任务的判别子空间.

2.5 集群 CCA

而集群 CCA(简称 C-CCA)通过来自跨模态数据对之间的一一对应关系,使用标准的 CCA 来学习投影,可以保留更多的语义信息.随着深度神经网络的发展,涌现出了结合深度神经网络的典型相关分析方法 DCCA[１９],它可以不需要 KCCA 的内积计算学习非线性变换.

二、深度学习方法

2016年,AlphaGo 战胜李世石,直接引发了深度学习技术的快速发展及其在诸多领域的应用研究,仅在图像领域,包括目标检测、目标跟踪、图像检索、图像分割等任务都开始借助深度学习不断提升各自的性能.

基于深度学习的跨模态检索研究也取得了很多进展,检索准确性得到大幅提升.

跨模态检索的核心工作关注于数据特征提取和不同模态数据之间内容的相关性度量方面,本节将围绕深度学习技术方法的应用介绍近几年跨模态检索领域的相关工作.

1、特征提取

1.1 基本网络结构

近年来：

图像特征提取主要采用卷积神经网络(Convolu-tional Neural Networks,CNN),
文本特征提取主要采用长短期记忆(Long Short-Term Memory,LSTM)或循环神经网络 (Recurrent Neural Network,RNN),
音频主要是先对音频信号进行降噪及处理,再采用 CNN 或 LSTM提取特征,
视频特征提取主要采用 3D-CNN,

本文将这些方法都归类为基本网络结构.根据具体任务的不同,跨模态检索领域的研究人员在采用深度学习网络进行特征提取时提出了不同的改进和组合方法.

针对自然语言对象检索任务同时涉及场景中的对象和全局场景上下文空间信息,Hu等[２０]提出一种新颖的空间上下文循环模型(简称 SCRC)作为对象检索候选框的评分函数,将空间配置和全局场景级上下文信息集成到网络中.该模型不仅考虑了图像全局上下文特征,而且考虑了图像中具体对象的特征,因此可以更精准地通过文本信息检索到对应的图像信息.

考虑到图像与文本之间存在语义鸿沟,用户难以使用文本准确描述出所需图像,Vo 等[２１]提出一种使用查询文本特征修改查询图像特征的方法,称为文本图像剩余门(Text Image Residual Gating,TIRG),其采用剩余连接组合图像和文本特征,生成一个新的查询特征.查询输入可以是一张图像或一段文本,通过文本微调图像特征使其符合预期的查询结果.

如图３所示,输入为一个白天人满为患的埃菲尔铁塔图像和一段文本“无人且转为夜间”,最终输出结果是夜间无人的埃菲尔铁塔图像.该模型在输入图像的基础上改变了某些特征,有效地缓解了语义鸿沟.

针对文本特征提取面临的不同语言之间的差异性以及词汇拼写错误等问题,Wehrmann 等[２２]提出采用简单有效的字符级卷积架构来替换词嵌入和RNN,使用字符级而不是词级文本表示,用一小组有限字符构建跨多种语言的描述.使用字符级卷积学习句子表示,对输入噪声也具有鲁棒性.

文本图像检索领域有一类特殊任务是菜谱检索,其特殊性表现在:文本内容包含烹饪说明和食材,其中烹饪说明是有序文本而食材是无序文本,

如图４所示.针对此类应用,Sal- vador 等[２３]同时考虑了正向和反向排序,食材样本使用双向 LSTM模型,烹饪说明样本因其有序而使用正向 LSTM 模型,最终两个编码器的输出被串联并嵌入食谱图像联合空间中.根据任务的特殊性,合理地使用模型不仅能提升检索准确性,对于大规模样本还会提升效率.

在视频特征提取方面,２D-CNN 的主要作用是提取视觉空间特征,但由于视频是一个连续的序列,只使用２D-CNN会丢失时间信息,因此３D-CNN 的作用就是可以保留视频中的时间特征,更符合视频的特点.因此,Yamaguchi 等[２４]采用局部与全局上下文结合,并使用２D-CNN 与３D-CNN 结合的方式提取视频特征.其累计提取６种类型的特征,最后全部串联起来作为完整的一个特征向量.文献[９]提出了音频与文本检索的架构,与文献[１０-１１]一致,均使用 MFCCs 提取音频特征.不同的是,２０１７年 Google 公司[２５]发现卷积神经网络在图像处理方面非常有效, 同样在音频分类方面也显示出了应用前景.通过对不同CNN 架构进行实验,发现 CNN 在音频分类任务上的效果很好,在大量的 YouTube 数据集上训练得到类 VGG 模型 VG- Gish.此后,许多研究都使用 VGGish 提取音频特征,如文献[２６-２７].

1.2 序列权重机制

序列权重机制已经被成功应用于包括目标检测和细粒度图像分类等在内的许多计算机视觉任务中.

其主要目的是,针对不同任务,采用为信息赋权重的方式提取已知序列中的重要信息,忽略无关信息.

近年来,在跨模态检索领域也逐渐涌现出一些研究工作采用序列权重机制来提升检索性能.

Deng 等[２８]提出一种文本-图像协同注意网,可以有效地关注图像中细粒度的局部特征,更好地与文本进行匹配,然后将有注意的特征输入哈希层得到二进制哈希表示,从而更容易比较文本和图像的内容相似性.

Li 等[２９]提出一种具有门控神经注意机制的递归神经网络(简称 GNA-RNN),网络的输入包括描述语句和人物图像,网络的输出是语句和图像间的亲和度,在机场等人员密集的公共场所作为安全监控有广泛的应用前景.具体做法是:将句子作为网络输入,逐个单词进行处理,采用单元级注意机制加权不同单元对不同单词的贡献,同时采用字级门估计不同单词对于自适应单词级加权的重要性.该项研究的贡献还有:整理收集了 CUHK 人员描述数据集(简称 CUHK-PEDES),包括有详细自然语言注释的大规模人员描述数据集和各种来源的人工样本集.在视觉问答任务中,与传统多模态特征融合相反,Li 等[３０]采用自然语言统一所有输入信息,提取上下文和疑问词之间最相关的特征,在模型中构造了上下文到问题的注意力和问题到上下文的注意力,从而将 VQA 转换为机器阅读理解问题,有效缓解了跨模态差异.

不同于上述两项研究在语言特征提取上采用序列权重的方式,Dey 等[３１]提出使用 LSTM 为单个图像计算n个不同且有序依赖的注意力图,然后将该注意力图映射到公共子空间中与其他模态查询特征进行比较,最终进行相关性度量.人员搜索场景下,人们通常可能会分组走路,即使独自走路,出现在同一场景中的其他邻近行人也会包含重要的背景线索.针对该现象,Yan 等[３２]提出采用上下文实例扩展模块,使用相对注意块来搜索和过滤场景中有用的上下文信息,

如图５所示;同时构建一个图学习框架,有效使用上下文对来更新目标相似性.通过融合对象外部的上下文特征,增加了有效信息,提高了检索结果的准确性.

与单模态特征提取不同,序列权重机制可以应用于多种模态之间.Mithun 等[３３]提出一种弱监督的基于视觉语义嵌入的联合框架,使用视频级句子描述从视频中学习相关片段的数量.其基本思想是:借助文本引导注意力(Text-Guided Attention,TGA)充分利用视频帧和句子描述之间的潜在对齐,亦即,使用查询文本引导提取出视频中的关键连续时刻.

Song 等[３４]引入一种多义实例嵌入网络 (简称 PIE- Nets),通过多头自我关注和残差学习将全局背景与本地引导的特征相结合,计算实例的多种表征.

在单模态以及多模态之间采用序列权重机制的基础上,Chen 等[３５]提出了一种新颖的注意力引导多模态相关(简称 AMC 模型)学习方法,采用序列权重机制来自适应平衡不同模态特征的重要性.

如图６所示,AMC 模型由联合学习的内部和外部注意网络的层次结构组成,其中,内部注意网络主要包括视觉内注意网络和语言内注意网络.多模态间的外部注意网络主要关注与查询最相关的模态重要性.其不足之处在于序列权重机制仅关注了两种模态的最主要特征,忽略了图像和参照表达之间可能存在多个综合的文本-视觉对的事实.针对该问题,Liu 等[３６]设计了一种新颖的跨模态注意力引导擦除方法,丢弃来自文本或视觉域的最主要信息,在线生成硬训练样本,并驱动模型发现互补的文本视觉对应.序列权重机制的应用非常广泛,在跨模态检索的特征提取阶段,应用该机制可以有效地保留重要特征信息.

2、内容相关性度量

解决跨模态检索中不同模态之间的差异性问题,主要依赖于模态间的内容相关性度量.目前深度学习方法中流行的度量策略包括视觉关系和图网络、对抗博弈机制等.

2.1 视觉关系和图网络

成对关系的推理对于各类计算机视觉相关研究都非常关键.

近年来,在对象识别、视觉问答和动作识别等领域都涌现出一些采用深度神经网络学习视觉关系的研究工作.

通常把一幅图像中的对象、属性和关系的明确表示成为图像的详细语义,对详细语义的准确识别有利于对图像的理解.

场景图作为一种图像详细语义描述方法,被广泛用于图像检索任务.

针对同一场景中对象之间的关系可能很复杂等问题,Johnson等[３７]提出一种基于视觉场景的条件随机场(Conditional Ran-dom Field,CRF)模型,使用场景图概念显式建模对象、对象的属性以及对象之间的关系并捕获详细语义,以场景图替换文本来检索相关图像.这种结构化图模型将文本结构化地表示出来,可以更好地表达图像中对象之间的关系,在文本图像检索中表现优异.有关场景图的生,Yang 等[３８]提出一种 Graph R-CNN 框架,采用图网络建模,同时利用关系提议网络(简称 RePN)计算对象对之间的相似性,并修剪图中的边; 采用注意力图卷积网络(简称 aGCN)提取高级上下文信息, 更新场景图以获得更好的表示.

受视觉问答相关研究[３９-４１]启发,在自然语言视频时刻检索领域,Liu 等[４２]提出一种时间模块化网络(简称 TMN)模型,使用查询的底层语言结构动态组装相应的模块化神经网络,然后通过该神经网络对视频进行组合推理,最后输出查询和视频间的对应关系.在此基础上,Zhang 等[４３]提出一种时刻对齐网络(Moment Alignment Network,MAN),通过迭代图调整网络将单次前馈网络中的候选时刻编码和时间结构推理统一起来,以端到端的形式共同学习图网络的最佳结构,来准确表达对象之间的关系.利用场景图可以非常直接清晰地表达文本中对象之间的关系,可以很大程度上弥补语义鸿沟.通过图网络来迭代更新网络的方式具有更强的鲁棒性.

2.2 对抗博弈机制

生成对抗网络(Generative Adversarial Networks,GAN)自２０１４年诞生以来,迅速成为深度学习领域的研究热点.

Wang 等[４４]提出的对抗性跨模态检索与 Peng 等[４５]提出的跨模态生成对抗网络的结构非常类似,都是对不同模态数据的联合分布进行建模.

模态间和模态内的相关性可以在生成模型和判别模型中同时探索,通过相互间的搏斗,促进跨模态相关学习.

其共同特征包括:

１)采用跨模态卷积自动编码器构成生成模型,确保有效利用跨模态相关性和重构信息;
２)两种判别模型同时进行模态内区分和模态间区分,以实现跨模态对抗训练.

Wang 等[４６]提出一种新颖的对抗性跨模态嵌入(Adver-sarial Cross-Modal Embedding,ACME)方法,使一种模态的嵌入能够在另一种模态中恢复对应实例的一些重要信息.其目标是通过采用新的三重态损失方案和有效采样策略来学习两种模态间的公共嵌入特征空间,借助对抗性学习策略进行
模态对齐.

类似地,针对说话人识别问题,文献[４７]提出一种声视频多模态生成对抗及三重态损失网络(AVGATN),语音部分采用传统语音识别中常用的梅尔倒谱系数(Mel Fre-quency Cepstrum Coefficients,MFCC)特征,并增加了基于三元组的身份识别及特征匹配判断网络,获得了良好的性能.

与文献[４６]类似,Gu 等[４８]也将生成过程结合到跨模态特征嵌入中,不仅可以学习全局抽象特征,还可以学习局部基础特征.

为了探索以程序文本生成图像来解决检索问题的可能性,Zhu 等[４９]提出一种基于 GAN 的食谱检索(简称 R２GAN)架构,

如图７所示.该架构包括一个生成器和两个鉴别器,旨在探索以程序文本生成图像来解决检索问题的可能性.

采用 GAN 以多种方式学习兼容的跨模态特征,并通过显示从食谱生成的图像来解释搜索结果,第一个鉴别器用于区分真实图像和伪造图像,第二个鉴别器用于区分图像来源.

生成模型在无监督领域占据重要地位,负责捕捉样本数据的分布;判别模型主要用于判别生成的数据是否真实.两者互相博弈调整,最终使模型达到平衡.从上述研究可以看出,GAN 可以通过文本数据生成图像数据来检索图像,从而有效地降低跨模态差异.

三、哈希编码方法

随着多媒体数据量的急剧增长,研究人员开始采用跨模态哈希方法来解决跨模态检索问题,通过将多媒体数据转化为二进制编码,投影跨媒体数据到公共汉明空间,提高检索速度的同时缩减存储空间.

相较于传统方法,哈希编码方法提升了效率,同时深度哈希方法也在检索准确性和效率方面达到了很好的平衡,从而被广泛应用于各种检索研究领域.

1、手工特征的哈希编码

手工特征的哈希编码可简单划分为３类：无监督哈希、有监督哈希和半监督哈希.

Weiss 等[５０]提出的无监督哈希侧重于捕获未标记数据中的基础结构信息,通过保留样本之间的相似性来学习紧凑的二进制编码.
有监督哈希的代表性工作是由 Liu 等[５１]提出的基于内核的监督哈希(简称 KSH),其采用内核化定制哈希函数,使哈希码损失函数最小.文献[５２]提出使用深度学习方法提取视频特征,使用传统哈希方法对视频特征生成二值哈希,但不同的是视频特征的学习能够与哈希学习相结合,是一种端到端的视频哈希算法,特征提取与生成哈希过程可以互相反馈,从而缓解高度依赖特征提取的情况.
半监督哈希方法的代表性工作有文献[５３]和文献[５４],它们都充分利用了有标签和无标签的训练数据信息.

2、深度学习的哈希编码

传统的手工特征的哈希编码方法虽然改善了检索速度和存储性能,但不可避免地损失了检索精度.

为此,近几年研究人员开始探索基于深度学习的哈希编码方法.

Salakhutdinov 等[５５]提出的语义哈希是利用深度学习技术进行哈希编码的早期工作之一,它采用受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)学习哈希码以进行可视搜索.

Xia 等[５６]和Liong 等[５７]提出了一种两阶段哈希方法,包括特征学习阶段和哈希码生成阶段.其关键技术有:

设计了深度神经网络从图像-文本输入对中学习非线性变换,实现统一的二进制编码;
以概率方式设计特定于模态的神经网络,在该网络中,根据推断出的二进制代码对隐变量进行建模.

文献[５８]首次提出利用深度异构哈希网络来实现跨模态人脸检索的方法,能够将异构空间的人脸图像和视频数据映射到同一空间,生成二值哈希表示.该方法提供了一套深度网络的通用框架,不仅可以用于图像与视频之间,还可以扩展到其他跨模态的检索任务.

Dai 等[５９]和 Long 等[６０]研究工作的共同点是利用三元组排序损失来建模图像之间的相似关系.

Yao 等[６１]设计了一个双流框架,该框架结合了哈希编码和分类,不仅可以保留图像之间的相对相似性,还可以保留图像的语义结构.

Long 等[６０]使用对抗性学习,利用源知识以及未标记的或仅标记稀疏的目标数据来学习目标域中的新模型,设计了一个域识别器来处理域转移,在特征空间中使源分布和目标分布更接近.

Qiu 等[６２]提出基于 GAN 的深度语义哈希(Deep Seman- tic Hashing,DSH-GANs),使用由生成对抗网络生成的合成图像来扩大训练数据,以更好地进行哈希学习,如图８所示.

深度监督哈希方法,一般需要用到多类别的大量训练数据,当出现先前未有的数据类别时,必须重新训练 CNN 模型再次为所有数据库图像生成哈希码.针对此问题,Wu 等[６３]提出一种新的深度增量哈希网络(Deep Incremental HashingNetwork,DIHN),以增量方式学习哈希码,同时保持数据库中原有图像的哈希码表示不变.通过保留训练数据之间的相似性来学习查询集的深度哈希函数,在缩短训练时间的同时确保了检索的准确性.其以增量方式学习哈希编码使新数据可以直接进行编码,无需重新训练模型,解决了跨模态检索中增量学习的挑战.针对现有监督哈希效率较低等问题,

Jiang 等[６４]提出一种新的深度监督哈希方法,称为非对称深度监督哈希(简称 ADSH),适用于大规模最近邻搜.ADSH 以非对称方式处理查询点和数据库点,仅为查询点学习深度哈希函数,而对于数据库点则直接学习其哈希码,可以大大缩短训练时间,表现出比传统对称深度监督哈希方法更好的性能.
Panyapanuwat 等[６５]提出了针对音频检索的无监督的深度学习哈希方法,其主要贡献在于对目标函数的改进,增加了目标函数的独立性、平衡性和相似性保持特性,即可以最小化输入空间中的真实搜索结果与哈希编码空间中的近似搜索结果之间的差异.

四、未来发展展望【跨模态检索领域存在的问题及未来发展趋势进行分析】

从研究方法层面来看,多数工作关注对图像、视频等数据的全局特征学习,而忽略了这些数据中包含的细粒度语义信息;

从应用层面来看,跨模态检索应用领域主要局限于安全监控与搜索引擎,还有待进一步扩展.

基于此,本文认为,未来一段时间,跨模态检索领域的研究将呈现如下发展趋势：

1、方法改进

在深度学习方法与知识图谱融合、细粒度分析等方面仍有提升空间,甚至可以将情感、环境等信息融合到公共表示学习中,以获取更强的相关,从而进一步改善跨模态检索的准确性.

融合知识图谱.跨模态检索着重于数据内容的高级语义信息,知识图谱将高级语义信息连接成关系网络,称为语义网,根据检索的输入,可以检索出与输入语义相关的内容,从而增加检索结果的多样性和准确性.
加入细粒度分析.在目前的跨模态检索研究中,对于视频、图像等数据的特征提取,大多是针对数据进行整体的提取,若加入细粒度分析,对图像或视频等内容进行如对象级地探究,则对于高级语义信息的提取有积极作用.
融合丰富信息.在跨模态检索任务中,对输入内容可以融合情感、环境、背景等丰富信息,有效区分数据个体之间的差异性,从而可以使检索结果更准确且更具判别性.

2、应用领域

跨模态检索在搜索引擎和安全监控等方面已经有了一些成功应用,未来可以加入环境、情感等上下文
信息进行全面检索、数据整理、语音匹配,甚至是诗画创作等.

融合丰富信息的检索：对于仅针对内容的图像检索,计算机难以真正理解人的检索意图,因此加入环境、情感等上下文信息进行全面检索,可以有效地理解检索意图,提高检索精度.
数据整理：海量的多媒体数据往往不易整理和归纳,需要花费大量人力.若利用跨模态检索技术,可以自动识别数据中的内容,进行自动分类归纳,从而减少人力消耗和时间成本.
语音匹配：音频数据通常需要人工进行匹配整理,而通过跨模态检索可以实现音频关键内容的提取,并且可以根据搜索的输入自动定位出音频时刻位置.
诗画创作：跨模态检索的一个重要任务就是通过提取各个模态数据的高级语义信息,将其关联起来.而诗画创作则可以利用文字搜索图像或由图像搜索诗句的方式实现.

结束语本文梳理分析了解决跨模态检索任务的主流研究方法,包括：

传统方法、
基于深度学习的方法、
基于哈希编码的方法；深度学习与哈希编码融合的方法等.

围绕深度学习方法在跨模态检索领域应用的关键性突破和进展,分析了各主要模块的关键问题以及代表性工作,涵盖了跨模态检索领域的最新相关工作.本文最后总结了跨模态检索研究的常用数据集和性能评价,分析明确了当前存在的主要问题并指出了该领域的未来发展趋势.

参考资料：
跨模态检索研究进展综述 ComputerScience 计算机科学 Vol．４８,No．８,Aug．２０２１

你可能感兴趣的:(搜索,人工智能,机器学习,算法,多模态搜索,跨模态搜索)

QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
使用LLaVa和Ollama实现多模态RAG示例 llzwxh888 python 人工智能开发语言
本文将详细介绍如何使用LLaVa和Ollama实现多模态RAG（检索增强生成），通过提取图像中的结构化数据、生成图像字幕等功能来展示这一技术的强大之处。安装环境首先，您需要安装以下依赖包：!pipinstallllama-index-multi-modal-llms-ollama!pipinstallllama-index-readers-file!pipinstallunstructured!p
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
容易满足的小孩洒在心头的阳光
去年买的榨汁机没有用几次就坏了，前些时间答应娃儿给他买个，天天没事就问我，啥时候买，还自己淘宝上比较，加入购物车，这不前几天赶紧给他买了，省的每天叨叨在我耳边念叨着。今天终于到货了，因为他一直想和喝芒果汁，顺便买了芒果在家，放学回来兴奋的，赶紧要榨芒果汁，还特意搜索一下芒果汁的做法，我说他要是学习能有吃这般如此认真，我也就没有那么操心了。今晚喝到了芒果汁，他很开心，是阿，孩子就是这么容易满足，得到
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
母亲节如何做小红书营销美橙传媒
小红书的一举一动引起了外界的高度关注。通过爆款笔记和流行话题，我们可以看到“干货”类型的内容在小红书中偏向实用的生活经验共享和生活指南非常受欢迎。根据运营社的分析，这种现象是由小红书用户心智和内容社区背后机制共同决定的。首先，小红书将使用“强搜索”逻辑为用户提供特定的“搜索场景”。在“我必须这样生活”中，大量使用了满足小红书站用户喜好和需求的内容。内容社区自制的高质量内容也吸引了寻找营销新途径的品
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
2024.9.6 Python，华为笔试题总结，字符串格式化，字符串操作，广度优先搜索解决公司组织绩效互评问题，无向图 RaidenQ python 华为 leetcode 算法力扣广度优先无向图
1.字符串格式化name="Alice"age=30formatted_string="Name:{},Age:{}".format(name,age)print(formatted_string)或者name="Alice"age=30formatted_string=f"Name:{name},Age:{age}"print(formatted_string)2.网络健康检查第一行有两个整数m
新私域是什么平台靠谱吗氧惠佣金真的高
新私域指的是借助与互联网电商，随着平台内商家入驻量、用户量相辅相成的全国化平台。是否靠谱取决于平台是否合规。新私域指的是借助与互联网电商，在传统会员体系外新增的锁定用户跨平台、跨界收益，一种随着平台内商家入驻量、用户量相辅相成的全国化平台。关于新私域平台是否靠谱，这个需要看平台的底层逻辑是否合理、合法、合规以及平台的未来的发展方向氧惠APP抖音购物、看电影、点外卖、打车用氧惠APP！佣金更高、更优
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交

跨模态检索研究进展综述【跨模态检索的核心工作在于：①不同模态数据的特征提取、②不同模态数据之间内容的相关性度量】【主流研究方法：基于传统统计分析的技术、基于深度学习的技术】【哈希编码提高检索速度】

一、概述

一、传统方法

1、特征提取

1.1 文本特征提取

1.2 视觉特征提取

1.3 音频特征提取

2、内容相关性度量

2.1 典型相关分析 （CCA）

2.2 多标签典型相关分析 （ml-CCA）

2.3 基于内核的 CCA（KCCA）

2.4 多标签核典型相关分析（ml-KCCA）

2.5 集群 CCA

二、深度学习方法

1、特征提取

1.1 基本网络结构

1.2 序列权重机制

2、内容相关性度量

2.1 视觉关系和图网络

2.2 对抗博弈机制

三、哈希编码方法

1、手工特征的哈希编码

2、深度学习的哈希编码

四、未来发展展望【跨模态检索领域存在的问题及未来发展趋势进行分析】

1、方法改进

2、应用领域

你可能感兴趣的:(搜索,人工智能,机器学习,算法,多模态搜索,跨模态搜索)

2.1 典型相关分析（CCA）

2.2 多标签典型相关分析（ml-CCA）