wwweiyx

An Overview of Cross-media Retrieval: Concepts, Methodologies, Benchmarks and Challenges 笔记

文章目录

1. 论文简介
2. 跨模态检索系统的定义
- 数学定义：
- 跨模态检索和其他方法的区别：
Common Space Learning
- 1. 传统的统计相关分析方法
- - 统计相关分析方法具体介绍
  - 统计相关分析方法优缺点
- 2. 基于深度学习DNN的方法
- - 基于 DNN 的方法摘要
  - 基于 DNN 的方法总结以及优缺点
- 3. 跨模态图正则化的方法
- - 图正则化的相关方法
  - 图正则化的优缺点
- 4. 度量学习的方法
- - 基于度量学习相关方法
  - 度量学习的优缺点：
- 5. 排序学习的方法
- - 基于排序学习的相关方法
  - 排序学习方法的优缺点
- 6. 字典学习的方法
- - 基于字典学习的相关方法
  - 基于字典学习的优缺点
- 7. 跨模态哈希模型
- - 跨模态哈希具体方法
  - 跨模态哈希优缺点
- 其他方法
Cross-media Similarity Measurement
- Graph-based Methods
- - 基于图的具体方法
  - 基于图的优缺点
- Neighbor Analysis Methods
- - 基于近邻的具体方法
  - 基于近邻方法的优缺点
其他方法
- Relevant feedback analysis
- Multimodal topic model
Cross-Media Retrieval Dataset
- Wikipedia Dataset
- XMedia Dataset
- NUS-WIDE Dataset
- Pascal VOC 2007 Dataset
- Clickture Dataset
实验部分
- 特征提取和数据集划分
- 评价指标和对比模型
- 实验结果
挑战和未解决的问题
- 1. 数据集构建和基准标准化
- 2. 提高精确度和效率
- 3. 深度神经网络的应用
- 4. 语义关联信息的开发
- 5. 跨媒体检索的实际应用
总结

这是一篇发布于 2018 年的文章，重点探讨如何解决跨模态检索中的 “media gap”。本文将现有的跨模态检索方法划分成两大类：公共空间学习和跨媒体相似度测量，进行了详细的介绍。同时还介绍了数据集，评价指标，并且通过实验对比了现有方法的结果。最后提出了未来的挑战和未解决的问题。
我对这篇文章进行了翻译和阅读，总结了其中的重点内容，并且附上了引用文献的链接。

论文名称	An Overview of Cross-media Retrieval: Concepts, Methodologies, Benchmarks and Challenges
作者	Yuxin Peng, Xin Huang, and Yunzhen Zhao
会议/出版社	IEEE Trans. Circuits Syst. Video Technol. 28(9):
pdf	在线pdf readpaper
其他	实验室主页

1. 论文简介

跨模态检索算法主要的挑战是“media gap”，不同媒体类型的表示是不一样的使得难以进行度量。

如上图所示，解决这一问题的方法可以分为两大类：

common space learning methods：目前主流的方法，将不同模态的特征映射到公共空间中，在公共空间中进行度量
cross-media similarity measurement：根据数据关系，直接计算跨模态相似度

2. 跨模态检索系统的定义

数学定义：

本文使用 $X$ 和 $Y$ 来表示两种模态的数据。

训练数据集可以表示为 $\mathcal{D}_{t r}=\left\{X_{t r}, Y_{t r}\right\}$ 。模态类型一： $X_{t r}=\left\{\boldsymbol{x}_p\right\}_{p=1}^{n_{t r}}$ （其中 $n_{t r}$ 代表该模态样本的个数 $x_p$ 代表第 $p$ 个实例），模态类型二： $Y_{t r}=\left\{\boldsymbol{y}_p\right\}_{p=1}^{n_{t r}}$ （数学的表示同上）。

两种模态数据 $x_p$ 和 $y_p$ 间存在着相同的关系。他们的语义类别标签分别表示为 $\left\{c_p^X\right\}_{p=1}^{n_{t r}}$ 和 $\left\{c_p^Y\right\}_{p=1}^{n_{t r}}$ 。其中包含了无监督，半监督和有监督的方法，决定在训练过程中是否使用标签。

目标是在测试集 $\mathcal{D}_{t e}=\left\{X_{t e}, Y_{t e}\right\}$ ， $X_{t e}=\left\{\boldsymbol{x}_q\right\}_{q=1}^{n_{t e}}$ , $Y_{t e}=\left\{\boldsymbol{y}_q\right\}_{q=1}^{n_{t e}}$ 上计算跨模态的相似性， $\operatorname{sim}\left(\boldsymbol{x}_a, \boldsymbol{y}_b\right)$

跨模态检索和其他方法的区别：

与图像标注的区别：跨模态检索的文本是指句子和段落描述，而不是图像标示的概率
与 image/video caption 的区别：跨模态检索是搜索已经存在的数据而不是生成数据。更关注多种模态间的联系。
与迁移学习的区别：不存在源域和目标域，所有模态类型都被平等对待

Common Space Learning

本章重点介绍了基于公共空间的跨模态检索算法，这是当前跨模态检索的主流。遵循的理念是，共享语义的数据存在着潜在的相关性，使得构建一个公共空间成为可能。

作者将现有的方法划分成了七大类，分别是：

传统的统计相关分析方法：使用统计相关分析方法学习投影矩阵，将不同模态数据映射到公共空间中。
基于深度学习DNN的方法：结合深度学习提取不同模态特征，并通过不同方式进行对齐。
跨模态图正则化的方法：引入图正则化，更好地表示不同模态数据间的关系。
度量学习的方法：通过度量学习，保持不同模态特征的在公共空间中的空姐结构
排序学习的方法：通过优化排序损失，直接提升检索的精度
字典学习的方法：通过构建字典，不同媒体类型的稀疏系数中获取跨模态的相关性
跨模态哈希模型：通过哈希量化，提升大规模数据数据集的检索速度

1. 传统的统计相关分析方法

传统的统计相关分析方法是常用空间学习方法的基本范式和基础，主要是通过优化统计值来学习线性投影矩阵。

统计相关分析方法具体介绍

具体方法包括：

CCA 典型相关分析（canonical correlation analysis）是最具有代表性的方法。将不同模态的数据分别看做两个数据集，学习到一个子空间，使两组异构数据间的相关性最大化。

CCA 是早期最流行的 baseline，因此产生了许多相关的变体。CCA 本身是无监督算法，不适用语义标签。Rasiwasia et al^(A new approach to cross-modal multimedia retrieval)^，Costa et al^(On the Role of Correlation and Abstraction in Cross-Modal Multimedia Retrieval)^ 和 GMA^(Generalized Multiview Analysis: A discriminative latent space)^ 算法尝试了语义标签的引入，提升了算法精度，是 CCA 算法的有监督扩展。Multi-view CCA ^(A Multi-View Embedding Space for Modeling Internet Images, Tags, and their Semantics)^将高级语义作为 CCA 的第三视图，multi-label CCA^(Multi-label Cross-Modal Retrieval)^ 应用于多标签场景。

此外传统的统计相关算法还有 CFA 最小化公共空间中的 Frobenius 范数。

统计相关分析方法优缺点

传统方法优缺点：

优点：训练效率高，易于实施。
缺点：线性投影的方法很难模拟现实数据的复杂性。大部分方法只能模拟两种数据类型，但跨模态检索通常涉及两种以上的媒体数据。

2. 基于深度学习DNN的方法

基于 DNN 的方法摘要

本节主要介绍 DNN 在跨模态检索上的应用方法，重点摘要其中几种方法：

Ngiam et al：将受限玻尔兹曼机(RBM)的扩展应用于公共空间学习，并提出了双模深度自动编码器，其中两种不同媒体类型的输入通过共享代码层，以学习跨媒体相关性并保存重建信息。
Srivastava et al：采用两个独立的深度玻尔兹曼机(DBM)对不同媒体类型特征分布进行建模，并在两个模型的顶部附加一层作为联合表示层，该层可以通过计算联合分布来学习公共空间。
DCCA：将 DNN 和 CCA 方法结合起来。和 CCA 不同的是，DCCA 先通过两个神经网络进行编码，再通过编码层之间的相关约束使总相关性最大化。
DCCAE：在 DCCA 上进行改进，使用自编码器的 code 层输出进行相关性分析，最大化不同模态间特征的相关性。
Corr-AE：提出了 Corr-AE 算法，使用自编码器来解决跨模态检索的问题。两个自编码器分别对图像特征和文本特征进行重建，并且在 code 层最小化不同模态编码的关联误差，学习到模态间的联系。
CMDN：将同一模态的信息生成两种互补的独立表示，分别是模态内的表示和模态间的表示。然后使用分层学习的方式进行学习，提高了检索的精度。

基于 DNN 的方法总结以及优缺点

这些跨模态检索的方法的结构可以分成两种：

第一种方法可以看成一个网络，不同的模态通过一个共享层进行映射。
第二中方法可以看成两个子网络，在两个子网络的编码层是互相耦合的。

上述方法的输入的多媒体类型基本只有两类，而更多输入类型的方法是未来研究挑战的重点

除了 DNN 外，还有 RNN，LSTM，GAN 等网络结构，它们的设计思想对跨模态检索有一定的参考价值

3. 跨模态图正则化的方法

图正则化广泛应用于半监督学习中，它从部分标记的图的角度考虑半监督学习问题。

边权重表示图中数据之间的相似性，目标是预测未标记顶点的标签。图正则化可以丰富训练集并使解决方案更加平滑。

图正则化的相关方法

Zhai等人提出 JGRHML 联合图正则化异构度量学习。他们将图正则化纳入跨媒体检索问题中，使用学习到的度量空间中的数据构建联合图正则化项。然后他们提出了联合表示学习（JRL）方法，能够在一个统一的框架中共同考虑相关性和语义信息，支持多达五种媒体类型。具体而言，他们为每种媒体类型构建一个单独的图，其中边权重表示同一媒体类型的标记和未标记数据的相似性。通过图正则化，JRL丰富了训练集，并联合学习每种媒体类型的投影矩阵。由于JRL为不同的媒体类型分别构建了不同的图，Peng等人进一步提出在公共空间中构建统一的超图，从而不同的媒体类型可以相互促进。该做法的另一个重要改进是利用媒体实例分割的细粒度信息，有助于利用跨媒体数据的多级相关性。

图正则化的优缺点

优点：图正则化可以描述跨媒体数据的各种相关性，如语义相关性、媒介内相似性和媒介间相似性。图正则化可以在一个统一的框架中自然地建模两种以上的媒体类型
缺点：图的构建过程通常会导致较高的时间和空间复杂性，特别是在具有大规模跨媒体数据的现实场景中。

4. 度量学习的方法

度量学习可以使用数据之间的相似/不相似信息优化特征的表示。将跨模态数据视为单一模态数据的扩展，引入度量学习，让相似的实例特征靠近，不相似的实例特征原理，优化检索的效果。

基于度量学习相关方法

JGRHML 就是将度量学习引入跨模态检索代表，除了构建图正则化之外，JGRHML 还引入了跨模态的度量损失。

注：除了本文提到的 JGRHML 之外，后面还有很多跨模态检索的工作都使用了度量学习的方法。如 DSCMR，cross-model center loss 等。我也做过将度量学习应用与跨模态检索的工作，具体论文还在 under review。

度量学习的优缺点：

优点：度量学习在跨模态的共同空间中保留了语义的相似性/不相似性，这对于跨媒体数据的语义检索非常重要。
缺点：基于度量学习的方法依赖于监督信息，在监督信息不可用时不适用。

5. 排序学习的方法

**排序学习方法将排序信息作为训练数据，直接优化排序的结果而不是学习两两数据之间的相似性。**早期的排名学习研究主要集中在单媒体检索上，但是一些研究如表明它们可以扩展到跨模态检索中。

基于排序学习的相关方法

在 David 的工作中，提出了一个判别模型来学习从图像空间到文本空间的映射，但只涉及单向排序(文本→图像)。

Bi-CMSRM 是双向排序方法，即文本→图像和图像→文本排序方法。通过双向跨媒体语义表示模型来优化双向列表排序损失。

Jiang 首先将视觉对象和文本单词投射到局部公共空间，然后再以组合的方式投射到全局公共空间，并带有排序信息。

Wu et al 采用条件随机场进行共享主题学习，然后利用排序函数进行潜在的联合表示学习。

排序学习方法的优缺点

优点：使用排序函数目标明确，直接提升检索的性能
缺点：目前的方法都只使用了两种模态信息，多种模态数据仍不适用

6. 字典学习的方法

关于字典学习：字典学习的目标，就是提取事物最本质的特征（类似于字典当中的字或词语）。如果我们能都获取这本包括最本质的特征的字典，那我们就掌握了这个事物的最本质的内涵。在字典学习中，输入数据通过稀疏编码算法表示为字典中的若干个基的线性组合。

字典学习方法认为数据由两部分组成：字典和稀疏系数。该想法也可以应用于跨模态检索之中，将数据分解为每个媒体的媒体特定部分和跨模态相关性的公共部分。

基于字典学习的相关方法

Jia 等人提出为每种模态学习一个字典，而这些字典的权重相同。在这项工作中，数据明确分解为两部分：私有字典和共享系数。Zhu 等人提出了跨模态子模块化字典学习(CmSDL)，该方法学习适应模态的字典对和用于跨媒体表示的同构空间。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DBrYfUCt-1678421761632)(assets/image-20230309184928-uxh73y4.png)]

Coupled dictionary learning 耦合字典学习是联合构建两个视图私有字典的有效方法。Zhuang 等人提出将单媒体耦合字典学习扩展到跨媒体检索，假设不同媒体类型的稀疏系数之间存在线性映射。通过这些稀疏系数映射，可以将一种媒体类型的数据映射到另一种媒体类型的空间中。字典学习方法采用因式分解方法对跨媒体检索问题进行建模，公共空间为稀疏系数。

基于字典学习的优缺点

优点：容易从不同媒体类型的稀疏系数中获取跨模态的相关性
缺点：如何在大规模跨媒体数据上解决字典学习的海量计算优化问题是一个挑战。

7. 跨模态哈希模型

多媒体数据的数量急剧增长，这对检索系统的效率提出了更高的要求。哈希法是一种为了加速检索过程而设计的方法，在各种检索应用中得到了广泛的应用。

跨模态哈希具体方法

注：在本文的之后还出现了很多基于哈希的跨模态检索方法。如 DCMH，SSAH 等方法。

Zhang 等人提出了多信息源的复合哈希(CHMIS)，其思想是既保留原始空间中的相似性，又保留多个信息源之间的相关性。

Wu et al 首先应用图来建模模态内和模态间的相似性，然后学习用于生成哈希码的多模态字典。同时还考虑了哈希码的判别能力，这有助于在监督条件下学习哈希码。

此外还有很多种跨媒体哈希，跨媒体哈希方法主要考虑了模态间的相似度、模态内的相似度和语义辨别能力等。值得注意的是，跨媒体哈希方法是基于成对相关性学习的，可以弥合“媒体鸿沟”问题。

跨模态哈希优缺点

优点：由于二进制哈希代码较短，在检索效率上具有优势，有利于现实世界中大规模数据集的检索。
缺点：哈希的效率优势无法在小规模数据集上得到有效验证。

其他方法

除了上述七种方法之外，作者还讨论了一些不易分类的方法：

高维空间投影法：该方法由Zhang等人提出。首先将数据投影到高维公共空间，然后再根据类内距离和类间距离将数据从高维空间映射到低维公共空间。
非配对数据处理法：Kang等人提出了局部群一致特征学习（LGCFL），用于处理非配对数据。该方法通过语义类别标签学习公共空间，并不像CCA方法那样要求严格的配对数据。
多投影矩阵法：目前大多数方法仅针对每种媒体类型学习一个投影矩阵。然而，Hua等人提出了学习一组本地投影矩阵的方法，通过分析数据标签的层次结构来利用语义相关性。同时，Wei等人提出了分别为图像→文本检索和文本→图像检索学习不同投影矩阵的方法。然而，这种方法存在一个限制，就是随着检索任务的增加，需要学习的投影矩阵的数量也会增加。
流形对齐法：该方法扩展了流形对齐的思想，通过发现提供不同高维数据集共同低维表示的子空间和流形结构来实现跨媒体检索。这些方法利用高维数据具有低维流形结构的直觉，通过对齐不同媒体类型的基础流形表示来寻找公共空间投影。

Cross-media Similarity Measurement

上面介绍了基于公共空间的检索方法，本节介绍跨媒体相似度测量方法。这种方法无需将媒体实例从单独的空间显式投影到公共空间由于没有公共空间，不能直接进行距离度量或直接分类。一种直观的方法是使用已知的多媒体实例和在数据集中的相关作为基础，弥合“媒体鸿沟”。

通常使用图的边表示媒体实例和多媒体文档 multimedia documents (MMD)之间的关系，根据方法不同重点可以划分成两类：

基于图的方法：主要关注图的构建
近邻分析方法：主要关注如何利用近邻关系进行相似度量

这两种方法存在着较强的关联

Graph-based Methods

基于图的方法的基本思想是将跨媒体数据看作一个或多个图中的顶点，边由跨媒体数据的相关性构成。单媒体内容相似度、共存关系和语义类别标签可以联合用于图的构建。通过相似度传播和约束融合等处理，可以获得检索结果。

MMDS 中数据的共存关系为桥接不同的媒体类型提供了重要提示。表示 MMD 相似性的图在[4]、[93]中起着重要作用，并且跨媒体检索基于该图中的 MMD 亲和度。

基于图的具体方法

Tong 等人为每种媒体类型构建一个独立的图。这些图通过线性融合或顺序融合进一步合并，然后进行跨媒体数据的相似性测量。

与 Tong 不同的是，Zhuang 等人构建了一个统一的跨媒体相关图，该图集成了所有媒体类型。边权重由单媒体数据的相似性和共存关系确定。此外还考虑了网页上MMD之间的链接关系。

Yang 等人提出了一种两级图构建策略。他们首先为每种媒体类型构建两种类型的图：一种是每种媒体类型的图，另一种是所有MMD的图。然后，媒体实例的特征沿着MMD语义图传播，构建MMD语义空间以执行跨媒体检索。

尽管现有方法大多仅考虑相似性传播中的正相关性，但 Zhai 等人提出在图中传播不同媒体类型数据之间的正负相关性，并提高了检索准确性。

基于图的优缺点

基于图的相似性度量方法的核心思想是构造一个或多个图，并在媒体实例或MMD的级别上表示跨媒体的相关性。

优点：图构造能将各种类型的关联信息结合起来
缺点：图的构造过程比较耗费时间和空间。相关性不可用时，很难执行跨媒体检索，特别是当查询不在数据集中时。实际应用中，MMDS之间的关系通常是噪声和不完备的。

Neighbor Analysis Methods

一般而言，近邻分析方法通常基于图的构造，因为邻域可以在给定的图中进行分析。在本文中，基于图的方法主要涉及图的构建过程，而近邻分析方法则侧重于利用邻域关系进行相似性度量。

基于近邻的具体方法

Clinchant 提出了一种名为跨媒体融合的多媒体融合策略，用于跨媒体检索。例如，存在一个包含图像/文本对的数据集，用户通过图像查询来检索相关的文本。给定一个图像查询，根据单媒体内容相似性将其最近邻进行检索，然后这些最近邻的文本描述被视为相关的文本。

Zai 提出通过分析每个媒体实例的同类最近邻计算两个媒体实例属于相同语义类别的概率来计算跨媒体相似性。

Ma 提出了一种以聚类为视角计算跨媒体相似性的方法。在他们的工作中，首先对每种媒体类型应用聚类算法，然后根据数据共存关系获得聚类之间的相似度。查询将根据单媒体内容相似性分配给不同权重的聚类，然后通过计算聚类之间的相似度获得检索结果。

基于近邻方法的优缺点

优点：这些方法不依赖于MMDS，因此它们是灵活的。
缺点：由于邻域分析方法实际上可能是基于图的构造，所以它们都存在时间和空间复杂度高的问题。也很难保证邻居的相关关系，所以性能不稳定。

其他方法

Relevant feedback analysis：基于用户的反馈去提升检索性能
Multimodal topic model：views cross-media data in the topic level，过计算条件概率来获得跨媒体相似度

Relevant feedback analysis

引入相关反馈（RF）来提供更准确的信息以促进检索准确性。RF包括两种类型：短期反馈和长期反馈。短期反馈只涉及当前用户提供的RF信息，而长期反馈考虑所有用户提供的RF信息。RF已被证明在跨媒体相似度计算中是有效的。短期反馈通过查询数据集中最接近的邻居，让用户标记正负样本以改善相似度。长期反馈通过将反馈信息转换为成对的相似/不相似约束来优化数据的向量表示。RF是一种提高交互式检索准确性的辅助技术，但需要付出人力成本。

Multimodal topic model

研究人员将主题模型扩展到了图像注释等应用中，提出了多种模型，如Corr-LDA和tr-mmLDA等。然而，这些方法通常对跨媒体主题的分布做出了强烈的假设，这些假设在现实应用中并不适用。为了解决这个问题，Jia等人提出了MDRF方法，并将其视为基于LDA主题模型的马尔可夫随机场。Wang等人提出了下游监督主题模型，并构建了一个联合的跨媒体概率图模型来发现相互一致的语义主题。总体而言，多模态主题模型的目标是在主题级别分析跨媒体之间的关联。

Cross-Media Retrieval Dataset

本节介绍了常用的跨模态检索的数据集

Wikipedia Dataset

Wikipedia dataset 数据集。

该数据集是跨媒体检索中最常用的数据集之一，其中包含了2,866对图像和文本。该数据集基于Wikipedia上的“特色文章”，由29个类别中的前10个最多的类别组成。

该数据集规模较小，只涉及图像和文本两种媒体类型。具有高级语义难以区分，例如战争和历史类别之间有些语义重叠，同时即使是同一类别的数据，语义也可能差异很大，这可能会导致检索评估的困难。

XMedia Dataset

XMedia Dataset 数据集

XMedia 有20个类别，如昆虫、鸟、风、狗、老虎、爆炸和大象等对象。对于每个类别，收集了五种媒体类型的数据：250个文本、250个图像、25个视频、50个音频片段和25个三维模型，因此每个类别有600个媒体实例，总媒体实例数为12,000个。

所有媒体实例均从著名网站：维基百科、Flickr、YouTube、3D Warehouse和普林斯顿3D模型搜索引擎中爬取。

NUS-WIDE Dataset

NUS-WIDE 数据集是一个网络图像数据集，包括图像及其关联标签。这些图像和标签都是通过Flickr的公共API随机爬取的。去除重复图像后，NUS-WIDE数据集包括81个概念的269,648个图像。最初，这些图像关联了425,059个独特标签。然而，为了进一步提高标签质量，该数据集删除了出现次数不超过100次且不存在于WordNet中的标签，最终仅包含5,018个独特标签。

Pascal VOC 2007 Dataset

Pascal VOC 2007是最受欢迎的Pascal VOC数据集，由20个类别的9,963张图像组成。图像注释用作跨媒体检索的文本，并在包含804个关键字的词汇表上定义。

Clickture Dataset

Clickture DataSet 是一个大规模的基于点击的图像数据集，它是从某商业图像搜索引擎一年的点击数据中收集的。

完整的Clickture数据集由4000万张图像和7360万条文本查询组成。它还有一个子集Clickture-Lite，包含100万张图片和1170万条文本查询。

训练集由2,310万个查询-图像-点击三元组组成，其中“点击”是表示图像与查询之间相关性的整数，测试集有从1,000个文本查询生成的79,926个查询-图像对。

实验部分

特征提取和数据集划分

具体参考原文

评价指标和对比模型

两种检索任务：

Multi-modality cross-media retrieval：使用任意媒体类型作为查询，返回检索到的所有媒体类型。
Bi-modality cross-media retrieval：使用任一媒体类型作为查询。返回其他媒体类型

评价指标：

MAP
PR 曲线

作者在网站上给出了本文实验 PR 曲线的文件

对比模型：

The compared methods in the experiments include: BITR [20], CCA [18], CCA+SMN [27], CFA [30], CMCP [6], DCMIT [35], HSNN [5], JGRHML [7], JRL [10], LGCFL [85], ml-CCA [26], mv-CCA [25] and S2UPG [11]. All these methods are evaluated on Wikipedia, XMedia, NUS-WIDE and Pascal VOC 2007 datasets. However, because Clickture dataset provides no category labels for supervised training, only unsupervised methods (BITR, CCA, CFA, DCMIT) are evaluated on this dataset.

实验结果

具体查看论文中的数据

挑战和未解决的问题

1. 数据集构建和基准标准化

本文谈到了数据集在交叉媒体检索实验评估中的重要性，目前公开的数据集数量很少，且存在一些缺陷，比如规模小、媒体类型不足、类别划分不合理等问题。为了解决这些问题，文章作者正在构建一个名为XMediaNet的新数据集，包括五种媒体类型（文本、图像、视频、音频和3D模型）

2. 提高精确度和效率

现有方法仍有改进的潜力去提高准确性。例如基于图的跨媒体相似度测量方法可能使用更多上下文信息进行有效的图构建。

因为大部分方法是基于特征训练的。单媒体特征的判别能力也很重要，当采用更具判别性的特征（如CNN特征用于图像）时，检索准确性将得到提高。

跨媒体检索数据集到目前为止仍然是小规模的，媒体类型的数量也有限。虽然已经有一些哈希方法用于跨媒体检索，但效率问题还没有得到足够的关注。

3. 深度神经网络的应用

尽管基于DNN的方法在跨媒体检索方面取得了相当大的进展，但仍有进一步改进的潜力。

现有方法主要将单媒体特征作为输入，因此它们严重依赖于特征的有效性。研究工作可以致力于设计端到端架构，将原始媒体实例作为输入，直接使用DNN获取检索结果。

一些针对特定媒体类型的特殊网络（例如，用于对象区域检测的R-CNN）也可以纳入跨媒体检索的统一框架中。

大多数现有方法仅设计用于两种媒体类型。在未来的工作中，研究人员可以集中分析超过两种媒体类型，这将使DNN在跨媒体检索中的应用更加灵活和有效。

4. 语义关联信息的开发

跨媒体检索的主要挑战仍然是不同媒体类型的异构形式。现有方法试图弥合“媒体差距”，但只取得了有限的改进，并且在处理真实世界的跨媒体数据时，检索结果并不准确。

跨媒体相关性通常与上下文信息有关。例如，如果图像和音频剪辑来自两个具有链接关系的网页，则它们可能与彼此相关。许多现有方法（例如CCA，CFA和JRL）仅将共存关系和语义类别标签视为训练信息，但忽略了丰富的上下文信息。实际上，互联网上的跨媒体数据通常不存在于单独的环境中，具有重要的上下文信息，如链接关系。这些上下文信息相对准确，并为提高跨媒体检索的准确性提供了重要的线索。

网络数据通常是分散的，因此利用上下文信息对于复杂的实际应用程序至关重要。我们相信，在未来的研究中，研究人员将更加注重丰富的上下文信息以提高跨媒体检索的性能。

5. 跨媒体检索的实际应用

随着效率和准确性的不断提高，跨媒体检索的实际应用将变得可行。这些应用可以提供更加灵活和方便的方式来从大规模跨媒体数据中检索，并且用户将愿意采用跨媒体搜索引擎，该搜索引擎能够使用任何媒体类型的查询，检索各种媒体类型，如文本、图像、视频、音频和3D模型。此外，其他可能的应用场景包括涉及跨媒体数据的企业，如电视台、媒体公司、数字图书馆和出版公司等。互联网和相关企业将有巨大的跨媒体检索需求。

总结

本文回顾了跨媒体检索这一重要研究主题，解决跨越不同媒体类型的“媒体差距”以进行检索。

本文回顾了100多个文献，以便建立评估基准，并促进相关研究。已有的方法主要包括共同空间学习和跨媒体相似度测量方法。共同空间学习方法明确地学习不同媒体类型的共同空间以进行检索，而跨媒体相似度测量方法则直接测量跨媒体相似性而无需共同空间。

同时介绍了广泛使用的跨媒体检索数据集，包括维基百科、XMedia、NUS-WIDE、Pascal VOC 2007和Clickture数据集。其中，本文构建的XMedia是第一个包含五种媒体类型的数据集，用于全面公正的评估。

文章还介绍了跨媒体基准测试，例如数据集、比较方法、评估指标和实验结果，并建立了一个持续更新的网站来呈现它们。

最后提出了未来的主要挑战和未解决的问题。

你可能感兴趣的:(跨模态检索,机器学习,人工智能,算法)

[C/C++安全编程]_[中级]_[如何实现不可变变量] Peter(阿斯拉达) C/C++安全编程 const constexpr rust 不可变变量 C++
场景在Rust里有不可变变量，不可变变量可以保证编译器内存安全，禁止数据竞争；并且不可变可以安全的跨线程共享，无需锁。那么C/C++对象有这种不可变变量吗？说明首先说下简单类型是可以通过const来修饰不可变特性的。对象类型结构的不可变特性。先说C肯定是没有的，C的结构体都是public结构，想要让成员不可变，只能通过const来修饰成员变量，但是如果修饰了，也不能改了，虽然可以通过const_c
智慧水库信息化系统建设产品需求文档V2.0 小赖同学啊 test Technology Precious 物联网
智慧水库信息化系统建设产品需求文档1.引言1.1文档目的本文档旨在明确智慧水库信息化系统的建设需求，为系统设计、开发和实施提供全面依据，确保系统功能满足水库管理业务需求，提升水库管理的智能化水平和决策效率。1.2背景介绍传统水库管理面临数据采集不及时、分析手段有限、决策依赖经验等问题，难以应对复杂多变的水文情势和日益增长的管理需求。随着物联网、大数据、人工智能等技术的发展，智慧水库建设成为必然趋势
HCL 三层知识总结
HCL三层知识总结一、网络层基础1.1网络层的核心功能网络层位于数据链路层之上，主要负责跨网络的数据包转发，实现不同网段（广播域）之间的通信。其核心功能包括：寻址与路由：通过IP地址标识网络中的主机，并选择最佳路径将数据包从源端发送到目的端。分段与重组：当数据包大小超过底层链路的MTU（最大传输单元）时，将其分割为更小的片段，到达目的端后重新组合。拥塞控制：通过流量调节避免网络因过载而瘫痪（HCL
OpenCV中常用特征提取算法（SURF、ORB、SIFT和AKAZE）用法示例（C++和Python）点云SLAM 图形图像处理 opencv 算法 ORB算法 SIFT算法 SURF算法 AKAZE算法计算机视觉
OpenCV中提供了多种常用的特征提取算法，广泛应用于图像匹配、拼接、SLAM、物体识别等任务。以下是OpenCV中几个主流特征提取算法的用法总结与代码示例，涵盖C++和Python两个版本。常用特征提取算法列表算法特点是否需额外模块SIFT（尺度不变特征）稳定性强、可旋转缩放xfeatures2d模块SURF（加速稳健特征）快速但专利保护xfeatures2d模块ORB（OrientedFAST
黄仁勋链博会演讲实录：脱掉皮衣，穿上唐装，中文开场
黄仁勋一度尝试用中文开场，他说，“我在美国长大，学到了很多汉语。”他表示，像DeepSeek、阿里巴巴、MiniMax、百度，他们开发的产品都是世界级的，推动了全球人工智能的发展。中国的开源AI是全球进步的催化剂，以至于全世界各个行业都有机会加入到AI革命当中。7月16日，黄仁勋身着唐装出席了第三届链博会，在此之前，他身着标志性皮衣出席多个场合活动。在此之前，英伟达官宣获得H20芯片对华的出口许可
【AI 赋能：Python 人工智能应用实战】5. 梯度下降家族：SGD/Adam优化器对比实验与选择策略 AI_DL_CODE 人工智能 python 梯度下降优化器 SGD Adam PyTorch
摘要：本文系统解析梯度下降优化器的核心原理与演进脉络，构建从理论到实战的完整知识体系。理论部分梳理优化器发展里程碑，从1951年的SGD到2018年的AdamW，揭示技术迭代逻辑；通过数学公式对比SGD、Momentum、Adam等核心算法的更新机制，解析动量加速、自适应学习率的创新点。结合损失曲面分析，阐释Momentum如何逃离鞍点、Adam如何处理悬崖梯度。实战模块基于PyTorch在MNI
【人工智能之深度学习】6. 卷积核工作原理：从边缘检测到特征抽象的逐层演进（附可视化工具与行业实战代码） AI_DL_CODE 人工智能深度学习卷积核特征提取卷积神经网络边缘检测特征可视化
摘要：卷积核是卷积神经网络（CNN）的核心组件，其通过局部感受野与参数共享机制实现高效特征提取。本文从数学本质出发，揭示卷积操作的空域-频域对偶性：空域卷积等价于频域乘积（F{f∗g}=F{f}⋅F{g}F\{f*g\}=F\{f\}⋅F\{g\}F{f∗g}=F{f}⋅F{g}），解释边缘检测核（Sobel、Laplacian）的频域响应特性。通过特征可视化实验表明，CNN特征呈现逐层抽象规律：
脱岗离岗逃岗监测识别软件系统平台标检测算法#YOLO
值班脱岗智能监测识别系统是一种利用AI视频智能分析技术的智能化系统，能够对办公工作岗位区域、岗亭、值班室、生产线岗位等进行7*24小时不间断实时监测。该系统的出现，有助于提高工作效率，确保工作秩序的正常运行，同时也能有效避免值班人员脱岗、懈怠等现象的发生。该系统的工作原理是通过高清摄像头捕捉实时画面，然后利用AI视频智能分析技术对画面进行实时分析，识别出是否有人脱岗、懈怠或者有其他异常情况发生。当
周三竞足：水晶宫VS南安普敦和阿森纳VS西汉姆联阿东侃球
昨日赛事回顾周二001德甲：斯图加特VS拜仁慕尼黑这场比赛因为看到拜仁的欧赔SP值持续坚挺，并且拜仁的实力过于强大，所以果断选择让负，完美命中。比分看好1-4，还是保守了一点，不过进球数为5球也命中了！周二004荷兰杯：布雷达VS乌德勒支这场比赛一言难尽，欧赔中布雷达的SP值持续走高，各方都看好乌德勒支，上半场乌德勒支也是不负众望打出0-1领跑比分，但下半场直接拉跨，让布雷达3-2翻盘，着实让人惊
颠覆未来：创新代码引领人工智能与量子计算深度融合金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 人工智能量子计算
摘要在信息时代飞速演进的背景下，人工智能与量子计算正以前所未有的速度互相融合，推动着科技边界的不断拓展。本文回顾了经典算法的智慧，展示了前沿深度学习模型的构建，并通过量子电路设计探讨了创新代码的可能性，为探索未来科技变革提供了全新视角。1.引言当前，科技创新正处于高速迭代的关键阶段，传统计算方法与新型技术的交汇处正成为研究热点。人工智能的发展已渗透到各行各业，而量子计算的崛起则为解决复杂计算问题提
【大模型】结构化提示词：让AI高效完成复杂任务的“编程语言” JosieBook AI/大数据/云计算人工智能
文章目录前言：提示词一、不同提示词写作方法对比进阶技巧对比表实战组合策略二、三板斧：精准撰写提示词的黄金法则角色设定：为AI精准定位任务描述：明确行动指南输出要求：规范成果呈现三、魔法棒：零基础也能用的“AI需求翻译机”四、结构化：把提示词写成“可插拔的乐高”五、分治法：把“庞然大物”拆成可并行的小任务前言：提示词在人工智能时代，提示词（Prompt）已成为连接人类意图与AI能力的核心媒介。优质的
智界R7智驾功能和性能评价 TheWanderers 智能驾驶智界
一、智驾行车能力标题硬件配置与系统架构感知硬件：Max/Ultra版搭载1个192线激光雷达、3个毫米波雷达（含1个4D成像雷达）、12个超声波雷达、11个高清摄像头（含前向800万像素双目+鱼眼镜头）。Pro版未配备激光雷达，但保留3个毫米波雷达和10个摄像头。核心算法：HUAWEIADS3.0系统，基于端到端架构，整合感知、决策与控制模块，支持全场景目标识别（如非标准障碍物、夜间行人）。算力支
人工智能视频分析系统人员离岗报警设计方案 liuhu21 人工智能云计算运维
一、方案概述近几年安防监控技术不断的进步，特别是在人工智能推出之后。安防监控系统结合人工智能算法做到了许多以前无法做到的事情。就比如我们今天要说的离岗检测报警监控系统。以前我们只能通过人工值守监控室的方式，通过人的判断去观看现场人员在岗情况。如今有了离岗检测监控系统，系统可以自动监测现场人员是否在岗、离岗时间以及离岗人数等等。这样，大大减少了监控室值班人员的工作量，同时相较人工监管提升了工作效率。
睡岗离岗检测算法 Python 燧机科技SuiJi 人工智能 python 算法深度学习神经网络
睡岗离岗检测算法的核心在于实时监控和智能分析，睡岗离岗检测算法通过安装在关键区域的监控摄像头，系统能够捕捉到员工的活动画面。当系统检测到人体位置长时间未发生变化时，将启动睡姿分类器。该分类器能够识别多种睡姿，如趴在桌子上睡、坐在凳子上后仰睡等。一旦识别为睡姿，系统将立即触发告警机制。这可以通过向管理人员发送警报信号，或通过语音提醒员工的方式实现。睡岗离岗检测算法在多种场景下均有广泛应用。该算法能够
微算法科技技术创新，将量子图像LSQb算法与量子加密技术相结合，构建更加安全的量子信息隐藏和传输系统
随着信息技术的发展，数据的安全性变得尤为重要。在传统计算模式下，即便采用复杂的加密算法，也难以完全抵御日益增长的网络攻击威胁。量子计算技术的出现为信息安全带来了新的解决方案。然而，量子图像处理领域仍面临复杂度高、效率低的问题。微算法科技通过将量子图像LSQb算法与量子加密技术相结合，提出了一种全新的信息隐藏和传输方案，旨在构建更加安全高效的数据保护机制。LSQb算法，即量子图像的最小有效量子比特算
AI新纪元：2025年深度学习技术突破与行业应用全景像素笔记杂谈人工智能深度学习 ai 自动驾驶工业数字化转型未来趋势技术创新
2025年，人工智能技术迎来爆发式增长，大模型、生成式AI和多模态技术持续突破，人形机器人量产元年正式开启，自动驾驶商业化进程加速，工业数字化转型全面铺开。这些进展不仅重塑了技术边界，更在多个行业创造了实际价值，推动AI从实验室走向产业化。本文将深入剖析2025年深度学习与AI领域的核心技术突破、行业应用案例及未来发展趋势，为技术从业者提供全面视角。一、深度学习核心技术突破：大模型、生成式AI与多
5万人流挤地铁如何追踪？陌讯算法实战FPS飙升300%
开篇痛点在智慧城市安防场景中，传统视觉算法常面临“三难困境”：低光照漏检率飙升（夜间误报率超30%）、人群遮挡ID切换混乱（MOTA指标＜50%）、硬件资源吃紧（1080P视频流处理＞200ms）。某省会交警平台曾反馈：“雨雾天车牌识别准确率骤降至65%，追踪目标平均5分钟丢失1次”。技术解析：动态多目标蒸馏网络陌讯视觉算法创新性融合多任务蒸馏架构与时空注意力机制，攻克复杂场景泛化难题。核心公式创
3步实现安防高精度检测：陌讯算法夜间监控落地实战 2501_92474745 目标跟踪人工智能计算机视觉算法目标检测视觉检测
开篇痛点：安防监控系统在实时目标检测中常面临严峻挑战。实测数据显示，传统算法在低光、遮挡或动态场景下，泛化能力不足，导致平均误报率高达15%（数据来源：安防行业报告）。尤其在夜间或拥挤环境下，系统卡顿、漏检频发，不仅降低响应效率，还增加安全隐患。例如，某城市交通监控中心反馈，其开源模型在高密度人流中出现每秒帧率（FPS）骤降至20帧以下，引发报警延迟问题。这些问题根源在于算法鲁棒性和实时性不足，亟
模型移植实战：从PyTorch到ONNX完整指南慕婉0307 神经网络 pytorch 人工智能 python
一、认识ONNXONNX（OpenNeuralNetworkExchange）是一种开放的模型表示格式，由微软和Facebook（现Meta）在2017年共同推出，旨在解决深度学习模型在不同框架之间的互操作性问题。ONNX的主要优势包括：跨框架兼容性：支持主流深度学习框架间的模型转换，包括PyTorch、TensorFlow、MXNet、CNTK等例如，可以将PyTorch训练的ResNet模型导
离岗误报率 20%？陌讯时序算法实测降 90% 2501_92474711 算法计算机视觉目标跟踪机器学习人工智能边缘计算
开篇：工业安防中的"隐形漏洞"在制造业车间、变电站等关键场景，离岗检测是保障生产安全的核心环节。传统监控系统依赖人工巡检，存在85%的漏检率；而普通视觉算法在光照变化、人员遮挡场景下，误报率常高达20%以上[实测数据显示]。某汽车零部件厂曾因离岗检测失效导致设备空转2小时，直接损失超12万元。这种"看得见的监控，防不住的风险"困境，凸显了传统视觉方案在复杂工业场景中的局限性。技术解析：从单帧检测到
雨天障碍物漏检？陌讯多模态算法实测 98% 准确率 2501_92474711 算法目标跟踪人工智能计算机视觉
开篇痛点：自动驾驶视觉系统的“暗礁”在自动驾驶感知层，路面障碍物识别堪称“生命线工程”。传统视觉算法在复杂场景下常面临三重困境：雨天水雾导致特征模糊时漏检率高达25%，逆光环境下小目标（如碎石、井盖）检出率不足60%，而追求高精度又会导致帧率跌破20FPS，难以满足实时性要求[1]。某车企实测数据显示，传统YOLOv8在城郊混合路况中，因障碍物识别延迟引发的决策偏差占测试事故的37%，这些问题成为
三篇AAAI顶级论文带你一键搞懂多模态！
关注gongzhonghao【计算机sci论文精选】！拿捏更多顶会顶刊发文资讯随着人工智能技术的飞速发展，多模态学习逐渐成为研究热点。多模态技术能够整合文本、图像、语音等多种模态的信息，为人工智能的应用带来了更丰富的语义理解和更强大的交互能力。此外，多模态技术在视频和语言任务中的应用也取得了显著进展。这些技术不仅提升了模型的性能，还为人工智能在更多领域的应用提供了新的可能性。今天小图给大家精选3篇
打造智能资讯引擎：基于 Python 的新闻数据爬取与个性化推荐系统实战全流程解析程序员威哥最新爬虫实战项目 python 开发语言
前言：数据时代的信息洪流，如何做到“千人千面”？在信息爆炸的时代，每天都有成千上万条新闻资讯涌现。如何从海量内容中挖掘出用户感兴趣的资讯？这不仅仅是爬虫技术的问题，更是数据建模与智能推荐算法的落地挑战。本篇文章将带你从零出发，构建一个具有实际应用价值的“个性化新闻阅读推荐系统”，从数据采集（爬虫）、文本处理（NLP）、兴趣建模（TF-IDF/协同过滤/Embedding）到推荐展示，覆盖整个推荐系
题解 | #使用join查询找出没有分类的电影id以及名称# 愤怒的小青春 java
58同城java后端一面凉经主流的哈希算法有哪几种？帮闺蜜们找靠谱男票hc多多光彩积云是什么企业，查不到有用信息太抽象了！培训班装公司招聘阿里巴巴前端暑期实习——无语八面挂怎么写自我介绍|自我介绍保姆级教学灵犀互娱客户端一面面经(求过啊)24找运维实习，这简历可行吗拓竹科技测试开发面经（25届暑期实习）分享一波攒了整个秋招的NLP算法岗面经腾讯广告暑期实习面试1、JVM垃圾回收机制2、syncho
【算法题解】部分洛谷题解(下) 日月星辰cmc 算法分析与设计算法
前言本篇为我做过的洛谷题的部分题解，大多是我认为比较具有代表性的或者比较有意思的题目，包含我自己的思考过程和想法。[NOIP2001提高组]一元三次方程求解题目描述有形如：ax3+bx2+cx+d=0ax^3+bx^2+cx+d=0ax3+bx2+cx+d=0这样的一个一元三次方程。给出该方程中各项的系数（a,b,c,da,b,c,da,b,c,d均为实数），并约定该方程存在三个不同实根（根的范围
LeetCode - 3274. Check if Two Chessboard Squares Have the Same Color 阿蒙Armon LeetCode leetcode 算法职场和发展
LeetCode-3274.CheckifTwoChessboardSquaresHavetheSameColor在LeetCode的算法题库中，有许多有趣的题目将实际场景与编程逻辑相结合，LeetCode3274题CheckifTwoChessboardSquaresHavetheSameColor便是其中之一。这道题以国际象棋棋盘为背景，要求我们判断给定的两个方格颜色是否相同。通过解决这道题，
算法竞赛备考冲刺必刷题（C++） | 洛谷 P1024 一元三次方程求解热爱编程的通信人 c++算法开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：
监控漏检频发？陌讯YOLOv7实时优化方案召回率提升25% 2501_92489016 目标跟踪人工智能计算机视觉算法目标检测视觉检测智慧城市
一、开篇痛点在安防监控领域，传统目标检测模型面临三重困境：实时性差：1080P视频流处理普遍低于20FPS（VGG16仅15FPS）漏检率高：密集场景下小目标召回率常低于60%（COCO-val实测数据）部署成本高：ResNet-101需8GB显存，难以边缘化部署某智慧园区项目显示：夜间误报率高达34%，运维成本激增300%二、技术解析：陌讯SlimYOLO架构创新针对上述痛点，陌讯视觉算法提出三
TensorFlow GPU 2.10.1 for Python 3.9快速安装指南疑样
本文还有配套的精品资源，点击获取简介：TensorFlowGPU2.10.1是专为Windowsx64和Python3.9设计的TensorFlow版本，它集成了GPU支持以加快深度学习模型的训练。本指南提供了该版本的概述、安装步骤及注意事项，旨在帮助开发者利用其性能优势提升机器学习项目的效率。1.TensorFlowGPU介绍1.1TensorFlow的起源与功能TensorFlow是由Goog
进阶向:基于Python的智能客服系统设计与实现
智能客服系统开发指南系统概述智能客服系统是人工智能领域的重要应用，它通过自然语言处理(NLP)和机器学习技术自动化处理用户查询，显著提升客户服务效率和响应速度。基于Python的实现方案因其丰富的生态系统（如NLTK、spaCy、Transformers等库）、跨平台兼容性以及易于集成的特点，成为开发智能客服系统的首选。系统架构系统核心包括两个主要功能模块：1.API集成模块负责连接各类外部服务，
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s