秃头研究生

跨模态检索

本文是我阅读跨模态检索综述后结合自己的学习总结的文章，阅读的综述如下：

【1】刘颖，郭莹莹，房杰，范九伦，郝羽，刘继明．深度学习跨模态图文检索研究综述[J/OL]．计算机科学与探索.

【2】Yin Q Y，Huang Y，Zhang J G，Wu S and Wang L． 2021． Survey on deep learning based cross-modal retrieval． Journal of Image and Graphics，26( 06) : 1368-1388( 尹奇跃，黄岩，张俊格，吴书，王亮． 2021．基于深度学习的跨模态检索综述．中国图象图形学报，26( 06) : 13681388) ［DOI: 10. 11834 / jig. 200862］

一、定义

二、分类以及相关文献

1、基于实值表示学习

基于特征表示方法

基于图文匹配的方法

2、基于二进制表示学习

三、相关概念

四、相关网络结构

一、定义

通过一种模态样本来检索具有近似语义的另一种模态样本。
跨模态学习是多模态学习的分支。
跨模态检索训练过程中所有模态的数据都存在，但在测试过程中只有一种模态可用。
挑战：如何度量不同模态数据之间的内容相似性，也称之为异质鸿沟问题。

二、分类以及相关文献

1、基于实值表示学习

提升跨模态语义相关性，进而提高跨模态检索准确度。

基于特征表示方法

特征提取是影响跨模态图文检索准确度的重要因素。

基于特征表示的方法一般通过两种方式来获取更好的跨模态输入特征，第一种针对不同应用场景，采用特殊的网络结构或提取特定的特征来获得图像文本表示，第二种方法则对经典的 CNN 模型进行微调改进。该类方法尤其对大规模、多标签数据集有良好的适应性，可以为未来跨模态检索提供更有效的设计思路。

【1】WANG J, HE Y, KANG C, et al. Image-text cross-modal retrieval via modality-specific feature learning[C]//Proceedings of the 5th ACM on International Conference on Multimedia Retrieval, Shanghai, China, June 23-26,2015. New York, United States: Association for Computing Machinery, 2015: 347-354.

提出了模态针对型深层结构模型（MSDS），该模型使用CNN和WCNN分别提取图像和文本表示，通过使用标准反向传播技术来更新CNN与WCNN的参数。WCNN可以处理不同长度的序列并获取具有相同维度的结果特征向量，能够有效提取文本特征。

【2】HE Y, XIANG S, KANG C, et al. Cross-modal retrieval via deep and bidirectional representation learning[J]. IEEE Transactions on Multimedia, 2016, 18(7): 1363-13 77.

在文献【1】的基础上，提出了基于深度双向表示学习模型（DBRLM），利用双向结构探索匹配与不匹配图像文本对的关系，增加了匹配对的相似性。

【3】LI Z, LU W, BAO E, et al. Learning a semantic space by deep network for cross-media retrieval[C]//The 21st International Conference on Distributed Multimedia Systems. Hyatt Regency, Vancouver, Canada, August 31September 2, 2015. Illinois, United States: Knowledge Systems Institute, 2015.199-203.

针对单标签或多标签样本跨模态图文检索问题，为了更好地弥合图像和相应语义概念间的差距，使用了深度卷积激活特征描述子（DeCAF），将CNN实现产生的1000维度预测得分座位ImageNet的输入视觉特征。实验表明，DeCAF 可以使学习到的视觉特征具有足够的表征能力，特征提取效果良好。

【4】WEI Y, ZHAO Y, LU C, et al. Cross-modal retrieval with CNN visual features: a new baseline[J]. IEEE Transactions on Cybernetics, 2017, 47(2): 449-460.

针对文献【3】同样的问题，对预训练的 CNN 模型进行微调，提出了深度语义匹配方法 (deep Semantic Matching, deep-SM)，对不同的目标数据集采用不同的损失函数，使用微调的 CNN 和训练的全连接神经网络将图像和文本投影到高抽象级别的同构语义空间中。实验表明，微调的方法可以提高其对目标数据集的适应性，有效降低图像与相应语义之间的鸿沟。

【5】FAN M, WANG W, DONG P, et al. Cross-media retrieval by learning rich semantic embeddings of multimedia[C]// Proceedings of the 25th ACM International Conference on Multimedia. Mountain View California USA, October 23-27, 2017. New York, United States: Association for Computing Machinery, 2017:1698-1706.

利用文献【4】的同一思路，通过微调深度 CNN 模型对图像生成视觉嵌入，有效避免了部分语义信息的丢失。

基于图文匹配的方法

基于图文匹配的方法更关注于不同模态间的结构关联，此类方法通过研究图像和文本模态间的语义对应关系来增强模态间特征表示的一致性。

目前主流的基于图文匹配的方法按照模态间语义结构关联的不同可分为三类：图像-文本对齐的方法、跨模态重构的方法和图文联合嵌入的方法。

1、图像-文本对齐的方法

图像-文本对齐的方法一般通过学习同一实例不同模态特征之间的关系来推断句子片段与图像区域之间的潜在对齐，进而实现图文匹配。

图像-文本对齐的方法更加关注图像和文本的局部区域片段信息。此类方法的优势在于，通过注意力机制等方式，能够获得更好的细粒度语义区分能力，有效解决多语义、图像问答、图描述和细粒度交互等问题，进而提高了图文匹配的准确度，具有良好的检索性能。然而，此类方法由于更多聚焦于局部信息，对数据集的规模和质量以及模型的精细度会有更高的要求，且大多并不适用于全局信息的匹配。如何在保证局部片段信息良好对齐的前提下实现图文整体的准确匹配仍是目前需要研究的方向。

【1】KARPATHY A, FEI-FEI L. Deep visual-semantic alignments for generating image descriptions[C]//In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, Massachusetts, June 8-10, 2015. Piscataway, N.J: IEEE Press, 2015: 3128-3137.

将句子视为丰富的标签空间，使连续的单词片段对应于图像中某个特定但未知的位置。该模型能够实现对小区域或相对罕见对象的视觉语义对应关系的解释，在图像-句子排序实验中有良好的性能表现。

【2】MALINOWSKI M, ROHRBACH M, et al. Ask your neurons: a neural-based approach to answering questions about images[C]//In Proceedings of the IEEE International Conference on Computer Vision. Santiago, Chile, December 13-16, 2015. Piscataway, N.J: IEEE Press, 2015:1-9.

将问题意图推理、视觉场景理解与单词序列预测任务结合起来，提出了Neural-Image-QA 模型，其中问题与视觉表征一起被输入 LSTM 进行联合训练，其语言输出取决于视觉和自然语言输入，通过单词和像素的端到端训练，获取了良好的匹配结果，实验表明该方法在“单字”变体情况下能实现最佳性能。

【3】GAO D, JIN L, CHEN B, et al. FashionBERT: text and image matching with adaptive loss for cross-modal retrieval[C]//In Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval. Virtual Event China, July 25-30, 2020. New York, United States: Association for Computing Machinery, 2020: 2251-2260.

针对服装领域提出了 FashionBERT 模型，相比于感兴趣区域(Region of Interest, RoI)模型，时尚文本倾向于描述更精细的信息。因此，FashionBERT 模型由 BERT(Bidirectional Encoder Representations from Transformers)模型引申得到。BERT 是一种双向注意力语言模型，作为 Transformer在自然语言处理任务的变体之一，其主要作用是对单模态文本数据进行编码。FashionBERT 在提取图像表示时将每个图像分割成相同像素的补丁，作为 BERT 模型的序列输入，在匹配时将文本标记和图像补丁序列进行连接。实验表明该方法可以一定程度上掩盖图像中不相关的信息，减小了检测到无用和重复区域的可能性。

【4】LEE K H, CHEN X, HUA G, et al. Stacked cross attention for image-text matching[C]//Proceedings of the European Conference on Computer Vision (ECCV). Munich, Germany, September 8-14, 2018. Berlin: Springer, 2018: 201-216.

由于注意力机制模型在图像-文本对齐方法中的良好表现，此文献提出了堆叠交叉注意力模型(Stacked Cross Attention Network, SCAN)。该模型对图像 RoI 和文本标记执行跨模态匹配，利用注意力机制将每个片段与来自另一模态的所有片段对齐，以区分单词及图像区域的被关注度，有助于捕捉视觉和语言间的细粒度相互作用，增强匹配能力。该方法可以灵活地发现细粒度对应关系，在多个基准数据集上都获得了最佳性能。

【5】ZHANG Q, LEI Z, ZHANG Z, et al. Context-aware attention network for image-text retrieval[C]//In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, WA, 2020 Jun 16-20. Piscataway, N.J: IEEE Press, 2020: 3536-3545.

然而，基于注意力机制的方法大多忽略了全局上下文中出现的多种语义情况。基于此，此文献提出了语境感知注意力网络(Context-Aware Attention Network, CAAN)，根据全局上下文有选择地关注信息量最大的局部片段，综合了模态间和模态内注意过程，同时执行图像辅助的文本注意和文本辅助的视觉注意，很好地聚合了上下文信息，捕捉了潜在的模态内相关性，实验表明自适应检索过程中考虑特定上下文能够帮助模型获得更好的检索结果。

【6】CHEN H, DING G, LIU X, et al. IMRAM: Iterative matching with recurrent attention memory for cross-modal image-text retrieval[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, WA, 2020 Jun 16-20. Piscataway, N.J: IEEE Press, 2020: 12655-12663.

提出了基于循环注意记忆的迭代匹配 (Iterative Matching with Recurrent Attention Memory, IMRAM) 方法，该方法通过迭代匹配方案逐步更新跨模态注意力核心，挖掘图文间细粒度的对应关系。

2、跨模态重构的方法

与图像-文本对齐的方法关注局部信息的方式不同，跨模态重构的方法更关注全局信息，此类方法通常利用一种模态信息来重构对应模态，同时保留重建信息，能够增强跨模态特征一致性及语义区分能力。

跨模态重构的方法利用深度自编码器等方式，有效缩小了模态间的异构性差异，增强了语义辨别能力。此类方法对数据集的训练及其规模要求并不高，注释成本低，更适用于中小型数据集，具有可扩展性，多用于与图像字幕生成等任务。然而，此类方法在模型训练过程中容易忽略细节信息，对目标数据集成对相关性的表现度不足。因此，如何在缩小模态间统计差距的前提下，共同学习局部文本与图像信息的对齐，并据此来动态的调节模态间的生成过程，是目前此类方法所面临的挑战。

【1】NGIAM J, KHOSLA A, KIM M, et al. Multimodal deep learning[C]//Proceedings of the 28th International Conference on Machine Learning (ICML). Bellevue, Washington, USA, July 2, 2011. International Machine Learning Society, 2011: 689-696.

提出不同模态数据共享权重的双模深度自编码器模型，在仅给定视频数据的情况下进行跨模态重建，从而发现跨模态的相关性。

【2】KIROS R, SALAKHUTDINOV R, ZEMEL R S. Unifying visual-semantic embeddings with multimodal neural language models[J]. arXiv preprint arXiv: 1411.2539, 2014.

在【1】的基础上提出了一种图像字幕生成的方法，引入了结构-内容神经语言（SC-NLM) 模型，SC-NLM 通过编码器学习图像句子联合嵌入，并根据编码器产生的分布式表示，将句子的结构与内容分离，再通过解码器生成新的字幕。该模型有效地统一了联合图像-文本嵌入模型和多模态神经语言模型，实现了对图和字幕的排序及新字幕的生成。

【3】XU X, SONG J, LU H, et al. Modal-adversarial semantic learning network for extendable cross-modal retrieval[C] //Proceedings of the 2018 ACM on International Conference on Multimedia Retrieval. Yokohama Japan, June 11 -14, 2018. New York, United States: Association for Computing Machinery, 2018: 46-54.

针对源集和目标集实例在不可扩展跨模态检索任务中通常被假定共享相同范围的类，当二者实例具有不相交的类时，难以取得理想的检索结果的这个问题，提出了模态对抗语义学习网络(Modal-adversarial Semantic Learning Network, MASLN)，其中，跨模态重构子网络通过条件自编码器相互重建各模态数据，实现从源集到目标集的知识转移，使跨模态分布差异最小化；模态对抗语义学习子网络通过对抗性学习机制产生语义表征，使学习到的公共表示对语义有区别而对模态无区别。实验表明，该方法在可扩展和不可扩展的检索任务中结果都优于其他方法，有效缩小了不同模态之间的异质性差距。

【4】CORNIA M, BARALDI L, TAVAKOLI H R, et al. A unified cycle-consistent neural model for text and image retrieval[J]. Multimedia Tools and Applications, 2020, 79(35): 25697-25721.

为了克服对嵌入空间的需求，此文献提出了循环一致图文检索网络(A Cycle-consistent Text and Image Retrieval network, CyTIR-Net)，将图文检索问题表述为文本和视觉转换的问题。该方法利用文本项和视觉特征的相互翻译建立重构约束。实验表明该方法对中小型数据集表现更好，良好的展示了循环一致性约束的正则化能力和网络的泛化能力，以及增强模型在跨模态检索中的场景辨别能力。

3、图文联合嵌入的方法

相比于图像-文本对齐的方法和跨模态重构的方法，图文联合嵌入的方法一般结合了全局和局部信息作为语义特征的嵌入，因此能够学习到更好的特征判别性。此类方法一般通过图像和文本模态数据的联合训练及语义特征的嵌入来学习图像文本的相关性，进而实现图文匹配。

图文联合嵌入的方法更关注对高级语义信息的探索。此类方法一般利用生成对抗等思想，通过最小化判别损失函数和模态不变性损失等方式挖掘丰富的语义相关性，能够很大程度上消除跨模态异构差异，减小“语义鸿沟”及“认知鸿沟”，有效解决多义实例、模态缺失等问题，并能良好地捕获成对信息相关性，提高图文匹配的准确度和可扩展性，具有很好的检索性能。

【1】CASTREJON L, AYTAR Y, VONDRICK C, et al. Learning aligned cross-modal representations from weakly aligned data[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, June 27-30, 2016. Piscataway, N.J: IEEE Press, 2016: 2940-2949.

针对模态特征的不一致性导致的跨模态迁移困难的问题，此文献使用弱对齐的数据来学习具有强对齐的跨模态表示，在共享层使用多层感知器将文本信息映射到与视觉模态相同维度的表示空间中。该模型同时用到了微调和统计正则化的方法，可以在训练数据没有明确对齐的情况下跨模态检测相同的概念，具有良好的检索性能。

【2】ZHEN L, HU P, WANG X, et al. Deep supervised cross-modal retrieval[C]//In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA, June 15-20, 2019. Piscataway, N.J: IEEE Press, 2019: 10394-10403.

为了寻找公共表示空间来直接比较不同模态的样本，此文献提出了深度监督跨模态检索 (Deep Supervised Cross-modal Retrieval, DSCMR)方法，通过最小化样本在标签空间和公共表示空间中的判别损失来监督模型学习判别特征，以保持不同类别语义样本间的区分度，并使用权重共享策略来消除多媒体数据在公共表示空间中的跨模态差异。相比以往的方法，DSCMR 的学习策略可充分利用成对标签信息和分类信息，有效学习了异构数据的公共表示。

【3】WANG C, YANG H, MEINEL C. Deep semantic mapping for cross-modal retrieval[C]//In 2015 IEEE 27th International Conference on Tools with Artificial Intelligence, Vietri sul Mare, Italy, 9-11 Nov. 2015. Piscataway,N.J: IEEE, 2015:234-241.

文献【1】【2】已考虑到不同模态到公共空间的特征映射，但这种映射函数仅关注于学习模态内或模态间的区分特征，而未能在跨模态学习方法中充分利用语义信息。因此，此文献提出了基于正则化跨模态语义映射的深度神经网络(Regularized Deep Neural Network, RE-DNN)，通过施加模态内正则化，进而获得一个联合模型来捕捉不同输入之间的高度非线性关系。该模型在语义层同时捕获模态内和模态间的关系，且所学习的深层架构能够通过停用部分网络来解决模态缺失问题，具有良好的处理不成对数据的能力。该算法仅需要很少的模型训练先验知识，且对大规模数据集可扩展。

【4】FAN M, WANG W, DONG P, et al. Cross-media retrieval by learning rich semantic embeddings of multimedia[C]// Proceedings of the 25th ACM International Conference on Multimedia. Mountain View California USA, October 23-27, 2017. New York, United States: Association for Computing Machinery, 2017:1698-1706.

为了减小低级视觉特征和高级用户概念之间的“认知鸿沟”，此文献提出了多感官融合网络(Multi-Sensory Fusion Network，MSFN)联合模型，将同维 CNN 视觉嵌入和 LSTM 描述嵌入看作人类的两种感官，从人类感知角度将视觉和描述性感官相结合。在测试集中的所有图像和文本映射到公共语义空间后，跨模态检索被转化为用传统相似性度量评估的同构检索问题，该方法通过最小化类别损失函数挖掘了跨模态丰富的语义相关性。

【5】SONG Y, SOLEYMANI M. Polysemous visual-semantic embedding for cross-modal retrieval[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Long Beach, USA, June 15-20, 2019. Piscataway, N.J: IEEE Press, 2019: 1979-1988.

图文联合嵌入方法通常会学习内嵌式嵌入函数(Injective Embedding Functions)，对于具有歧义的实例，内嵌函数寻找单个点会严重限制其在现实世界中的应用。此文献提出的模型能够很好地解决这个问题。

针对内嵌函数学习某一模态只能表示对应模态的部分信息，进而导致被忽略信息在映射点丢失的问题，此文献提出了多义视觉语义嵌入方法(Polysemous Visual-Semantic Embedding, PVSE)，在多实例学习框架中对图像和文本 PIE 网络进行联合优化，且该方法通过最大平均差异 (Maximum Mean Discrepancy, MMD)来最小化两个嵌入分布之间的差异。实验表明了残差学习和多实例学习对于实例语义模糊数据检索的重要性。

【6】GU J, CAI J, JOTY S, et al. Look, imagine and match: improving textual-visual cross-modal retrieval with generative models[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA, June 19-21, 2018. Piscataway, N.J: IEEE Press, 2018: 7181-7189.

为解决多义实例问题，此文献提出了生成式跨模态学习网络（Generative Cross-modal Feature Learning, GXN），将基础表示和抽象表示相结合。除了全局语义层的跨模态特征嵌入外，GXN 还引入了图像到文本和文本到图像两种生成模型的局部跨模态特征嵌入，通过生成过程来学习全局抽象特征及局部基础特征。该方法能够有效处理多义实例问题，并能够检索具有局部相似性的图像或具有词级相似性的句子。

【7】WANG B, YANG Y, XU X, et al. Adversarial cross-modal retrieval[C]//In Proceedings of the 25th ACM international conference on Multimedia. Mountain View California USA, October 23-27, 2017. New York, United States: Association for Computing Machinery, 2017: 154-162.

通过引入 GAN 网络的对抗思想，此文献提出了对抗式跨模态检索方法(Adversarial Cross-Modal Retrieval, ACMR)，该模型在对抗机制下执行语义学习，其中，特征投影器从公共子空间中的不同模态生成模态不变表示，模态分类器根据生成的表示来区分不同的模态，并以这种方式引导特征投影器的学习。通过对特征投影器施加三元组约束，将具有相同语义标签的跨模态表示差异最小化，同时最大化具有不同语义的图像文本之间的距离。该方法在跨模态数据被投影到公共子空间中时，数据的潜在语义结构被更好地保留。

2、基于二进制表示学习

提升跨模态图文检索效率，减少存储空间。

实值表示学习方法具有良好的语义区分能力，能够很大程度上减小“语义鸿沟”及“认知鸿沟”，因此其检索准确性一般很好，但对于一些对检索效率要求高的任务场景，实值表示学习并不适用。相比于实值表示学习方法，二进制表示学习方法在检索效率上具有优势，其在保证准确率波动幅度可控的前提下，可显著提升检索速度。

二进制表示学习方法将跨模态数据投影到一个公共汉明空间，目的在于给相似的跨模态内容赋予相似的哈希码。

二进制表示学习方法更侧重解决模态特征异构引起的模态差异问题，运用端到端、生成对抗等思想，致力于最大化特征分布的一致性。此类方法还有效解决了过拟合等问题。然而由于此类方法在二值化过程中会导致信息的丢失以及原有结构被破坏，因此，考虑模态内数据结构和模态间结构匹配的关联，优化计算等是目前需要研究的方向。

【1】XIA R, PAN Y, LAI H, et al. Supervised hashing for image retrieval via image representation learning[C]// Proceedings of the Twenty-Eighth AAAI Conference on Artificial Intelligence. Québec, Canada, July 27-31, 2014. Cambridge, MA: The MIT Press, 2014: 2156-2162.

此文献提出了卷积神经网络哈希(Convolutional Neural Network Hashing, CNNH)模型，使基于 CNN 的深度哈希算法开始受到关注。

【2】LIN K, YANG H F, HSIAO J H, et al. Deep learning of binary hash codes for fast image retrieval[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. Boston, MA, USA, June 8-10, 2015. Piscataway, N.J: IEEE Press, 2015: IEEE, 2015: 27-35.

此文献提出二进制哈希码的深度学习(Deep Learning of Binary Hash Codes, DLBHC)方法，利用深度 CNN 的增量学习特性，以点的方式进行编码和图像表示，同时学习特定图像表征和类似哈希的函数，实现了快速图像检索并使其适用于大规模数据集。

【3】ZHAO F, HUANG Y, WANG L, et al. Deep semantic ranking based hashing for multi-label image retrieval[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA, June 8-10, 2015. Piscataway, N.J: IEEE Press, 2015: IEEE, 2015: 1556-1564.

为了进一步探索多标签关联图像的复杂多级语义结构，此文献提出深度语义哈希排序(Deep Semantic Ranking Hashing, DSRH)方法，利用深度 CNN 与列表排序监督哈希，共同学习特征表示和从它们到哈希码的映射，避免了传统方法特征语义表示能力不足的限制。

【4】ZHANG D, WANG F, SI L. Composite hashing with multiple information sources[C]//Proceeding of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval. Beijing, China, July 24-28, 2011. New York, United States: Association for Computing Machinery, 2011: 225-234.

为确保哈希码和不同信息源所设计哈希函数的一致性，此文献提出了多源信息复合哈希算法 (Composite hashing with multiple information sources, CHMIS)，通过调整权重的信息集成方法(CHMIS with Adjusted Weights，CHMIS-AW)调整每个单独源的权重，将来自不同源的信息集成到二进制哈希码中，进而最大化编码性能，保留了训练示例之间的语义相似性。

【5】CAO Y, LONG M, WANG J, et al. Deep visual-semantic hashing for cross-modal retrieval[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Francisco California, USA, August 13-17, 2016. New York, United States: Association for Computing Machinery, 2016: 1445-1454.

针对不同模态的异构性，此文献提出了深度视觉语义哈希 (Deep Visual Semantic Hashing, DVSH)模型，该模型是首个跨模态哈希的端到端学习方法，设计了学习图文联合嵌入的视觉语义融合网络，以桥接不同模态及两个模态特定的哈希网络，其生成的紧凑哈希码能够捕捉视觉数据和自然语言之间的内在对应关系，进而获取判别性特征，且该模型有效克服了传统融合网络对双峰对象联合嵌入的需求，更适用于高精度的应用程序。

【6】JIANG Q Y, LI W J. Deep cross-modal hashing[C]// Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. Honolulu, USA, July 21-26, 2017. Piscataway, N.J: IEEE Computer Society, 2017: 3270-3278.

针对跨模态哈希(Cross-Modal Hashing, CMH)手工制作特性与哈希码学习不能良好兼容的问题，此文献介绍了跨模态深度哈希算法 (Deep Cross-Modal Hashing, DCMH)，将特征学习和哈希码学习集成到同一端到端学习框架，通过同时对不同类型样本对施加约束使相似样本间相互靠近，从而保证模态间的对齐，且 DCMH 直接学习离散的哈希码，避免了检索准确性的降低，提高了检索性能。

【7】LI C, DENG C, LI N, et al. Self-supervised adversarial hashing networks for cross-modal retrieval[C]//In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA, Jun 19-21, 2018. Piscataway, N.J: IEEE Press, 2018: 42424251.

为了弥补模态差异以进一步提高检索准确度，此文献提出了自我监督的对抗式哈希方法 (Self-Supervised Adversarial Hashing，SSAH)，将对抗式学习以自监督方式结合到跨模态哈希中，由自监督语义生成网络 (LabNet) 和图像文本对抗网络 (ImgNet 和 TexNet)组成。其中，自监督语义生成网络用来监督两个模态的语义空间以及对抗性学习。两个对抗网络用来共同学习不同模态的高维特征及其对应的哈希码。实验表明，SSAH 比 DCMH 减少了 10 倍的训练时间，且 SSAH 学习了更充分的监督信息，可以捕获不同模态间更精确的相关性。

【8】WU L, WANG Y, SHAO L. Cycle-consistent deep generative hashing for cross-modal retrieval[J]. IEEE Transactions on Image Processing, 2018, (99): 1-1.

针对跨模态哈希在有限数量标记样本上容易过拟合以及高维输入转换成二进制代码导致的信息丢失问题，此文献提出了循环一致的深层生成哈希算法(Cycle-Consistent Deep Generative Hashing, CYC-DGH)，通过循环一致的对抗学习在没有成对对应的情况下学习耦合的生成哈希函数。该算法通过深度生成模型从哈希码中重新生成输入，使学习到的哈希码最大限度地关联每个输入-输出对应关系，且哈希嵌入过程中的信息损失被最小化，有效压缩了输入数据，同时能够最大限度地保留自身信息及不同模态样本间的关系，对减小哈希函数间的模态差异有良好表现。

三、相关概念

跨模态重构

在给定跨模态数据的情况下联结输入特征表示，然后相互重构各模态数据且保留重构信息，最后比较重构信息与原始信息相似性的过程。

细粒度数据

指信息非常详细具体的数据。数据粒度指数据的详细程度，粒度越小，数据的信息越具体，越容易在机器学习中把握数据的规律与本质。

无监督学习

指事先没有任何训练数据样本而需要直接对数据建模的学习方法。无监督学习仅使用共现信息来学习跨模态数据的公共表示。共现信息指在多模态文档中所共存的不同形式的数据具有相同的语义。

监督学习

指通过有标记的训练数据来推断或建立一个最优模型的学习方法。监督学习利用标签信息来学习公共表示，强制不同类别样本的学习表示距离尽可能远，而相同类别样本的学习表示尽可能接近。

端到端学习

也称端到端训练，指在学习过程中缩减人工预处理和后续处理，使模型从原始输入直接到最终输出。其训练数据为“输入-输出”对的形式，无需提供其它额外信息。端到端学习为模型提供了更多根据数据自动调节的空间，增加了模型的整体契合度。

四、相关网络结构

自编码器模型（AE）

https://blog.csdn.net/qq_53144843/article/details/122958467

受限玻尔兹曼机模型（RBM）

模拟退火：解决算法容易陷入局部最优的问题。详细介绍参考下面的博客：

https://blog.csdn.net/weixin_42398658/article/details/84031235

Hopfield神经网络：能模拟联想记忆能力，按动力学方式运行。详细介绍参考下面的博客：

https://blog.csdn.net/weixin_42398658/article/details/83991773

玻尔兹曼机（Boltzmann机）：模拟退火算法和Hopfield神经网络结合在一起就是玻尔兹曼机。

受限玻尔兹曼机：RBM是Boltzmann机器的特殊类别，它们在可见单元和隐藏单元之间的连接方面受到限制。详细介绍参考下面的博客：

https://blog.csdn.net/weixin_42398658/article/details/84279293

深度信念网络（DBN）

协同过滤：一般是在海量的用户中发掘出一小部分和你品味比较类似的，在协同过滤中，这些用户成为邻居，然后根据他们喜欢的其他东西组织成一个排序的目录作为推荐给你。

生成式模型，判别式模型：

DBN：简单理解就是由受限玻尔兹曼机搭建起来的网络，详细介绍看下面的链接内容。

http://t.zoukankan.com/jiangkejie-p-11179680.html

https://blog.csdn.net/jiguquan3839/article/details/82993896

注意力机制（attention）

注意力机制：核心是关注重点的信息，忽略掉不重点的信息。

https://www.zhihu.com/question/68482809/answer/264632289

https://www.bilibili.com/video/BV1nL4y1j7hA?spm_id_from=333.337.search-card.all.click

生成对抗网络（GAN）

Generative：生成式模型

Adversarial：采取对抗的策略

Networks：网络（不一定是深度学习）

https://blog.csdn.net/m0_53155317/article/details/122802298

CNN，BRNN，WCNN，RNN，RCNN

CNN：卷积神经网络

https://zhuanlan.zhihu.com/p/47184529

RCNN:区域卷积网络

https://blog.csdn.net/xyfengbo/article/details/70227173

RNN:递归神经网络

https://blog.csdn.net/qq_32241189/article/details/80461635

BRNN：双向递归神经网络

https://blog.csdn.net/hxxjxw/article/details/108676788

你可能感兴趣的:(跨模态检索,计算机视觉,深度学习,神经网络,人工智能)

Vue3 业务落地全景：脚手架、权限、国际化、微前端、跨端与低代码 50 条实战心法代码老y 前端低代码
写给架构师、TL、全栈工程师的“踩坑地图”（零）阅读指南•不贴源码，用伪代码+流程图+决策树。•50条心法分6大篇章，可跳跃阅读。（一）脚手架与工程化8条心法1：用create-vue而不是vue-cli开启新项目，Vite冷启动300msvsWebpack30s。心法2：eslint-config-prettier+@vue/eslint-config-typescript一键集成，团队争议减少
OpenCV直线段检测算法类cv::line_descriptor::LSDDetector 村北头的码农 OpenCV opencv 算法人工智能
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述该类用于实现LSD(LineSegmentDetector)直线段检测算法。LSD是一种快速、准确的直线检测方法，能够在不依赖边缘检测的前提下直接从图像中提取出直线段。它是OpenCV的line_descriptor模块的一部分，常用于计算机视觉任务如图像拼接、S
LabVIEW VI Server导出功能
LabVIEW中借助VIServer实现导出VI的配置、执行与交互流程，覆盖服务端配置（含权限管理、设置还原）、客户端调用等核心环节，验证跨VI交互与远程调用逻辑，为分布式应用提供基础实现方案。功能说明1.服务端配置（supportExportingVIs-Server.vi关联逻辑）功能：开放本地VIServer服务（基于TCP/IP端口3363），将正弦波（Helper-Export-Sine
OpenCV-光流估计
文章目录一、光流估计介绍1.光流估计的基本概念2.光流估计的原理3.光流估计的前提4.OpenCV中的光流估计算法5.参数设置与调整二、代码实现三、注意事项OpenCV中的光流估计是计算机视觉领域中的一项重要技术，它通过分析图像序列中像素点的运动，来估计物体的运动信息。以下是对OpenCV中光流估计的详细解析：一、光流估计介绍1.光流估计的基本概念光流是空间运动物体在观测成像平面上的像素运动的“瞬
解决跨域的几种方法大佩梨开发前端
解决跨域的方法主要有以下几种：1.CORS（跨域资源共享）CORS是一种W3C规范，它定义了一种浏览器和服务器交互的方式来确定是否允许跨源请求。服务器通过设置响应头Access-Control-Allow-Origin来允许或拒绝跨域请求。例如，header(‘Access-Control-Allow-Origin:*’);允许所有来源的访问。CORS支持POST、GET等多种请求方式，相较于JS
喜爱购有什么新消息？如何打造百城万店氧惠好物
自2020年10月起，西安喜爱购商贸商贸股份有限公司全力打造的“百城万店”新零售商业模式应运而生。在探索新零售的道路上,通过互联网、大数据、云计算、人工智能等新技术,重构“人、货、场”商业元素,秉持“舍利差赚服务”经营理念,在全国至少一百个城市的“一千户以上的中高端社区”,打造至少两万家“一区一店”社区生活超市。大家好！我是氧惠最大团队&联合创始人氧惠达人导师。氧惠佣金更高，模式更好，终端用户不流
AI 驱动自动化运维平台架构与实现大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 算法机器学习人工智能决策树大数据
摘要：随着云计算、容器化和大规模分布式系统的普及，传统人工运维方法已难以满足现代IT环境中海量指标、日志和拓扑关系的实时分析与故障响应需求。AI驱动的自动化运维（AIOps）平台通过融合机器学习、深度学习、图分析以及强化学习等多学科技术，实现对海量运维数据的智能感知、预测、诊断和自动化修复。本文深入探讨AI驱动自动化运维平台的整体架构设计与核心技术实现，涵盖数据采集与预处理、AI引擎设计、自动化执
5.14 星期一晴小呆呆的烦恼
晚上回家已经很晚，闺女认真的写着作业，自己收拾衣物，自己整理好一切，又对妈妈说:先别忙乎了，还是先吃饭吧！上班累一天了，妈妈太辛苦了，我眼泪汪汪的看着闺女，感动坏了，还是闺女还心疼妈妈。。。夜深人静的时候，仰望天空对自己说声对不起，想想这些年来，都不知道自己是怎么过来的。想起那些心酸的事，叫人心寒加油，停止哭泣的心，忍住痛，没有什么是跨不过去的，熬过去就好了！
冒充顺华文庭内部群胜天半子毛顺华就是骗子，中粮仓智慧农业虚拟盘及早远离切勿被套！昌龙律法
人到老年，就怕手头没钱。一些不法分子利用老年人信息闭塞、认知较弱等特点瞄准了老年人的“钱袋子”花样百出实施诈骗老年人损失财产的同时还饱受精神打击不能忍！这些套路，应该让爸妈知道智慧农业，低碳环保双探交易市场，数字体育，人工智能十选五就是骗局我们曾曝光了无数种金融骗局，不知道能有多少人看到，能帮一个是一个，再次曝光一种炒股诱导做慈善参加数字经济的骗局，相信作为股民，大家都会经常接到一下分析个股，或者
人工智能真的能编程吗？研究勾勒出自主软件工程的障碍 WSSWWWSSW 人工智能软件工程
想象一下这样一个未来：人工智能悄然承担起软件开发的繁重工作：重构杂乱无章的代码、迁移遗留系统以及排查竞态条件，这样人类工程师就可以专注于架构、设计以及那些机器仍然无法解决的真正新颖的问题。最近的进展似乎让这个未来近在咫尺，但麻省理工学院计算机科学与人工智能实验室（CSAIL）以及其他几家合作机构的研究人员发表的一篇新论文指出，要实现这个潜在的未来，需要认真审视当前面临的挑战。这篇题为《面向软件工程
生活是个大坑 2019_ddd4
早上看到浙大学霸密密麻麻的时间安排表，很受震撼！向他学习。问自己有什么,凭什么可以不够努力。十年是一个坎，07年毕业，2017年一个大坎，差点跨掉，虽然走过去了，但付出了极其惨重的代价！年轻的时候真的是自以为是，被社会大学好好给你上了一课后，摔得够痛，心有余悸。所以我给自己只剩十年的时光，2027年，希望也能平安度过！世上有另外一个世界吗？我是敬畏的。世上有心怀报复的人吗？有，所以面对它，凡事谨慎
GPU 之后，IMU 登场：AI 发展的下一次飞跃
你早晨醒来，手机上的大模型帮你写完邮件、翻译合同，却依旧不能帮你把厨房里洒掉的牛奶擦干。你戴上的AR眼镜知道“那里有杯子”，却抓不到它——AI会说不会做。是不是哪里少了一截？人工智能（AI）的发展历程中，我们见证了从简单的数据处理到复杂的语言生成能力的飞跃。然而，尽管AI在虚拟世界中表现出色，它在物理世界中的表现却相对滞后。为了填补这一空白，AI正在进入一个新的发展阶段：行动驱动时代。在本文中，我
借助零信任网格重塑分布式MCP与LLM访问：安全、灵活的下一代架构实践码力金矿机器学习深度学习人工智能人工智能自动化运维数据库 mysql python java
在数字化转型的浪潮中，AI应用与分布式系统正在加速融合。传统架构中，MCP（模型上下文协议）服务与LLM（大语言模型）工具的部署常面临安全暴露、网络复杂性、跨防火墙通信等挑战。本文将结合零信任网格（ZTM,ZeroTrustMesh）与Flomesh技术，探索一种更安全、灵活的分布式架构方案，让MCP服务无需VPN或静态IP即可实现全球可访问，同时为LLM应用提供统一的安全层。一、传统分布式架构的
YOLOv13_SSOD：基于超图关联增强的半监督目标检测框架（原创创新算法）
YOLOv13_SSOD：基于超图关联增强的半监督目标检测框架项目背景随着深度学习技术的快速发展，目标检测在各个领域都取得了显著的进展。然而，现有的监督学习方法在实际应用中面临着标注数据稀缺、泛化能力不足等挑战。特别是在火灾烟雾检测、工业质检等特定场景中，获取大量高质量标注数据的成本极高。为了解决这一问题，本项目基于最新发布的YOLOv13架构，结合EfficientTeacher半监督学习框架，
USB串口通信、握手协议、深度学习等技术要点深度学习教程, 深度学习人工智能网络协议
基于OpenMV的智能车牌识别系统：从硬件到算法的完整实现前言本文将详细介绍一个基于OpenMV微控制器的智能车牌识别系统的设计与实现。该系统集成了嵌入式视觉处理、串口通信协议、深度学习OCR识别等多种技术，实现了从图像采集到车牌识别的完整流程。系统架构概述整体设计思路该车牌识别系统采用分布式架构设计，将计算密集型任务与嵌入式控制分离：┌─────────────┐USB串口通信┌────────
Jenkins 不同节点间文件传递：跨 Job 与同 Job 的实现方法
在日常的DevOps运维实践中，Jenkins通常被用于串联多个自动化流程，而这些流程往往需要在不同的构建节点（agent）上执行。例如，在以下场景中：场景需求描述（实际问题）最近在一次部署任务中，我遇到这样一个需求：Jenkins的a节点执行某些命令或脚本，生成一个临时文件或构建产物；然后需要b节点获取这个文件，并继续执行后续处理（如压缩、上传、部署等）；a节点与b节点不直接通信，它们都只能与J
python学习路线（从菜鸟到起飞）突突突然不会编了 python 学习开发语言
以下是基于2025年最新技术趋势的Python学习路线，综合多个权威资源整理而成，涵盖从零基础到进阶应用的全流程，适合不同学习目标（如Web开发、数据分析、人工智能等）的学习者。路线分为基础、进阶、实战、高级、方向拓展五个阶段，并附学习资源推荐：一、基础阶段（1-2个月）目标：掌握Python核心语法与编程思维，熟悉开发环境。环境搭建安装Python3.10+，配置PyCharm或VSCode开发
语音识别开源项目推荐：GitHub热门仓库盘点 AGI大模型与大数据研究院 AI大模型应用开发实战语音识别开源 github ai
2024年必看！GitHub热门语音识别开源项目全解析：从入门到实战关键词语音识别(ASR)、开源项目、GitHub、Whisper、FunASR、PaddleSpeech、深度学习摘要想象一下：开车时只需说一句话就能自动发消息，听英文演讲时实时获得中文翻译，给视障人士读文本时精准转换——这些场景的背后，语音识别（AutomaticSpeechRecognition,ASR）技术正在改变我们与机器
初识opencv
文章目录1.什么opencv，它的优势点2.opencv安装和环境配置3.了解数字图像的基本概念：像素、彩色图像、灰度图像、二值图像、图像算数操作4.练习numpy中array的基本操作5.练习图像的加载、保存、以及算术操作参考文献1.什么opencv，它的优势点OpenCV是Intel®开源计算机视觉库。它由一系列C函数和少量C++类构成，实现了图像处理和计算机视觉方面的很多通用算法。OpenC
IPSAN 共享存储详解：架构、优化与落地实践指南 Sally璐璐运维 php 开发语言
一、IPSAN技术定位与核心价值核心价值对比矩阵：维度IPSANFC-SAN实现方案成本端口成本$500端口成本$2000复用IP网络设备传输距离跨地域（VPN/专线）≤10公里两地三中心架构运维效率SNMP/CLI管理Zone/ALPA管理自动化运维工具链协议标准IETFRFC3720专有光纤协议全平台兼容性能指标100GbE（12GB/s）32GFC（3.5GB/s）NVMe/TCP+DPU加
Python训练 + Go优化 + C#部署：端到端AI模型的跨语言实践威哥说编程人工智能学习资料库 python golang c#
在现代AI应用中，如何高效地训练、优化、并最终部署AI模型是一项复杂且具有挑战性的任务。在这一过程中，选择合适的编程语言和工具可以显著提高效率和系统的性能。Python作为AI领域的主流语言，具有丰富的深度学习框架（如PyTorch和TensorFlow），在模型训练方面处于领先地位。然而，针对计算密集型任务（如数据预处理、加密等），Go语言因其高效的并发处理和出色的性能，成为优化计算的理想选择。
标记语言---XML MzKyle 标记语言 xml java 前端
一、XML的定义与核心定位XML（ExtensibleMarkupLanguage，可扩展标记语言）是由万维网联盟（W3C）于1998年2月发布的一种标记语言，其核心设计目标是传输和存储数据，而非直接用于显示数据（这一点与HTML有本质区别）。XML的“可扩展性”体现在：它没有预定义标签，用户可以根据需求自定义标签，只要遵循语法规则即可。这种灵活性使其成为跨平台、跨系统数据交换的重要标准，广泛应用
yolov8涨点系列之替换幽灵卷积GhostConv 没脾气的小玩家 yolov8涨点系列 YOLO 目标检测
文章目录核心思想主要步骤优势yolov8.yaml文件增加CBAMyolov8.yamlyolov8.yaml将Conv卷积替换成GhostConv 幽灵卷积（GhostConv）是一种新颖的卷积操作方法，旨在解决传统卷积神经网络中参数量和计算量过大的问题，尤其适用于资源受限的设备。以下是对幽灵卷积的详细介绍：核心思想常规的卷积操作会产生大量的特征图，其中存在一定的冗余信息。幽灵卷积的核心思
DL00478-涡轮叶片缺陷检测数据集yolo格式1300张左右
涡轮叶片缺陷检测数据集yolo格式1300张左右涡轮叶片缺陷检测数据集YOLO格式解析：提升研究与论文写作的关键要点在研究涡轮叶片缺陷检测的过程中，数据集的选择和格式处理是一个至关重要的环节。特别是当你打算通过卷积神经网络（CNN）等深度学习模型进行缺陷检测时，数据集的标注和格式化直接影响到模型的训练效果和论文的质量。本文将重点探讨涡轮叶片缺陷检测数据集的YOLO格式，并分析如何利用这一格式为研究
京东零售重磅开源 | OxyGent：像搭乐高一样组装AI团队，实现群体智能京东零售技术零售开源人工智能
京东零售Oxygen团队正式开源发布多智能体协作框架——OxyGent。这一创新框架致力于帮助开发者高效组装多智能体协作系统，实现智能体间的无缝协作、弹性扩展与全链路可追溯。推动人工智能从“单点突破”迈向“群体智能”时代。OxyGent已在开源社区正式上线。开源地址：https://github.com/jd-opensource/OxyGent官网地址：https://oxygent.jd.co
具身智能的视觉-语言导航综述
24年2月来自曲阜师范、华东师大和哈工大的论文“Vision-LanguageNavigationwithEmbodiedIntelligence:ASurvey”。作为人工智能领域的长期愿景，具身智能的核心目标是提升智体与环境的感知、理解和交互能力。视觉-语言导航（VLN）作为实现具身智能的重要研究路径，致力于探索智体如何利用自然语言与人进行有效沟通，接收并理解指令，并最终依靠视觉信息实现精准导
具身智能：从理论到实践的跨越
具身智能（EmbodiedAI）的概念起源与发展是一个跨越半个多世纪的学术探索历程，其核心思想在不同学科的交叉碰撞中逐渐成型。以下从理论源头、技术奠基、术语演进三个维度展开解析，揭示这一概念的学术脉络与产业价值：一、理论源头：从图灵的哲学构想到认知科学的具身化转向1.图灵的"感官机器"设想（1950年）在人工智能奠基性论文《计算机器与智能》中，图灵提出了两种智能发展路径：抽象计算路径：如国际象棋等
机器学习之——认识机器学习 -睡到自然醒~ golang 重构开发语言
首先，什么是机器学习？参照百度百科的讲解，“机器学习是一门多领域交叉学科，设计概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习能力，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。”什么意思呢？也就是说，机器学习是一门跨领域的学科，是一种能够让机器模仿人类学习能力的一种学科。在Andrew的课程中，提到了几个机器学习的定义：1，A
Epoch 老兵发新帖人工智能
在深度学习和机器学习中，Epoch（轮次或周期）是一个核心训练概念，指模型在整个训练数据集上完成一次完整遍历的过程。以下是关于Epoch的详细解析：一、核心定义基本含义Epoch表示模型将所有训练数据完整学习一次的过程。例如：若训练集有10,000个样本，则1个Epoch即模型用这10,000个样本训练一轮。与相关概念的关系Batch（批次）：数据集被分割成的小组（如每批32个样本）。Iterat
Python --- day 10 Opencv模块的使用 AnAn__kang python opencv 开发语言
系列文章目录前言今天博主带大家进入Opencv的学习，这是一个专门针对处理图像和视频的一个模块，大家以理解为主，增强自己的编程思维，再后续我们训练模型时会大批量的处理图片时会经常用到这个模块。1OpenCV介绍OpenCV（开放源代码计算机视觉库）是一个开源的计算机视觉和机器学习软件库。由一系列C++类和函数构成，用于图像处理、计算机视觉领域的算法实现。1.1OpenCV优势**开源免费：**完全
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，