三更灯火五更鸡

【大规模图像检索的利器】Deep哈希算法介绍

作者：程程
链接：https://zhuanlan.zhihu.com/p/21396173
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

前言

在最近邻搜索（nearest neighbor search）问题中，给定一个查询（query），目标是要找到空间中离它最近的点。这里所说的空间可以是任意的空间，比如特征空间，或者语义空间。具体来说，在图像检索这个问题中，每张图像对应空间中的一个点，而所谓的“近”既可以是外观上的近（看着像），也可以是语义上的近（同类）。以下图为例，当我把左侧的图像扔给两个不同的搜索引擎后，得到的返回结果就对应上面的两种情况。

事实上，如果不对效果做什么要求的话，想要实现上面这样的功能其实并不难。最直接的方法就是用一种特征来表示每张图像（比如AlexNet中fc7层的输出），然后通过计算查询图像（上图左）和数据库中图像在特征空间中的欧式距离，并按照距离从小到大的顺序，返回数据库中的图像。

上面这种方法虽然看上去简单粗暴，但是却不失为一种有效的做法。但是，随着互联网上的图像越来越多，这种方法的短板也体现得淋漓尽致——存储空间消耗大，检索速度慢。具体来说，如果使用上面提到的AlexNet中fc7层的输出来表示每张图像，那么表示一百万张图像就需要大约15GB的存储空间（单精度浮点数），而计算查询图像和数据库中每张图像的距离，则需要8192次加法操作和4096次乘法操作，遍历完所有的一百万张图像再返回结果的话，恐怕用户早就等得不耐烦了。考虑到现在互联网上的数据规模动辄就是上亿的级别，这种方法就显得更不靠谱了。

为了解决上面方法对存储空间和检索时间的不切实际的要求，近年来近似最近邻搜索（approximate nearest neighbor search）技术发展迅猛，因为其对空间和时间的需求大幅降低，而且能够得到不错的检索结果，因此成为了一种实用的替代方案。在这其中，哈希（hashing）作为一种代表性方法，近年来受到了广泛的关注。本文首先对哈希算法的发展历程进行简单的介绍，然后按照相关性，对近年来的一些主要的深度哈希算法进行介绍，最后对现有深度哈希方法进行简单的总结。

发展历程

在哈希算法中，通常的目标是将样本表示成一串固定长度的二值编码（通常使用0/1或-1/+1表示其中的每个bit），使得相似的样本具有相似的二值码（使用Hamming距离度量二值码之间的相似性）。

在最初的工作中，作者提出在特征空间中随机选择一些超平面对空间进行划分，根据样本点落在超平面的哪一侧来决定每个bit的取值。这类方法虽然有严格的理论证明保证其效果，但是在实际操作中通常需要比较多的bit才能得到令人满意的检索效果。

在之后的工作中，为了得到编码长度更短、检索效果更好的二值码，人们进行了很多尝试，包括构建不同的目标函数、采用不同的优化方法、利用图像的标签信息、使用非线性模型等。随着研究的深入，利用二值编码进行检索的性能也逐步提升。

与常见的机器学习算法不同，哈希方法的目标是得到二值编码，所以优化过程中经常会遇到离散取值的约束，因此通常来说无法使用基于梯度的方法对目标函数进行优化。为了简化问题，通常的做法是改用一个更宽松的约束，比如不再要求“二值码”是二值的，而是只要在一个规定的范围中即可。优化结束后，再对松弛过的“二值码”进行量化，得到最终的真二值码，深度哈希算法通常也采用这种做法。

深度哈希算法

最早的基于深度学习的哈希算法应该是2009年由Hinton研究组提出的Semantic Hashing方法[1]。对于这个方法来说，深度模型只是提供了一定的非线性表示能力，而网络的输入仍是手工设计的特征，和现在通常意义上的深度学习算法还是有一定的区别，因此本文中不作具体介绍。在这之后，基于Semantic Hashing出现了一些改进，但是也都没有掀起什么大的风浪，在此一笔带过。

时间来到2014年，受到CNN强大学习能力的鼓舞，中山大学的潘炎老师研究组和颜水成老师合作，在美国人工智能协会年会（AAAI 2014）上发表的论文提出了一种名为CNNH（Convolutional Neural Network Hashing）的方法[2]，把基于CNN的深度哈希算法推到了前台。CNNH的做法如下图所示，首先通过对相似度矩阵（矩阵中的每个元素指示对应的两个样本是否相似）进行分解，得到样本的二值编码；然后，利用CNN对得到的二值编码进行拟合。拟合的过程相当于一个多标签预测问题，作者使用了交叉熵损失来达到这个目的，这一步对应图中最右侧红色节点。此外，作者还提出加入分类的损失函数来进一步提升性能（softmax，对应图中最右侧黑色节点）。

尽管实验中CNNH相比传统的基于手工设计特征的方法取得了显著的性能提升，但是这个方法仍然不是端到端的方法，学到的图像表示不能反作用于二值编码的更新，因此并不能完全发挥出深度学习的能力。为了更好地挖掘深度模型的潜力，在这之后，出现了不少改进方法。

2015年计算机视觉与模式识别会议（CVPR 2015）中，一下子出现了四篇基于深度学习的哈希算法。在这四篇文章之中，其中一篇文章（在此不对这篇文章做详细介绍，有兴趣的同学可以参考[3]）使用手工设计特征作为输入之外，其余的三篇均为完全的端到端模型。下面具体介绍一下这三篇文章。

第一篇文章[4]与上面介绍的CNNH一样，同样是来自中山大学的潘炎老师研究组和颜水成老师。因为这篇文章中使用了一个比CNNH中的网络深得多的Network in Network的网络结构，因此被简称为NINH（NIN Hashing）或DNNH（Deep Neural Network Hashing）。这篇文章的做法如下图所示。网络使用三张图像构成的三元组进行训练。在三元组中，其中的第一张图像和第二张图像是相似的，而第一张图像和第三张图像则是不相似的。基于三元组的损失函数的目标是：在得到的Hamming空间中，相似样本间的距离小于不相似样本间的距离（下图右上）。值得一提的是，这项工作为了适配哈希学习这个任务，在网络结构上做了一些有针对性的设计，包括：

（1）为了减小二值码不同bit之间的冗余性，作者提出使用部分连接层代替全连接层，每个部分负责学习一个bit，各部分之间无连接（下图左slice layers）；

（2）为了避免二值码学习中的离散取值约束，像大多数哈希方法一样，作者使用sigmoid激活函数将离散约束松弛为范围约束（{0,1}→(0,1)），同时为了保持学到的特征空间和Hamming空间相似，引入了分段量化函数（下图右下）。以上这两部分合在一起，构成了图中的divide-and-encode模块。该方法可以端到端的训练，学到的图像表示可以反作用于二值码，因此相比于CNNH，性能有所提升。

第二篇文章[5]来自中科院自动化研究所的谭铁牛老师的研究组，和DNNH相比没有在网络结构上下太大功夫，而是更多地关注了损失函数这一块。文章中使用了类似于DeepID2的网络结构，如下图所示。回头来看图像检索这个任务，任务的目的无非就是把数据库中的图像，按照和查询图像的相关性由大到小的顺序，依次返回。基于这个思想，这篇文章中提出直接让网络学习这个排序，因此该方法称为DSRH（Deep Semantic Ranking Hashing）。事实上，这种做法相当于直接对最终的评测指标进行优化，相当于开启了上帝模式。但是实际中上帝模式并不是那么容易开的，直接优化排序并不容易，因此作者使用了一个凸上界作为替代，进行优化。

第三篇文章[6]来自台北中央研究院的陈祝嵩研究组，出现在当年的CVPR workshop中，其中使用了一种比较直接的方法来学习二值编码，该方法名为DLBHC（Deep Learning of Binary Hash Codes），方法流程如下图所示。其核心点为：在预训练好的网络倒数第二层和最终的任务层中间，插入一个新的全连接层，这个层使用sigmoid激活函数来提供范围约束，节点数即为目标二值码的码长。通过端到端的finetune，可以将语义信息嵌入到这个新加入的全连接层输出之中。虽然这么做得到的二值码中包含语义信息，但是由于在训练过程中没有显式地考虑样本点之间的相对位置关系，并不能保证Hamming距离近的点在语义上也相近，因此和最终的检索任务还是有些偏离。

同年，由中山大学林倞老师、哈尔滨工业大学左旺孟老师和香港理工大学张磊老师等人合作的文章发表在当年的Transactions on Image Processing (TIP 2015)中[7]，作者提出了一种使用加权Hamming距离代替标准Hamming距离的哈希方法DRSCH（Deep Regularized Similarity Comparison Hashing），如下图所示。该方法同样使用基于三元组的损失，同时使用图像对（image pair）之间的相似性作为正则项，希望得到的网络能够同时保持三元组确定的关系和图像对确定的关系（实验表明这两者虽然看上去是在描述一样的东西，但是这种做法确实能取得一定的效果提升）。在网络学习的过程中，加权Hamming距离的权值也作为参数进行更新，从而得到与网络匹配的权值。虽然这篇文章中使用的加权Hamming距离的时间复杂度要略大于标准Hamming距离，但是也带来了额外的好处：一方面，可以以很高的效率计算更加精确的距离；另一方面，可以通过权值来选择bit，从而得到不同码长的二值码，而不必像之前的方法一样每换一个码长就重新训练一个模型。此外，和DNNH相似，这篇文章的作者也设计了一种操作来保证学到的空间接近于Hamming空间，其形式类似于双曲正切函数（tanh）。

以上四篇文章中的框架，可以代表大多数深度哈希文章的做法，可以总结为：深度模型学习图像表示 + sigmoid/tanh函数限制输出范围 + 不同的损失函数 + （可选）有针对性的网络结构。这四个部件合在一起，组合出了很多种不同的方法，在此就不再详细介绍这些衍生方法了。

上述框架中，问题比较大的一个地方在于sigmoid/tanh的使用。由于这类激活函数具有饱和的性质，越是当输出接近期望的值的时候（0/1或-1/+1），梯度就越小，网络训练也就越困难。因此，最近的一些工作开始关注sigmoid/tanh的替代品。例如，我们发表在CVPR 2016的工作DSH（Deep Supervised Hashing）[8]中，使用了如下图所示的一个正则项，来对网络的输出进行约束，使之接近二值编码。当网络的输出和期望得到的值偏差越大的时候，损失也越大，但是同时，梯度的值保持在-1或+1，来保证训练过程的稳定性。此外，类似的正则思想在清华大学的Haiyi Zhu博士等人发表在AAAI 2016和李武军老师研究团队发表在2016年国际人工智能联合会议（IJCAI 2016）的两篇工作中也有体现[9,10]。和侧重于设计损失函数的方法相比，这类方法的关注点在于量化部分，而这在传统哈希方法中也是一个重要的研究方向。

以上介绍的深度哈希方法在生成二值码的时候，只需要将图像送入训练好的网络，并将网络输出进行量化。值得一提的是，由于传统哈希方法需要同时使用多种特征才能达到和深度哈希方法可比的性能，提取特征的时间严重拖慢了传统方法在实际应用中的编码速度，因此深度哈希方法在编码速度上甚至有时会优于传统方法。

需要指出，目前很多深度哈希算法在对比同类方法的时候，用的都是对比方法原文中的网络结构，而自己却用更深、更复杂的结构。在我看来，这种对比并不能很好地反映方法本身的好坏，更合适地对比方法应该是大家使用基本一致的结构进行对比。

其他应用

上面介绍的方法解决的都是以图搜图的问题，在其他的一些应用方面，深度哈希算法也有用武之地。下面我举两个例子进行说明。

第一个应用是跨模态检索。一个最常见的例子是：在搜索引擎中输入一些关键词，找相关的图像。通常来说，关键词（文本）和图像并不在同一个空间中，因此无法直接比较。在2016年年初，李武军老师带领的研究团队在arXiv上发布了一篇文章，其中介绍了一种跨模态深度哈希算法DCMH（Deep Cross-Modal Hashing）[11]。这篇文章中，作者利用一个两路的深度模型将两种不同模态的数据（文章中是文本和图像）变换到一个公共空间，并要求相似的样本在这个公共空间中相互靠近，如下图所示。通过同时对图像和图像、图像和文本、文本和文本这几种不同类型的样本对施加这个约束，可以保证两种模态样本的对齐。如此一来，即可实现在公共空间中的跨模态检索。

另一种应用是以文本搜文本，即给定一段查询文本，找到和这段文本相似的其他文本。作为一个经典问题，在IJCAI 2015上，来自中科院自动化研究所的许家铭博士等人提出了一种基于卷积网络的解法[12]，如下图所示。该方法首先将文本中的每个单词表示成一个词向量，将文本转化为一个宽度等于句子长度，高度等于1，通道数等于词向量维度的张量。之后通过对文本进行卷积、pooling等一系列操作，得到一组中间表示，并对这组中间表示进行一系列操作得到二值码。这个方法中词向量的提取并不能和最终的任务连在一起，因此不能算是完全的端到端模型。作为利用CNN进行文本哈希算法的初步探索工作，这篇文章为深度哈希算法的更广阔应用开启了一扇新的大门。

以上两个应用作为深度哈希算法在不同领域上的具体实现，都根据手头的问题对模型进行了相应的修改，以适应对应的任务，而这种灵活性，也正是深度学习的一大优势。

结语

基于深度学习的哈希算法，凭借其强大的特征学习能力，一出现就迅速超越了基于手工设计特征的传统哈希方法。但是，目前的研究还远没有到尽头，更适合这一任务的网络结构、优化算法等都还有待进一步探索。目前来看，传统方法非但没有过时，反而可以在新的深度哈希算法研究中提供一些指导，进一步提升深度哈希算法的能力。

参考文献

[1] Ruslan Salakhutdinov, Geoffrey Hinton. Semantic Hashing. IJAR 2009.

[2] Rongkai Xia, Yan Pan, Hanjiang Lai, Cong Liu, Shuicheng Yan. Supervised Hashing for Image Retrieval via Image Representation Learning. AAAI 2014.

[3] Venice Erin Liong, Jiwen Lu, Gang Wang, Pierre Moulin, Jie Zhou. Deep Hashing for Compact Binary Codes Learning. CVPR 2015.

[4] Hanjiang Lai, Yan Pan, Ye Liu, Shuicheng Yan. Simultaneous Feature Learning and Hash Coding with Deep Neural Networks. CVPR 2015.

[5] Fang Zhao, Yongzhen Huang, Liang Wang, Tieniu Tan. Deep Semantic Ranking Based Hashing for Multi-Label Image Retrieval. CVPR 2015.

[6] Kevin Lin, Huei-Fang Yang, Jen-Hao Hsiao, Chu-Song Chen. Deep Learning of Binary Hash Codes for Fast Image Retrieval. CVPR 2015 workshop.

[7] Ruimao Zhang, Liang Lin, Rui Zhang, Wangmeng Zuo, Lei Zhang. Bit-Scalable Deep Hashing with Regularized Similarity Learning for Image Retrieval and Person Re-identification. TIP 2015.

[8] Haomiao Liu, Ruiping Wang, Shiguang Shan, Xilin Chen. Deep Supervised Hashing for Fast Image Retrieval. CVPR 2016.

[9] Han Zhu, Mingsheng Long, JianminWang,Yue Cao. Deep Hashing Network for Efficient Similarity Retrieval. AAAI 2016.

[10] Wu-Jun Li, Sheng Wang, Wang-Cheng Kang. Feature Learning based Deep Supervised Hashing with Pairwise Labels. IJCAI 2016.

[11] Qing-Yuan Jiang, Wu-Jun Li. Deep Cross-Modal Hashing. arXiv:1602.02255.

[12] Jiaming Xu, Peng Wang, Guanhua Tian, Bo Xu, Jun Zhao, Fangyuan Wang, Hongwei Hao. Convolutional Neural Networks for Text Hashing. IJCAI 2015.

向量数据库Faiss（Facebook AI Similarity Search） shiming8879 数据库 faiss 人工智能
向量数据库Faiss（FacebookAISimilaritySearch）是FacebookAIResearch开发的一款高效且可扩展的相似性搜索和聚类库，专门用于处理大规模向量数据的搜索和检索任务。Faiss以其出色的性能和灵活性，在图像检索、文本搜索、推荐系统等多个领域得到了广泛应用。以下将详细介绍Faiss的搭建与使用过程，包括安装、基本使用、索引类型选择、性能优化及应用场景等方面。一、F
基于Hadoop的海量图像检索 usp1994 hadoop eclipse 大数据
基于Hadoop的海量图像检索“MassiveImageRetrievalBasedonHadoop:AStudyinSoftwareEngineering”完整下载链接:基于Hadoop的海量图像检索文章目录基于Hadoop的海量图像检索摘要第一章引言1.1研究背景1.2研究意义1.3国内外研究现状1.4研究内容与方法1.5论文结构第二章相关技术介绍2.1Hadoop框架2.2分布式存储与计算2
向量数据库 Milvus：智能检索新时代三余知行「数智通识」「机器学习」数据库 milvus 智能检索高维数据检索 AIGC 维护
文章目录Milvus核心技术Milvus基本特点索引策略相似度计算图像检索演示Milvus基础维护环境搭建建立向量索引数据导入数据更新数据删除用户权限管理Milvus评估与调优性能评估调优技巧Milvus数据安全安全策略数据备份与恢复Milvus扩展性案例演示电影推荐在线广告投放结语随着人工智能和大数据技术的不断进步，向量数据库的应用场景愈发广泛。Milvus作为一款优秀的开源向量数据库，凭借其强
哈工大SCIR | 场景图生成简述 zenRRan 人工智能计算机视觉知识图谱
原创作者：梁家锋郑子豪王禹鑫孙一恒刘铭出处：哈工大SCIR进NLP群—>加入NLP交流群1引言场景图是一种结构表示，它将图片中的对象表示为节点，并将它们的关系表示为边。最近，场景图已成功应用于不同的视觉任务，例如图像检索[3]、目标检测、语义分割、图像合成[4]和高级视觉-语言任务（如图像字幕[1]或视觉问答[2]等）。它是一种具有丰富信息量的整体场景理解方法，可以连接视觉和自然语言领域之间巨大差
CVPR 2023: CLIP for All Things Zero-Shot Sketch-Based Image Retrieval, Fine-Grained or Not 结构化文摘 sketch macos ui
我们使用以下6个分类标准对本文的研究选题进行分析：1.任务类型:图像检索:最常见任务，目标是检索与给定草图相似的图像。例如：[1,2,3,4,5,6,7,8,9,14,16,30,35,42,43,44,53,58,59,61,62,64,65,67,68,72,73]图像生成:相反，根据草图生成图像。例如：[11,33]目标检测:基于草图识别图像中的特定目标。例如：[13]2.输入模式:仅草图:
【机器视觉实验】机器视觉实验四——基于knn的场景图像检索、基于SVM的人脸图像识别沐风—云端行者深度学习实验支持向量机人工智能算法机器视觉计算机视觉机器学习图像识别
一、实验内容实验内容包含要进行什么实验，实验的目的是什么，实验用到的算法及其原理的简单介绍。（1）编程实现基于knn的场景图像检索a)至少实现三种特征组合进行检索；b)使用recall与precision分析不同特征组合对检索精度的影响。（2）实现基于SVM的人脸图像识别a)准备一张含有有自己照片的图片,并拍摄自己的人脸图片集；b)训练SVM人脸分类器c)实现基于滑动窗口的人脸检测算法；d)识别出
计算机设计大赛图像检索算法 iuerfee python
文章目录1前言2图像检索介绍(1)无监督图像检索(2)有监督图像检索3图像检索步骤4应用实例5最后1前言优质竞赛项目系列，今天要分享的是图像检索算法该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate图像检索：是从一堆图片中找到与待匹配的图像相似的图片，就是以图找图。网络时代，随着各种社
2024年，AIGC赛道专利文献和软著大全 AI周红伟 AIGC 人工智能机器学习 chatgpt
一、周红伟-深度学习国际发明专利深度学习国际发明专利基于深度学习的图像检索方法及装置，专利公开公告号：CN107368614A。专利类型：发明公布。发明人：周红伟;李凯;任伟;李庆;郭奇杰;周杨;刘川郁二、机器学习算法发表文献Simulationmodelanddropletejectionperformanceofathermal-bubblemicroejector，HongweiZhou，A
探索图像检索：从理论到实战的应用 TechLead KrisChang 机器学习深度学习人工智能
目录一、引言二、图像检索技术概述图像检索的基本概念图像检索与文本检索的区别特征提取技术相似度计算索引技术三、图像检索技术代码示例图像特征提取示例相似度计算索引技术四、图像搜索流程架构数据采集与预处理特征提取相似度计算与排名结果呈现与优化五、实际应用图像检索在电子商务领域的应用图像检索在社交媒体中的应用图像检索在云存储服务中的应用本文深入探讨了图像检索技术及其在主流APP中的应用，涵盖了特征提取、相
【GitHub项目推荐--全球首个开源图像识别系统】【转载】旅之灵夫 GitHub项目推荐 github
你知道人脸识别、商品识别、车辆识别，以图搜图乃至自动驾驶，背后的技术是什么嘛？并不是图像分类、目标检测这些东西，而是综合使用目标检测、图像分类、度量学习、图像检索的【通用图像识别系统】…度量学习是啥？图像检索是啥？通用图像识别系统又是啥？好奇之余，老逛突然发现了一个通用图像识别系统快速搭建神器！GitHub地址：https://github.com/PaddlePaddle/PaddleClas那
基于内容的图像web检索系统乐心唯帅计算机视觉深度学习
题目：基于内容的图像在线检索系统简介：基于内容的图像在线检索系统（ContentBasedOnlineImageRetrieval,以下简称CBOIR），是计算机视觉领域中关注大规模数字图像内容检索的研究分支。典型的CBOIR系统，允许用户在线输入一张图像，在远程图像数据库中查找具有相同或相似内容的其它图片。要求：本实训完成的系统要求实现基于视觉特征的在线图像检索。该项目的实训内容主要包括：1.搭
半监督学习 - 三元组学习（Triplet Learning）草明数据结构与算法学习机器学习人工智能
什么是机器学习三元组学习（TripletLearning）是半监督学习中一种用于学习有用表示的方法。它通常用于学习数据中的相似性关系，尤其在人脸识别、图像检索等领域中得到广泛应用。三元组学习是通过构造三元组（triplet）来训练模型，每个三元组包含一个锚点样本（anchorsample）、一个正样本（positivesample）和一个负样本（negativesample）。三元组的构造锚点样本
[2019CVPR论文笔记]Doodle to Search Practical Zero-Shot Sketch-based Image Retrieval qq_44932092 CVPR2019 图像检索图像检索 CVPR2019 深度学习 few-shot
摘要文章地址：http[https://arxiv.org/pdf/1904.03451v1.pdf]在本文中，我们研究了基于零样本的草图图像检索（ZS-SBIR）的问题，其中人类草图被用作查询以从不可见的类别中检索照片。我们通过提出一种新颖的ZS-SBIR场景来进一步推进现有技术，该场景代表了其实际应用中的一步。新设置独特地认识到实际ZS-SBIR的两个重要但经常被忽视的挑战，（1）业余草图和照
图像处理中常用的距离图灵追慕者图像处理图像处理欧氏距离常用距离距离的类型距离度量
说明在图像处理中，常用的距离度量用于衡量两个向量或特征之间的差异或相似性。以下是一些常用的距离度量及其使用说明和应用场景：欧氏距离（EuclideanDistance）：欧氏距离是最常用的距离度量，用于衡量两个向量之间的几何距离。它可以用于图像检索、目标识别和图像聚类等任务。曼哈顿距离（ManhattanDistance）：曼哈顿距离是指两个向量之间的每个维度差的绝对值之和。它适用于特征具有明显方
无代码DIY图像检索 colorknight 低代码人工智能 HuggingFace 大模型 Milvus Embedding 图像检索
软件环境准备可参见《HuggingFists-低代码玩转LLMRAG-准备篇》中的HuggingFists安装及Milvus安装。流程环境准备图片准备进入HuggingFists内置的文件系统，数据源->文件系统->sengee_fs_settings_201创建Image文件夹将事先准备的多张相同或不同种类的图片上传到Image目录下。如下图：HuggingFace账号准备HuggingFist
遥感影像-语义分割数据集：WHDLD数据集详细介绍及训练样本处理流程 ly_0624 语义分割数据集深度学习人工智能图像处理数据分析计算机视觉
原始数据集详情简介：WHDLD是一个密集的标签数据集，可用于多标签任务，例如遥感图像检索（RSIR）和分类，以及其他基于像素的任务，例如语义分割（在遥感中也称为分类）。KeyValue卫星类型GaoFen-1、ZiYuan-3覆盖区域未知场景未知分辨率2m数量4940张单张尺寸256*256原始影像位深8位标签图片位深8位原始影像通道数三通道标签图片通道数单通道标签类别对照表像素值类别名（英文）类
灰度共生矩阵纹理特征提取matlab,灰度共生矩阵纹理特征提取的Matlab实现陆牙
收稿日期:2012－03－20;修回日期:2012－06－24基金项目:国家“十一五”计划课题(FIB070335－B8－04)作者简介:焦蓬蓬(1981－)，女，硕士，讲师，研究方向为数字信号处理。灰度共生矩阵纹理特征提取的Matlab实现焦蓬蓬，郭依正，刘丽娟，卫星(南京师范大学泰州学院，江苏泰州225300)摘要:图像的特征提取是图像的识别和分类、基于内容的图像检索、图像数据挖掘等研究内容的
简易机器学习笔记（八）关于经典的图像分类问题-常见经典神经网络LeNet Leventure_轩先生不涉及理论的简易机器学习笔记机器学习笔记分类
前言图像分类是根据图像的语义信息对不同类别图像进行区分，是计算机视觉的核心，是物体检测、图像分割、物体跟踪、行为分析、人脸识别等其他高层次视觉任务的基础。图像分类在许多领域都有着广泛的应用，如：安防领域的人脸识别和智能视频分析等，交通领域的交通场景识别，互联网领域基于内容的图像检索和相册自动归类，医学领域的图像识别等。这里简单讲讲LeNet我的推荐是可以看看这个视频，可视化的查看卷积神经网络是如何
[2015 Springer] Local Image Descriptor: Modern Approaches——1 Introduction AllisWell_WP 计算机视觉图像处理书翻译计算机视觉图像处理特征提取描述符翻译
转载请注明链接：有问题请及时联系博主：Alliswell_WP持续更新中…翻译本地图像描述符：现代方法——作者：BinFan，ZhenhuaWang，FuchaoWu有关该系列的更多信息，请访问http://www.springer.com/series/10028前言1在过去的15年中，特征点描述符已成为计算机视觉社区中必不可少的工具。它们是从图像检索到多图像立体匹配以及从表面重建到图像增强等应
互联网加竞赛 python图像检索系统设计与实现 Mr.D学长 python java
0前言优质竞赛项目系列，今天要分享的是python图像检索系统设计与实现学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：3分创新点：4分该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1课题简介图像检索：是从一堆图片中找到与待匹配的图像相似的图片，就是以图找图。网络时
竞赛保研 python图像检索系统设计与实现 iuerfee python
0前言优质竞赛项目系列，今天要分享的是python图像检索系统设计与实现学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：3分创新点：4分该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1课题简介图像检索：是从一堆图片中找到与待匹配的图像相似的图片，就是以图找图。网络时
新零售场景（图像检索、识别，分类）sku级别数据集 Funny_AI_LAB 数据汇总计算机视觉目标检测分类零售
1.AiProducts-Challenge（阿里2020）下载地址：2020-AiProducts-Challenge-dataset数据介绍：Large-scaleProductRecognition赛题与数据-天池大赛-阿里云天池该数据集包含近300万张图片，涵盖5万个SKU级商品类别。1st-plan：1st__WinnerSolutionforAliProductsChallengeLa
遥感图像之多模态检索AMFMN（支持关键词、句子对图像的检索）论文阅读、环境搭建、模型测试、模型训练 qq_41627642 深度学习多模态论文阅读计算机视觉人工智能
一、论文阅读1、摘要背景遥感跨模态文本图像检索以其灵活的输入和高效的查询等优点受到了广泛的关注。然而，传统的方法忽略了遥感图像多尺度和目标冗余的特点，导致检索精度下降。为了解决遥感多模态检索任务中的多尺度稀缺性和目标冗余问题，提出了一种新的非对称多模态特征匹配网络(AMFMN)。该模型可适应多尺度特征输入，支持多源检索方法，并能动态过滤冗余特征。AMFMN采用多尺度视觉自注意(MVSA)模块提取R
在Python中探索图像相似性方法小北的北 python 开发语言
在一个充斥着图像的世界里，衡量和量化图像之间相似性的能力已经成为一项关键任务。无论是用于图像检索、内容推荐还是视觉搜索，图像相似性方法在现代应用中起着至关重要的作用。幸运的是，Python提供了大量工具和库，使得开发人员和研究人员能够轻松地探索和实现这些方法。在这篇博客中，我们将深入探讨各种图像相似性技术，并演示如何使用Python实现它们。理解图像相似性图像相似性可以被看作是两幅图像在视觉内容方
浅析行人重识别 Shirleybebe
行人重识别在此先给出官方解释：行人重识别（Personre-identification）也称行人再识别，是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题。给定一个监控行人图像，检索跨设备下的该行人图像。旨在弥补固定的摄像头的视觉局限，并可与行人检测/行人跟踪技术相结合，可广泛应用于智能视频监控、智能安保等领域。给定一个监控行人图像：给定一个希
akaze特征匹配怎么去掉不合适的点_自动驾驶汽车视觉- 图像特征提取与匹配技术 weixin_39890102 opencv4 图像特征匹配 opencv纹理特征提取 sift特征提取图像特征匹配 opencv4 基于fpga的vga图像显示
FeaturedetectionandmatchingGithub:https://github.com/williamhyin/SFND_2D_Feature_TrackingEmail:[email protected]特征提取和匹配是许多计算机视觉应用中的一个重要任务，广泛运用在运动结构、图像检索、目标检测等领域。每个计算机视觉初学者最先了解的特征检测器几乎都是1988年发布的H
如何高效、精准地进行图片搜索？看看轻量化视觉预训练模型 AI科技大本营神经网络大数据算法编程语言 python
来源|微软研究院AI头条编者按：你是否有过图像检索的烦恼？或是难以在海量化的图像中准确地找到所需图像，或是在基于文本的检索中得到差强人意的结果。对于这个难题，微软亚洲研究院和微软云计算与人工智能事业部的研究人员对轻量化视觉模型进行了深入研究，并提出了一系列视觉预训练模型的设计和压缩方法，实现了视觉Transformer的轻量化部署需求。目前该方法和模型已成功应用于微软必应搜索引擎，实现了百亿图片的
Image Caption：图像字幕生成于建民技术博客 Image Caption RNN 图像注释图像描述场景理解
前言图像处理与自然语言处理的结合，给图像加字幕或者描述。应用前景非常广，比如早教，图像检索，盲人导航等。图像注释问题的通用解法非常接近于Encoder-Decoder结构，下面就几种方法作简单总结。m-RNNMao这篇2015-paper，根据输入语句和图片，为图片生成字幕；以DeepRNN处理语句，用CNN处理图片。基本思路：直接将图像表示和词向量以及隐向量作为多模判断的输入。左侧是简单RNN结
行人重识别-REID 椒椒。计算机视觉深度学习人工智能
行人重识别-REID一、REID二、为什么使用REID三、REID应用场景四、REID研究形式五、REID存在的挑战一、REID行人重识别-REID（personre-identification）也叫做行人再识别技术。利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题。给定一个监控行人图像，检索跨设备下的该行人图像。如下图所示：一个区域有多个摄像头拍
汽车虚拟仿真视频数据理解--CLIP模型原理无盐薯片比赛神经网络 python 人工智能
CLIP模型原理CLIP的全称是ContrastiveLanguage-ImagePre-Training，中文是对比语言-图像预训练，是一个预训练模型，简称为CLIP。该模型是OpenAI在2021年发布的，最初用于匹配图像和文本的预训练神经网络模型，这个任务在多模态领域比较常见，可以用于文本图像检索，CLIP是近年来在多模态研究领域的经典之作。该模型大量的成对互联网数据进行预训练，在很多任务表
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地

【大规模图像检索的利器】Deep哈希算法介绍

你可能感兴趣的:(图像检索)