icvpr

局部敏感哈希(Locality-Sensitive Hashing, LSH)方法介绍

局部敏感哈希(Locality-Sensitive Hashing, LSH)方法介绍

本文主要介绍一种用于海量高维数据的近似最近邻快速查找技术——局部敏感哈希(Locality-Sensitive Hashing, LSH)，内容包括了LSH的原理、LSH哈希函数集、以及LSH的一些参考资料。

一、局部敏感哈希LSH

在很多应用领域中，我们面对和需要处理的数据往往是海量并且具有很高的维度，怎样快速地从海量的高维数据集合中找到与某个数据最相似（距离最近）的一个数据或多个数据成为了一个难点和问题。如果是低维的小数据集，我们通过线性查找（Linear Search）就可以容易解决，但如果是对一个海量的高维数据集采用线性查找匹配的话，会非常耗时，因此，为了解决该问题，我们需要采用一些类似索引的技术来加快查找过程，通常这类技术称为最近邻查找（Nearest Neighbor,AN），例如K-d tree；或近似最近邻查找（Approximate Nearest Neighbor, ANN），例如K-d tree with BBF, Randomized Kd-trees, Hierarchical K-means Tree。而LSH是ANN中的一类方法。

我们知道，通过建立Hash Table的方式我们能够得到O(1)的查找时间性能，其中关键在于选取一个hash function，将原始数据映射到相对应的桶内（bucket, hash bin），例如对数据求模：h = x mod w，w通常为一个素数。在对数据集进行hash 的过程中，会发生不同的数据被映射到了同一个桶中（即发生了冲突collision），这一般通过再次哈希将数据映射到其他空桶内来解决。这是普通Hash方法或者叫传统Hash方法，其与LSH有些不同之处。

局部敏感哈希示意图（from: Piotr Indyk）

LSH的基本思想是：将原始数据空间中的两个相邻数据点通过相同的映射或投影变换（projection）后，这两个数据点在新的数据空间中仍然相邻的概率很大，而不相邻的数据点被映射到同一个桶的概率很小。也就是说，如果我们对原始数据进行一些hash映射后，我们希望原先相邻的两个数据能够被hash到相同的桶内，具有相同的桶号。对原始数据集合中所有的数据都进行hash映射后，我们就得到了一个hash table，这些原始数据集被分散到了hash table的桶内，每个桶会落入一些原始数据，属于同一个桶内的数据就有很大可能是相邻的，当然也存在不相邻的数据被hash到了同一个桶内。因此，如果我们能够找到这样一些hash functions，使得经过它们的哈希映射变换后，原始空间中相邻的数据落入相同的桶内的话，那么我们在该数据集合中进行近邻查找就变得容易了，我们只需要将查询数据进行哈希映射得到其桶号，然后取出该桶号对应桶内的所有数据，再进行线性匹配即可查找到与查询数据相邻的数据。换句话说，我们通过hash function映射变换操作，将原始数据集合分成了多个子集合，而每个子集合中的数据间是相邻的且该子集合中的元素个数较小，因此将一个在超大集合内查找相邻元素的问题转化为了在一个很小的集合内查找相邻元素的问题，显然计算量下降了很多。

那具有怎样特点的hash functions才能够使得原本相邻的两个数据点经过hash变换后会落入相同的桶内？这些hash function需要满足以下两个条件：

1）如果d(x,y) ≤ d1，则h(x) = h(y)的概率至少为p1；

2）如果d(x,y) ≥ d2，则h(x) = h(y)的概率至多为p2；

其中d(x,y)表示x和y之间的距离，d1 < d2， h(x)和h(y)分别表示对x和y进行hash变换。

满足以上两个条件的hash functions称为(d1,d2,p1,p2)-sensitive。而通过一个或多个(d1,d2,p1,p2)-sensitive的hash function对原始数据集合进行hashing生成一个或多个hash table的过程称为Locality-sensitive Hashing。

使用LSH进行对海量数据建立索引（Hash table）并通过索引来进行近似最近邻查找的过程如下：

1. 离线建立索引

（1）选取满足(d1,d2,p1,p2)-sensitive的LSH hash functions；

（2）根据对查找结果的准确率（即相邻的数据被查找到的概率）确定hash table的个数L，每个table内的hash functions的个数K，以及跟LSH hash function自身有关的参数；

（3）将所有数据经过LSH hash function哈希到相应的桶内，构成了一个或多个hash table；

2. 在线查找

（1）将查询数据经过LSH hash function哈希得到相应的桶号；

（2）将桶号中对应的数据取出；（为了保证查找速度，通常只需要取出前2L个数据即可）；

（3）计算查询数据与这2L个数据之间的相似度或距离，返回最近邻的数据；

LSH在线查找时间由两个部分组成：（1）通过LSH hash functions计算hash值（桶号）的时间；（2）将查询数据与桶内的数据进行比较计算的时间。因此，LSH的查找时间至少是一个sublinear时间。为什么是“至少”？因为我们可以通过对桶内的属于建立索引来加快匹配速度，这时第（2）部分的耗时就从O(N)变成了O(logN)或O(1)（取决于采用的索引方法）。

LSH为我们提供了一种在海量的高维数据集中查找与查询数据点（query data point）近似最相邻的某个或某些数据点。需要注意的是，LSH并不能保证一定能够查找到与query data point最相邻的数据，而是减少需要匹配的数据点个数的同时保证查找到最近邻的数据点的概率很大。

二、LSH的应用

LSH的应用场景很多，凡是需要进行大量数据之间的相似度（或距离）计算的地方都可以使用LSH来加快查找匹配速度，下面列举一些应用：

（1）查找网络上的重复网页

互联网上由于各式各样的原因（例如转载、抄袭等）会存在很多重复的网页，因此为了提高搜索引擎的检索质量或避免重复建立索引，需要查找出重复的网页，以便进行一些处理。其大致的过程如下：将互联网的文档用一个集合或词袋向量来表征，然后通过一些hash运算来判断两篇文档之间的相似度，常用的有minhash+LSH、simhash。

（2）查找相似新闻网页或文章

与查找重复网页类似，可以通过hash的方法来判断两篇新闻网页或文章是否相似，只不过在表达新闻网页或文章时利用了它们的特点来建立表征该文档的集合。

（3）图像检索

在图像检索领域，每张图片可以由一个或多个特征向量来表达，为了检索出与查询图片相似的图片集合，我们可以对图片数据库中的所有特征向量建立LSH索引，然后通过查找LSH索引来加快检索速度。目前图像检索技术在最近几年得到了较大的发展，有兴趣的读者可以查看基于内容的图像检索引擎的相关介绍。

（4）音乐检索

对于一段音乐或音频信息，我们提取其音频指纹（Audio Fingerprint）来表征该音频片段，采用音频指纹的好处在于其能够保持对音频发生的一些改变的鲁棒性，例如压缩，不同的歌手录制的同一条歌曲等。为了快速检索到与查询音频或歌曲相似的歌曲，我们可以对数据库中的所有歌曲的音频指纹建立LSH索引，然后通过该索引来加快检索速度。

（5）指纹匹配

一个手指指纹通常由一些细节来表征，通过对比较两个手指指纹的细节的相似度就可以确定两个指纹是否相同或相似。类似于图片和音乐检索，我们可以对这些细节特征建立LSH索引，加快指纹的匹配速度。

三、LSH family

我们在第一节介绍了LSH的原理和LSH hash function需要满足的条件，回顾一下：

满足以下两个条件的hash functions称为(d1,d2,p1,p2)-sensitive：

1）如果d(x,y) ≤ d1，则h(x) = h(y)的概率至少为p1；

2）如果d(x,y) ≥ d2，则h(x) = h(y)的概率至多为p2；

d(x,y)是x和y之间的一个距离度量（distance measure），需要说明的是，并不是所有的距离度量都能够找到满足locality-sensitive的hash functions。

下面我们介绍一些满足不同距离度量方式下的locality-sensitive的hash functions：

1. Jaccard distance

Jaccard distance： (1 - Jaccard similarity)，而Jaccard similarity = (A intersection B) / (A union B)，Jaccard similarity通常用来判断两个集合的相似性。

Jaccard distance对应的LSH hash function为：minhash，其是(d1,d2,1-d1,1-d2)-sensitive的。

2. Hamming distance

Hamming distance：两个具有相同长度的向量中对应位置处值不同的次数。

Hamming distance对应的LSH hash function为：H(V) = 向量V的第i位上的值，其是(d1,d2,1-d1/d,1-d2/d)-sensitive

的。

3. Cosine distance

Cosine distance：cos(theta) = A·B / |A||B| ，常用来判断两个向量之间的夹角，夹角越小，表示它们越相似。

Cosine distance对应的LSH hash function为：H(V) = sign(V·R)，R是一个随机向量。V·R可以看做是将V向R上进行投影操作。其是(d1,d2,(180-d1)180,(180-d2)/180)-sensitive的。

理解：利用随机的超平面（random hyperplane）将原始数据空间进行划分，每一个数据被投影后会落入超平面的某一侧，经过多个随机的超平面划分后，原始空间被划分为了很多cell，而位于每个cell内的数据被认为具有很大可能是相邻的（即原始数据之间的cosine distance很小）。

4. normal Euclidean distance

Euclidean distance是衡量D维空间中两个点之间的距离的一种距离度量方式。

Euclidean distance对应的LSH hash function为：H(V) = |V·R + b| / a，R是一个随机向量，a是桶宽，b是一个在[0,a]之间均匀分布的随机变量。V·R可以看做是将V向R上进行投影操作。其是(a/2,2a,1/2,1/3)-sensitive的。

理解：将原始数据空间中的数据投影到一条随机的直线（random line）上，并且该直线由很多长度等于a的线段组成，每一个数据被投影后会落入该直线上的某一个线段上（对应的桶内），将所有数据都投影到直线上后，位于同一个线段内的数据将被认为具有很大可能是相邻的（即原始数据之间的Euclidean distance很小）。

四、增强LSH（Amplifying LSH）

通过LSH hash functions我们能够得到一个或多个hash table，每个桶内的数据之间是近邻的可能性很大。我们希望原本相邻的数据经过LSH hash后，都能够落入到相同的桶内，而不相邻的数据经过LSH hash后，都能够落入到不同的桶中。如果相邻的数据被投影到了不同的桶内，我们称为false negtive；如果不相邻的数据被投影到了相同的桶内，我们称为false positive。因此，我们在使用LSH中，我们希望能够尽量降低false negtive rate和false positive rate。

通常，为了能够增强LSH，即使得false negtive rate和/或false positive rate降低，我们有两个途径来实现：1）在一个hash table内使用更多的LSH hash function；2）建立多个hash table。

下面介绍一些常用的增强LSH的方法：

1. 使用多个独立的hash table

每个hash table由k个LSH hash function创建，每次选用k个LSH hash function（同属于一个LSH function family）就得到了一个hash table，重复多次，即可创建多个hash table。多个hash table的好处在于能够降低false positive rate。

2. AND 与操作

从同一个LSH function family中挑选出k个LSH function，H(X) = H(Y)有且仅当这k个Hi(X) = Hi(Y)都满足。也就是说只有当两个数据的这k个hash值都对应相同时，才会被投影到相同的桶内，只要有一个不满足就不会被投影到同一个桶内。

AND与操作能够使得找到近邻数据的p1概率保持高概率的同时降低p2概率，即降低了falsenegtiverate。

3. OR 或操作

从同一个LSH function family中挑选出k个LSH function，H(X) = H(Y)有且仅当存在一个以上的Hi(X) = Hi(Y)。也就是说只要两个数据的这k个hash值中有一对以上相同时，就会被投影到相同的桶内，只有当这k个hash值都不相同时才不被投影到同一个桶内。

OR或操作能够使得找到近邻数据的p1概率变的更大（越接近1）的同时保持p2概率较小，即降低了false positive rate。

4. AND和OR的级联

将与操作和或操作级联在一起，产生更多的hahs table，这样的好处在于能够使得p1更接近1，而p2更接近0。

除了上面介绍的增强LSH的方法外，有时候我们希望将多个LSH hash function得到的hash值组合起来，在此基础上得到新的hash值，这样做的好处在于减少了存储hash table的空间。下面介绍一些常用方法：

1. 求模运算

new hash value = old hash value % N

2. 随机投影

假设通过k个LSH hash function得到了k个hash值：h1, h2..., hk。那么新的hash值采用如下公式求得：

new hash value = h1*r1 + h2*r2 + ... + hk*rk，其中r1, r2, ..., rk是一些随机数。

3. XOR异或

假设通过k个LSH hash function得到了k个hash值：h1, h2..., hk。那么新的hash值采用如下公式求得：

new hash value = h1 XOR h2 XOR h3 ... XOR hk

五、相关参考资料

Website:

[1] http://people.csail.mit.edu/indyk/ （LSH原作者）
[2] http://www.mit.edu/~andoni/LSH/ (E2LSH)

Paper:

[1] Approximate nearest neighbor: towards removing the curse of dimensionality

[2] Similarity search in high dimensions via hashing

[3] Locality-sensitive hashing scheme based on p-stable distributions

[4] MultiProbe LSH Efficient Indexing for HighDimensional Similarity Search

[5] Near-Optimal Hashing Algorithms for Approximate Nearest Neighbor in High Dimensions

Tutorial:

[1] Locality-Sensitive Hashing for Finding Nearest Neighbors

[2] Approximate Proximity Problems in High Dimensions via Locality-Sensitive Hashing

[3] Similarity Search in High Dimensions

Book:

[1] Mining of Massive Datasets
[2] Nearest Neighbor Methods in Learning and Vision: Theory and Practice

Cdoe:
[1] http://sourceforge.net/projects/lshkit/?source=directory

[2] http://tarsos.0110.be/releases/TarsosLSH/TarsosLSH-0.5/TarsosLSH-0.5-Readme.html

[3] http://www.cse.ohio-state.edu/~kulis/klsh/klsh.htm

[4] http://code.google.com/p/likelike/

[5] https://github.com/yahoo/Optimal-LSH

[6] OpenCV LSH（分别位于legacy module和flann module中）

声明：
作者：icvpr | blog.csdn.net/icvpr

【字节跳动】数据挖掘面试题0005：在旋转有序数组中查找是否存在元素key 言析数智数据挖掘常见面试题算法面试题数据挖掘二分查找法
文章大纲方法思路代码解释问题场景：在“打乱”的有序数组里找数核心思路：每次排除一半可能性分步骤找数（以数组[7,8,9,10,1,2,3]为例，找数字10）再举个反例：找数字5（数组中没有）用“左右有序”的逻辑来总结代码的“人话”翻译为什么时间复杂度是O(logn)？要在旋转后的有序数组中以O(logn)时间复杂度查找元素，可利用二分查找的变体。关键在于确定哪一半数组仍然有序，并判断目标值是否在该
RPC--Netty客户端实现高兴达 rpc java spring
组件一、channelProvider为netty客户端提供可用的通道的组件，本质上就是维护了一个channelMap，为了线程安全，这里用的是concurrentHashMap（有点连接池的意思，有状态感知获取channel时判断channel状态）1、get方法：根据传入的服务地址（如127.0.0.1：9980）查找对应的channel，如果channel已经关闭或者不可用就清理缓存避免使用
【信号去噪】基于NLM时间序列心电信号去噪附matlab代码天天Matlab科研工作室信号处理 Matlab各类代码 matlab 开发语言 fpga开发
1简介作为一种信号预处理手段,信号去噪在众多信号处理应用中发挥着重要的作用.到目前为止,信号去噪问题被大量研究,并取得了许多重要成果,涌现出了包括非局部均值(NLM)去噪算法在内的一批优秀的去噪方法.值得一提的是,相比于传统的局部去噪算法,非局部均值去噪算法有着更好的去噪性能和更好的信号细节保留能力.2部分代码function[denoisedSig,debug]=NLM_1dDarbon(sig
华为OD 机试 2025 B卷 - 相同数字组成图形的周长 (C++ & Python & JAVA & JS & GO) 无限码力华为od 华为OD2025B卷华为OD机试2025B卷华为OD机试华为OD机考2025B卷
相同数字组成图形的周长华为OD机试真题目录点击查看:华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解华为OD机试2025B卷200分题型题目描述有一个64×64的矩阵，每个元素的默认值为0，现在向里面填充数字，相同的数字组成一个实心图形，如下图所示是矩阵的局部（空白表示填充0）：数字1组成了蓝色边框的实心图形，数字2组成了红色边框的实心图形。单元格的边长规定为1个单位。请根据输入，计算
BM6 判断链表中是否有环（牛客）杰克尼数据结构与算法 (Java牛客面试刷题)链表算法数据结构
题目链接判断链表中是否有环_牛客题霸_牛客网题目解题思路法一哈希表(使用HashSet存储出现的指针,如果在此出现说明存在环)法二快慢指针(若快指针追上慢指针,说明存在环)代码法一哈希表importjava.util.*;/***Definitionforsingly-linkedlist.*classListNode{*intval;*ListNodenext;*ListNode(intx){*
【嵌入式ARM汇编基础】-ELF文件格式内部结构详解（四）视觉与物联智能嵌入式Linux与边缘智能 arm开发汇编嵌入式硬件物联网 RK3588
ELF文件格式内部结构详解（四）文章目录ELF文件格式内部结构详解（四）15、ELF程序初始化和终止部分15.1初始化和终止顺序16、线程局部存储16.1本地执行TLS访问模型16.2Initial-ExecTLS访问模型16.3通用动态TLS访问模型16.4本地动态TLS访问模型15、ELF程序初始化和终止部分一旦程序加载到内存中，其依赖关系得到满足，并且已正确重定位并链接到其共享库依赖项，加载
基于“7·20郑州特大暴雨”对空天地一体化通信的思考米朵儿技术屋数字化转型及信息化建设专栏服务器 java 运维
【摘要】针对“7·20郑州特大暴雨”事件中的新型应急救援方式进行了总结与思考，探索了面向应急通信的空天地一体化通信网络的发展思路与方案，并给出了建议。在此次“7·20郑州特大暴雨”的应急通信救援中，地面运营商部署无人机实现了对局部区域的通信恢复，借助卫星通信为通信受阻区域提供语音与短报文服务。作为空天地一体化通信网络不可或缺的一环，无人机与卫星通信成为此次救援中新型且有效的应急通信方式。为了更好地
PPT制作中，如何避免文字过多小马哥编程 powerpoint ppt
在PPT制作中，避免文字过多是提升视觉效果和信息传递效率的关键。以下是具体策略及操作建议，结合内容设计与排版技巧，帮助你打造更简洁直观的演示文稿：一、内容设计：从源头精简文字1.提炼核心信息，拒绝“逐句复制”用关键词代替句子：将段落拆分为核心短语或关键词，例如把“本次市场调研主要分析了消费者对产品价格的敏感度及购买渠道偏好”改为“市场调研：价格敏感度|购买渠道”。遵循“6×6原则”：单页文字不超过
Python 开发法律条文咨询APP Geeker-2025 python
#法律条文咨询APP-Python实现方案我将设计一个基于Python的法律条文咨询应用，提供一个直观的界面让用户轻松查找和浏览法律条文。##设计思路-使用Flask作为后端框架，轻量且高效-SQLite数据库存储法律条文数据-前端使用Bootstrap实现响应式设计-实现关键词搜索和分类浏览功能-提供条文详情展示和书签功能##完整实现代码###文件结构```legal_app/├──app.py
HarmonyOS 数据加密深度实践：守护用户隐私的最后一道防线逻极笔记 harmonyos 鸿蒙 harmonyos 华为鸿蒙 arkts 数据加密加密算法
在当今数字化时代，数据安全已成为用户关注的核心焦点。鸿蒙系统深刻认识到这一点，为开发者精心打造了全面且强大的加密框架和安全存储机制。本文将深入剖析如何巧妙运用鸿蒙的加密技术，全方位保障敏感数据在存储与传输过程中的安全性，为用户隐私构建起坚固的防护壁垒。一、AES-GCM加密算法的实战应用在众多加密算法中，AES-GCM凭借其卓越的高效性和强大的数据完整性保护能力，成为数据加密的优选方案。初始化向量
代码随想录算法训练营第二十一天|回溯算法理论基础，77. 组合丁希希哇力扣算法刷题算法面试 python 力扣数据结构剪枝
系列文章目录代码随想录算法训练营第一天|数组理论基础，704.二分查找，27.移除元素代码随想录算法训练营第二天|977.有序数组的平方，209.长度最小的子数组，59.螺旋矩阵II代码随想录算法训练营第三天|链表理论基础，203.移除链表元素，707.设计链表，206.反转链表代码随想录算法训练营第四天|24.两两交换链表中的节点，19.删除链表的倒数第N个节点，面试题02.07.链表相交，14
网安系列【3】之深入理解内容安全策略（CSP）缘友一世网络安全网络安全 web安全
文章目录一CSP(内容安全策略)二CSP基础：如何实现内容安全策略2.1主要实现方式2.2基本指令解析三简单到复杂：CSP策略示例3.1示例1：最基本的CSP策略3.2示例2：允许特定CDN资源3.3示例3：更复杂的策略四CSP进阶概念4.1非ce与哈希值4.2报告机制五CSP案例5.1案例1：防止XSS攻击5.2案例2：第三方集成5.3案例3：渐进式采用CSP六CSP的局限性七总结一CSP(内容
KNN（K-近邻算法)(上)--day05 扫把星133 机器学习 python 人工智能近邻算法算法
KNN（K-NearestNeighbors，K近邻算法）是一种用于分类和回归的非参数化方法。其基本思想是通过找出与新样本最接近的已标记数据中的K个最近邻居来进行预测或分类。注释：非参数化方法是指在统计学和机器学习中，不对数据分布做出严格假设（这些假设通常包括
C++26 下一代C++标准黑不溜秋的 C++编程专栏 c++开发语言
C++26将是继C++23之后的下一个C++标准。这个新标准对C++进行了重大改进，很可能像C++98、C++11或C++20那样具有划时代的意义。一：C++标准回顾C++已经有40多年的历史了。过去这些年里发生了什么？这里给出一个简化版的答案，直到即将到来的C++26。1.C++98在80年代末，BjarneStroustrup和MargaretA.Ellis编写了著名的《AnnotatedC+
gesp c++ 七级知识点
以下是根据GESPC++七级考试大纲的超详细知识点解析与代码实现，涵盖数学函数、复杂动态规划、图论算法、哈希表等核心内容，每个知识点均包含概念说明、应用场景、使用方法、优缺点及完整代码示例。一、数学库函数1.1三角函数概念：sin(x)、cos(x)、tan(x)分别计算弧度为x的正弦、余弦、正切值。应用场景：几何计算、物理运动模拟、图形学。代码示例：#include#includeusingna
java接受formdata文件上传_java后端发送formdata上传文件大东北精粮尚品
今天想实现java后端发送formdata上传文件，为了以后查找方便，特此记录下来上一次使用WebClient实现远程调用(一个非阻塞、响应式的HTTP客户端，它以响应式被压流的方式执行HTTP请求)查看现在使用的RestTemplateRestTemplate是在客户端访问Restful服务的一个核心类默认使用JDK提供的包去建立HTTP连接为每种HTTP请求都实现了相关的请求封装方法publi
5G URLLC网络中的时间敏感通信：破解工业控制场景的确定性传输困局 LCG元物联网 5G 网络
目录一、工业控制场景三大技术痛点痛点1：运动控制时延波动导致精度崩塌痛点2：极端场景可靠性雪崩痛点3：多租户资源争抢引发确定性失效二、核心方案：双时钟域同步+动态帧抢占✅技术原理1：亚微秒级双时钟域同步✅技术原理2：物理层动态帧抢占三、端到端实施路径步骤1：环境配置（Linux实时内核优化）步骤2：O-RANCU/DU拆分配置（TS代码片段）步骤3：验证指标与压力测试四、边界场景容灾方案场景1：毫
基于Java的蚁群算法深度解析与完整实现一枚码农404 算法 java 算法蚁群算法强化学习优化算法 java算法
基于Java的蚁群算法深度解析与完整实现本文深入剖析蚁群算法（ACO）的核心原理与实现细节，结合旅行商问题（TSP）场景，提供完整的Java代码实现及工程级优化方案。文章从蚂蚁觅食行为的信息素机制出发，详解路径选择概率模型、动态信息素更新策略及参数调优方法。通过面向对象设计构建蚁群算法核心类库，实现包括路径构建、轮盘赌选择、局部/全局信息素更新等关键算法模块，并给出参数动态调整、精英策略、并行化计
【八股学习】MySQL——三大日志、索引 illus10n_CHOU 八股学习 mysql 数据库
首先，三大日志分别是：redolog、binlog、undolog重点也就是如下部分：每个日志的作用、刷盘时机日志redolog作用让MySQL拥有了崩溃恢复能力。比如MySQL实例挂了或宕机了，重启时，InnoDB存储引擎会使用redolog恢复数据，保证数据的持久性与完整性。刷盘时机在查询时，InnoDB会将数据页读入BufferPool以便后续查找，减少磁盘IO。同理，更新数据时，Buffe
Java对象哈希值深度解析小W求学之旅 java 哈希算法 spring
在Java开发中，对象的哈希值（hashCode()）是一个看似基础却暗藏玄机的概念。它不仅影响着HashMap、HashSet等集合框架的性能，还涉及到JVM内存模型和对象相等性判断的核心逻辑。本文将从JVM底层实现、哈希冲突处理、性能优化等多个维度，一起深入理解Java对象哈希值的工作原理。一、JVM如何生成默认哈希值？Java中所有类都继承自Object类，其hashCode()方法是一个本
数据结构与算法：贪心算法的优化案例展示
数据结构与算法：贪心算法的优化案例展示关键词：贪心算法、局部最优、全局最优、活动选择问题、霍夫曼编码、硬币找零、算法优化摘要：贪心算法是计算机科学中最“接地气”的算法思想之一——它像极了我们日常生活中“走一步看一步，每次选当前最好”的决策方式。但这种“短视”的策略为何能在某些问题中得到全局最优解？它的优化边界在哪里？本文将通过5个经典案例，从生活场景到代码实现，一步步拆解贪心算法的核心逻辑与优化技
spring boot + caffeine使用月光一族吖 spring boot spring java
一、Caffeine缓存背景Caffeine是一个高性能、可扩展的Java缓存库，由Google的BenManes开发。Caffeine基于ConcurrentHashMap设计，采用了近似LRU（LeastRecentlyUsed，最近最少使用）算法，以实现高速缓存淘汰策略。Caffeine广泛应用于各类Java项目中，作为一种提高数据读取性能的优秀解决方案。二、Caffeine缓存优点与缺点优
MOBILEVIT: 轻量级、通用且适用于移动设备的视觉Transformer AI专题精讲 Paper阅读 transformer 深度学习人工智能计算机视觉
摘要轻量级卷积神经网络（CNN）是移动视觉任务的事实标准。它们的空间归纳偏置使得它们能够在不同的视觉任务中以较少的参数学习表示。然而，这些网络在空间上是局部的。为了学习全局表示，基于自注意力的视觉Transformer（ViT）被采用。与CNN不同，ViT是重量级的。本文提出了以下问题：是否有可能将CNN和ViT的优势结合起来，构建一个适用于移动视觉任务的轻量级低延迟网络？为此，我们介绍了Mobi
Go语言圣经 - 第8章 Goroutines 和 Channels - 8.4 Channels shiyivei #Go golang 开发语言后端 channel
第8章Goroutines和ChannelsGo语言中的并发程序可以用两种手段来实现：goroutine和channel，其支持顺序通信进程，或被简称为CSP，CSP是一种并发编程模型，在这种并发编程模型中，值会在不同运行实例中传递，第二个手段便是多线程共享内存8.4Channels我们可以把goroutine看成并发体，把channel看成它们之间的通信机制，有了这个，独立的goroutine可
《Go语言圣经》无缓存channel和带缓存channel 爱吃芝麻汤圆 #《Go语言圣经》golang 缓存
《Go语言圣经》无缓存channel和带缓存channelChannel分为两种：带缓冲、不带缓冲。对不带缓冲的channel进行的操作实际上可以看作“同步模式”，带缓冲的则称为“异步模式”。无缓冲通道示例（同步模式）无缓冲通道要求发送和接收操作必须同时准备好，否则会阻塞当前协程。以下是一个简单的生产者-消费者示例：packagemainimport"fmt"funcmain(){ch:=make
mysql索引的底层原理是什么？如何回答？周勇政 mysql 数据库 java
MySQL索引的底层原理是数据库面试中的高频问题，以下是通俗易懂的回答框架：1.索引的本质（用类比解释）类比：数据库索引就像书的目录，它不会改变书的内容，但可以让你快速定位到具体章节，而不需要逐页翻书。关键点：索引是一种数据结构（如B+树），存储了表中某些列的值和对应的行地址索引本身会占用存储空间，但能显著提升查询速度类比书架分类法：按书名首字母排序比乱序查找更快2.B+树结构（重点解释）类比：多
C 安全函数 AI老李 C语言 c语言安全网络
关键要点研究表明，C安全函数是C11标准引入的函数，旨在提高代码安全性，特别是在防止缓冲区溢出方面。证据显示，这些函数通过增加缓冲区大小检查和返回错误码，提供比传统函数更安全的操作。它似乎很可能在字符串和内存操作中广泛应用，如strcpy_s和memcpy_s。什么是C安全函数？C安全函数是C11标准（AnnexK）引入的一组函数，旨在增强C语言程序的安全性，特别是在处理字符串和内存操作时防止缓冲
【加解密与C】HASH系列(三）SM3 阿捏利加解密与C 哈希算法 c语言算法 SM3
SM3算法简介SM3是中国国家密码管理局发布的密码杂凑算法标准，属于商用密码体系中的哈希算法。其输出为256位（32字节）固定长度的哈希值，安全性对标国际通用的SHA-256，但设计更注重抗碰撞性和效率，适用于数字签名、消息认证等场景。SM3算法特点输出长度：256位。分组处理：输入消息按512位分组处理。填充规则：采用Merkle-Damgård结构，填充方式与SHA-256类似（附加比特"1"
Odoo 中国特色高级工作流审批模块研发源力祁老师 odoo最佳业务实践学习方法人工智能自动化开发语言
本文旨在为基于Odoo18平台开发一款符合中国用户习惯的、功能强大的通用工作流审批模块提供一份全面的技术实现与产品设计方案。该模块的核心特性包括：为最终用户设计的图形化流程设计器、对任意Odoo模型的普适性、复杂的审批节点逻辑（如会签、条件分支、汇报线查找）、流程中动态操作（如加签、转签），以及与钉钉、企业微信的深度无缝集成。将从系统总体架构出发，深入探讨工作流引擎核心、图形化设计器实现、高级审批
3、无重复字符的最长子串椎名ひる #滑动窗口 leetcode leetcode 算法
题目：解答：划窗。创建哈希表来存储字母出现个数。两个指针left、right来表示窗口前后边界。遍历右指针，每次将右指针的字符对应的哈希表value++。然后判断该key的value是否大于1，如果大于1意味着有重复字符了，将左指针右移弹出一个字符，该字符的value--，重复这个步骤直到right指向的字符的value为1，即是该right边界的最大可能字符串。然后更新ans，ans=max(a
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY [email protected] 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa

局部敏感哈希(Locality-Sensitive Hashing, LSH)方法介绍

你可能感兴趣的:(LSH,ann,局部敏感哈希,近似近邻查找)