wenyusuran

局部敏感哈希(Locality-Sensitive Hashing, LSH)方法介绍

局部敏感哈希(Locality Sensitive Hashing)

    计算item之间的相似项，计算item的top M最相似item，协同过滤计算(user based或item based)等等计算中，涉及大量两两相似项计算，计算复杂度为o(n²k)，其中n为item量级，k为元素维度量级。即使hadoop和mpi使得模型可在多个机器或处理器协同计算，在处理o(n)，nlog(n)复杂度问题时，如鱼得水。但是不说指数级的复杂度，对于m≥2的多项式级复杂度，都是一种对机器的亵渎，也成为了不是一般人或公司能玩得起的东东。

    局部敏感哈希(Locality Sensitive Hashing, LSH)通过哈希方法，缩小两两相似(top)计算的范围，或缩小计算中item的维数，从而达到快速计算相似度的方法。使复杂度变为o(nml)，其中n为item的量级，m<<n为新的搜索空间，类似于分支限界中的分支，l<<k，类似于降维处理。

    由于笔者常关注于个性化推荐的top M服务，本文所述也主要用于此，但不限于此。

1 Jaccard相似度

Jaccard相似度计算十分便于计算离散集合之间的相似度，在个性化推荐中应用极广。Jaccard的相似度计算如图1所示，其中S和T的相似度为J(S,T)=3/8。

图1 Jaccard相似度计算

PS：大量连续的相似度计算，也可以转成Jaccard相似度计算，在此不述。

2 Simhash

Simhash主要做用是使复杂度o(nml)中，使m<<n，即大幅减小搜索空间的作用。例如计算item a的近临(top M)时，只搜索一个特定的近临空间m，而非整个庞大的n空间。

Simhash是通过设计一个hash方法，使要内容相近item生的hash签名也相近，hash签名的相近程度，也能反映出item间的相似程度。

Simhash算法如下：

假设item={item1,item2,…}，取hash函数，将item的每一个元素hash成一个M位的int签名值，将int值按二进制表示，0处全表示为-1，记为H，将所有按位相加，最后加正的位为1，为负的位值为0，这就是item最后的simhash结果。这样就可以使相似的item有相近的hash值。

举例说明如下，假设item a ={1,2,3,4}, item b={1,2,3,5}, h(x)=x%8，M=3，有如图2中的结果，item a的sim hash值为(0,0,1,0)，item b的sim hash值为(0,0,1,1)，可见两者的sim hash值相似,通过两者的汉明码计算，便可以用汉明码来衡量两者的相似程度。

图2 simhash计算

从降维的脚度看，通过将item预处理为simhash值后，通过计算两者的汉明距离计算相似度。可惜汉明距离并不能完全表征两者的实际相似程度，因而simhash常用于缩小搜索空间，计算item a的top M相似item时，搜索限为汉明距离最近的空间中。例如假设hash在64位，共将有2⁶⁴个hash桶，将所有item预先按hash桶建好索引后，计算item a的top M或满足某域值的相似item时，可从最近的hash桶中搜索，最近的桶为本桶中的其它item，其次为1位不同的其它hash桶，共64个，再次为2位不同的桶，共64*64个…

3 Minhash

Minhash主要做用是使复杂度o(nml)中，使l<<k，即减小计算两两相似度计算的维数。

由第1节可知，计算J(S,T)的关键在于计算S∩T或S∪T。直接求S∩T或S∪T，在有序的归并方法中，复杂度也是k的级别。Minhash的目的是降维，主要原理是两集合经随机转换后得到的两个最小hash值相等的概率等于两集合的Jaccard的相似度！(可以枚举出相应结果)。

由于只取一个hash函数时，只有相等与不等两个结果，对应于原理，也就只有相似与不相似不个结果。取一系列hash函数后，便可以概率性地统计出结果，而取hash函数的个数据，决定将k降维后的维数l，l越大，相似结果与实际相似度越相近，一般10个左右就已经能满足工程需求。

这样数据预处理完后，计算两item间的复杂度，就等于计算最小Minhash相同的概率了。

PS：在工程中，不容易找一系列的hash函数，由hash母函数生成的一系列hash函数可能相关，将降低Minhash的经度。

4 优势与局限性

Simhash和Minhash都有明显的应用局限性：

1、集合中的item要比较多；

2、所求的相关项要比较相似；

优势：

1、简化复杂相似项计算；

2、原理易于理解，点破后，给人显而易见的感觉。

参考：

Similarity estimation techniques from rounding algorithms；

Mining of Massive Datasets；

本文主要介绍一种用于海量高维数据的近似最近邻快速查找技术——局部敏感哈希(Locality-Sensitive Hashing, LSH)，内容包括了LSH的原理、LSH哈希函数集、以及LSH的一些参考资料。

一、局部敏感哈希LSH

在很多应用领域中，我们面对和需要处理的数据往往是海量并且具有很高的维度，怎样快速地从海量的高维数据集合中找到与某个数据最相似（距离最近）的一个数据或多个数据成为了一个难点和问题。如果是低维的小数据集，我们通过线性查找（Linear Search）就可以容易解决，但如果是对一个海量的高维数据集采用线性查找匹配的话，会非常耗时，因此，为了解决该问题，我们需要采用一些类似索引的技术来加快查找过程，通常这类技术称为最近邻查找（Nearest Neighbor,AN），例如K-d tree；或近似最近邻查找（Approximate Nearest Neighbor, ANN），例如K-d tree with BBF, Randomized Kd-trees, Hierarchical K-means Tree。而LSH是ANN中的一类方法。

我们知道，通过建立Hash Table的方式我们能够得到O(1)的查找时间性能，其中关键在于选取一个hash function，将原始数据映射到相对应的桶内（bucket, hash bin），例如对数据求模：h = x mod w，w通常为一个素数。在对数据集进行hash 的过程中，会发生不同的数据被映射到了同一个桶中（即发生了冲突collision），这一般通过再次哈希将数据映射到其他空桶内来解决。这是普通Hash方法或者叫传统Hash方法，其与LSH有些不同之处。

局部敏感哈希示意图（from: Piotr Indyk）

LSH的基本思想是：将原始数据空间中的两个相邻数据点通过相同的映射或投影变换（projection）后，这两个数据点在新的数据空间中仍然相邻的概率很大，而不相邻的数据点被映射到同一个桶的概率很小。也就是说，如果我们对原始数据进行一些hash映射后，我们希望原先相邻的两个数据能够被hash到相同的桶内，具有相同的桶号。对原始数据集合中所有的数据都进行hash映射后，我们就得到了一个hash table，这些原始数据集被分散到了hash table的桶内，每个桶会落入一些原始数据，属于同一个桶内的数据就有很大可能是相邻的，当然也存在不相邻的数据被hash到了同一个桶内。因此，如果我们能够找到这样一些hash functions，使得经过它们的哈希映射变换后，原始空间中相邻的数据落入相同的桶内的话，那么我们在该数据集合中进行近邻查找就变得容易了，我们只需要将查询数据进行哈希映射得到其桶号，然后取出该桶号对应桶内的所有数据，再进行线性匹配即可查找到与查询数据相邻的数据。换句话说，我们通过hash function映射变换操作，将原始数据集合分成了多个子集合，而每个子集合中的数据间是相邻的且该子集合中的元素个数较小，因此将一个在超大集合内查找相邻元素的问题转化为了在一个很小的集合内查找相邻元素的问题，显然计算量下降了很多。

那具有怎样特点的hash functions才能够使得原本相邻的两个数据点经过hash变换后会落入相同的桶内？这些hash function需要满足以下两个条件：

1）如果d(x,y) ≤ d1，则h(x) = h(y)的概率至少为p1；

2）如果d(x,y) ≥ d2，则h(x) = h(y)的概率至多为p2；

其中d(x,y)表示x和y之间的距离，d1 < d2， h(x)和h(y)分别表示对x和y进行hash变换。

满足以上两个条件的hash functions称为(d1,d2,p1,p2)-sensitive。而通过一个或多个(d1,d2,p1,p2)-sensitive的hash function对原始数据集合进行hashing生成一个或多个hash table的过程称为Locality-sensitive Hashing。

使用LSH进行对海量数据建立索引（Hash table）并通过索引来进行近似最近邻查找的过程如下：

1. 离线建立索引

（1）选取满足(d1,d2,p1,p2)-sensitive的LSH hash functions；

（2）根据对查找结果的准确率（即相邻的数据被查找到的概率）确定hash table的个数L，每个table内的hash functions的个数K，以及跟LSH hash function自身有关的参数；

（3）将所有数据经过LSH hash function哈希到相应的桶内，构成了一个或多个hash table；

2. 在线查找

（1）将查询数据经过LSH hash function哈希得到相应的桶号；

（2）将桶号中对应的数据取出；（为了保证查找速度，通常只需要取出前2L个数据即可）；

（3）计算查询数据与这2L个数据之间的相似度或距离，返回最近邻的数据；

LSH在线查找时间由两个部分组成：（1）通过LSH hash functions计算hash值（桶号）的时间；（2）将查询数据与桶内的数据进行比较计算的时间。因此，LSH的查找时间至少是一个sublinear时间。为什么是“至少”？因为我们可以通过对桶内的属于建立索引来加快匹配速度，这时第（2）部分的耗时就从O(N)变成了O(logN)或O(1)（取决于采用的索引方法）。

LSH为我们提供了一种在海量的高维数据集中查找与查询数据点（query data point）近似最相邻的某个或某些数据点。需要注意的是，LSH并不能保证一定能够查找到与query data point最相邻的数据，而是减少需要匹配的数据点个数的同时保证查找到最近邻的数据点的概率很大。

二、LSH的应用

LSH的应用场景很多，凡是需要进行大量数据之间的相似度（或距离）计算的地方都可以使用LSH来加快查找匹配速度，下面列举一些应用：

（1）查找网络上的重复网页

互联网上由于各式各样的原因（例如转载、抄袭等）会存在很多重复的网页，因此为了提高搜索引擎的检索质量或避免重复建立索引，需要查找出重复的网页，以便进行一些处理。其大致的过程如下：将互联网的文档用一个集合或词袋向量来表征，然后通过一些hash运算来判断两篇文档之间的相似度，常用的有minhash+LSH、simhash。

（2）查找相似新闻网页或文章

与查找重复网页类似，可以通过hash的方法来判断两篇新闻网页或文章是否相似，只不过在表达新闻网页或文章时利用了它们的特点来建立表征该文档的集合。

（3）图像检索

在图像检索领域，每张图片可以由一个或多个特征向量来表达，为了检索出与查询图片相似的图片集合，我们可以对图片数据库中的所有特征向量建立LSH索引，然后通过查找LSH索引来加快检索速度。目前图像检索技术在最近几年得到了较大的发展，有兴趣的读者可以查看基于内容的图像检索引擎的相关介绍。

（4）音乐检索

对于一段音乐或音频信息，我们提取其音频指纹（Audio Fingerprint）来表征该音频片段，采用音频指纹的好处在于其能够保持对音频发生的一些改变的鲁棒性，例如压缩，不同的歌手录制的同一条歌曲等。为了快速检索到与查询音频或歌曲相似的歌曲，我们可以对数据库中的所有歌曲的音频指纹建立LSH索引，然后通过该索引来加快检索速度。

（5）指纹匹配

一个手指指纹通常由一些细节来表征，通过对比较两个手指指纹的细节的相似度就可以确定两个指纹是否相同或相似。类似于图片和音乐检索，我们可以对这些细节特征建立LSH索引，加快指纹的匹配速度。

三、LSH family

我们在第一节介绍了LSH的原理和LSH hash function需要满足的条件，回顾一下：

满足以下两个条件的hash functions称为(d1,d2,p1,p2)-sensitive：

1）如果d(x,y) ≤ d1，则h(x) = h(y)的概率至少为p1；

2）如果d(x,y) ≥ d2，则h(x) = h(y)的概率至多为p2；

d(x,y)是x和y之间的一个距离度量（distance measure），需要说明的是，并不是所有的距离度量都能够找到满足locality-sensitive的hash functions。

下面我们介绍一些满足不同距离度量方式下的locality-sensitive的hash functions：

1. Jaccard distance

Jaccard distance： (1 - Jaccard similarity)，而Jaccard similarity = (A intersection B) / (A union B)，Jaccard similarity通常用来判断两个集合的相似性。

Jaccard distance对应的LSH hash function为：minhash，其是(d1,d2,1-d1,1-d2)-sensitive的。

2. Hamming distance

Hamming distance：两个具有相同长度的向量中对应位置处值不同的次数。

Hamming distance对应的LSH hash function为：H(V) = 向量V的第i位上的值，其是(d1,d2,1-d1/d,1-d2/d)-sensitive

的。

3. Cosine distance

Cosine distance：cos(theta) = A·B / |A||B| ，常用来判断两个向量之间的夹角，夹角越小，表示它们越相似。

Cosine distance对应的LSH hash function为：H(V) = sign(V·R)，R是一个随机向量。V·R可以看做是将V向R上进行投影操作。其是(d1,d2,(180-d1)180,(180-d2)/180)-sensitive的。

理解：利用随机的超平面（random hyperplane）将原始数据空间进行划分，每一个数据被投影后会落入超平面的某一侧，经过多个随机的超平面划分后，原始空间被划分为了很多cell，而位于每个cell内的数据被认为具有很大可能是相邻的（即原始数据之间的cosine distance很小）。

4. normal Euclidean distance

Euclidean distance是衡量D维空间中两个点之间的距离的一种距离度量方式。

Euclidean distance对应的LSH hash function为：H(V) = |V·R + b| / a，R是一个随机向量，a是桶宽，b是一个在[0,a]之间均匀分布的随机变量。V·R可以看做是将V向R上进行投影操作。其是(a/2,2a,1/2,1/3)-sensitive的。

理解：将原始数据空间中的数据投影到一条随机的直线（random line）上，并且该直线由很多长度等于a的线段组成，每一个数据被投影后会落入该直线上的某一个线段上（对应的桶内），将所有数据都投影到直线上后，位于同一个线段内的数据将被认为具有很大可能是相邻的（即原始数据之间的Euclidean distance很小）。

四、增强LSH（Amplifying LSH）

通过LSH hash functions我们能够得到一个或多个hash table，每个桶内的数据之间是近邻的可能性很大。我们希望原本相邻的数据经过LSH hash后，都能够落入到相同的桶内，而不相邻的数据经过LSH hash后，都能够落入到不同的桶中。如果相邻的数据被投影到了不同的桶内，我们称为false negtive；如果不相邻的数据被投影到了相同的桶内，我们称为false positive。因此，我们在使用LSH中，我们希望能够尽量降低false negtive rate和false positive rate。

通常，为了能够增强LSH，即使得false negtive rate和/或false positive rate降低，我们有两个途径来实现：1）在一个hash table内使用更多的LSH hash function；2）建立多个hash table。

下面介绍一些常用的增强LSH的方法：

1. 使用多个独立的hash table

每个hash table由k个LSH hash function创建，每次选用k个LSH hash function（同属于一个LSH function family）就得到了一个hash table，重复多次，即可创建多个hash table。多个hash table的好处在于能够降低false positive rate。

2. AND 与操作

从同一个LSH function family中挑选出k个LSH function，H(X) = H(Y)有且仅当这k个Hi(X) = Hi(Y)都满足。也就是说只有当两个数据的这k个hash值都对应相同时，才会被投影到相同的桶内，只要有一个不满足就不会被投影到同一个桶内。

AND与操作能够使得找到近邻数据的p1概率保持高概率的同时降低p2概率，即降低了falsenegtiverate。

3. OR 或操作

从同一个LSH function family中挑选出k个LSH function，H(X) = H(Y)有且仅当存在一个以上的Hi(X) = Hi(Y)。也就是说只要两个数据的这k个hash值中有一对以上相同时，就会被投影到相同的桶内，只有当这k个hash值都不相同时才不被投影到同一个桶内。

OR或操作能够使得找到近邻数据的p1概率变的更大（越接近1）的同时保持p2概率较小，即降低了false positive rate。

4. AND和OR的级联

将与操作和或操作级联在一起，产生更多的hahs table，这样的好处在于能够使得p1更接近1，而p2更接近0。

除了上面介绍的增强LSH的方法外，有时候我们希望将多个LSH hash function得到的hash值组合起来，在此基础上得到新的hash值，这样做的好处在于减少了存储hash table的空间。下面介绍一些常用方法：

1. 求模运算

new hash value = old hash value % N

2. 随机投影

假设通过k个LSH hash function得到了k个hash值：h1, h2..., hk。那么新的hash值采用如下公式求得：

new hash value = h1*r1 + h2*r2 + ... + hk*rk，其中r1, r2, ..., rk是一些随机数。

3. XOR异或

假设通过k个LSH hash function得到了k个hash值：h1, h2..., hk。那么新的hash值采用如下公式求得：

new hash value = h1 XOR h2 XOR h3 ... XOR hk

五、相关参考资料

Website:

[1] http://people.csail.mit.edu/indyk/ （LSH原作者）

[2] http://www.mit.edu/~andoni/LSH/ (E2LSH)

Paper:

[1] Approximate nearest neighbor: towards removing the curse of dimensionality

[2] Similarity search in high dimensions via hashing

[3] Locality-sensitive hashing scheme based on p-stable distributions

[4] MultiProbe LSH Efficient Indexing for HighDimensional Similarity Search

[5] Near-Optimal Hashing Algorithms for Approximate Nearest Neighbor in High Dimensions

Tutorial:

[1] Locality-Sensitive Hashing for Finding Nearest Neighbors

[2] Approximate Proximity Problems in High Dimensions via Locality-Sensitive Hashing

[3] Similarity Search in High Dimensions

Book:

[1] Mining of Massive Datasets
[2] Nearest Neighbor Methods in Learning and Vision: Theory and Practice

Cdoe:

[1] http://sourceforge.net/projects/lshkit/?source=directory

[2] http://tarsos.0110.be/releases/TarsosLSH/TarsosLSH-0.5/TarsosLSH-0.5-Readme.html

[3] http://www.cse.ohio-state.edu/~kulis/klsh/klsh.htm

[4] http://code.google.com/p/likelike/

[5] https://github.com/yahoo/Optimal-LSH

[6] OpenCV LSH（分别位于legacy module和flann module中）

Hightec生成tricore lib及lib的使用方法赞哥哥s Autosar笔记 autosar tc37x hightec
文章目录前言使用tricore-ar生成liboptionmodifier生成lib示例解压lib示例lib的使用总结前言之前介绍过GHS生成lib及使用lib的方法，链接：使用Greenhills生成Lib并使用Lib的两种方法本文基于TC3xx介绍Hightec生成lib及使用lib的方法,其他芯片也可以参考使用tricore-ar生成lib查阅HightecTricore编译器使用手册，知道
【企业管理】研发管理之产品生命周期管理 flyair_China 企业管理研发管理产品经理
一、产品生命周期管理的体系化方法与思路1.全周期管理框架四阶段模型：导入期（市场验证）、成长期（规模扩张）、成熟期（利润优化）、衰退期（战略退出）。核心流程：需求分析：通过市场调研与用户画像精准定位需求（如特斯拉ModelS导入期的高端定位）。研发协同：采用敏捷开发（Scrum/Kanban）与模块化设计，缩短研发周期（如华为硬件迭代效率提升30%）。生产与供应链：数字化供应链管理（如西门子工业4
单片机_no target connected问题解决方法一条破秋裤单片机问题总结单片机嵌入式硬件 stm32
问题01---notargetconnected解决方法此问题是在烧录呼吸灯程序时产生，可能因定时器配置错误导致。（定时器，PWM）
【网络安全】对称密码体制 Hacker_xingchen web安全安全网络
1.对称密码体制概述1.1定义与特点对称密码体制，也称为单钥密码体制，是一种加密方法，其中加密和解密过程使用相同的密钥。这种加密方式的主要特点包括简单、高效和计算速度快，适合于大量数据的快速加密和解密。对称密码体制的安全性完全依赖于密钥的保密性，一旦密钥被泄露，加密的安全性就会受到威胁。效率：对称密码算法通常比非对称密码算法要快，因为它们的算法结构相对简单，计算量较小。密钥管理：对称密码体制的密钥
并发编程——并发基础：守护线程和非守护线程 zlj1217 并发编程 java 后台线程守护线程并发基础
前言最近在复习的时候，发现一个运行线程池拒绝策略demo中的main方法在运行了之后，进程并没有关闭。看了jconsole线程池中的线程都处于waiting状态。这里是跟我设置线程池的线程工厂中的设置线程是否为后台线程有关。后台线程和非后台线程后台线程，也叫守护线程，指的是在程序运行的时候后台提供一种通用服务的线程，比如jvm里垃圾回收线程，这种线程并不属于程序中不可或缺的部分。因此，当所有的非守
【AI大模型】Spring AI 基于Redis实现对话持久存储详解小码农叔叔 AI 大模型应用到项目实战高手 springboot 入门到精通项目实战 Spring AI会话存储 Spring AI会话记忆 Spring AI持久化会话 Spring AI会话持久化 Spring AI会话 Spring AI记忆
目录一、前言二、SpringAI会话记忆介绍2.1SpringAI会话记忆概述2.2常用的会话记忆实现方式2.2.1集成数据库持久存储会话实现步骤2.3适用场景三、SpringAI基于内存会话记忆存储3.1本地开发环境准备3.2工程搭建与集成3.2.1添加核心依赖3.3.2添加配置文件3.3.3添加测试接口3.2ChatMemory介绍3.2.1ChatMemory概述3.2.2InMemoryC
【AI智能体】Coze 搭建个人旅游规划助手实战详解小码农叔叔 AI 大模型应用到项目实战高手 AI 智能体实战应用高手 Coze制作旅游规划助手 Coze 制作旅游规划机器人 coze搭建旅游助手 coze搭建旅游助手机器人 coze制作旅游助手 coze 机器人 coze使用详解
目录一、前言二、Coze工作流介绍2.1什么是工作流2.2Coze工作流作用2.3Coze工作流节点介绍2.3.1开始节点2.3.2大模型节点2.3.3插件节点2.3.4知识库节点2.3.5条件节点三、基于Coze搭建旅游规划助手操作过程3.1创建应用3.2创建工作流3.2.1创建工作流3.2.2配置工作流3.2.2.1配置开始节点3.2.2.2增加第一个大模型节点3.2.2.3增加第二个大模型节
【AI智能体】Spring AI MCP 服务常用开发模式实战详解小码农叔叔 AI 大模型应用到项目实战高手 springboot 项目实战到高手 Spring AI MCP MCP 详解 springboot使用mcp mcp使用详解 mcp开发模式 mcp MCP使用
目录一、前言二、MCP介绍2.1MCP是什么2.2MCP核心特点2.3SpringAIMCP介绍2.3.1SpringAIMCP架构2.3.2SpringAIMCP分层说明2.4两种模式介绍三、本地开发SSE模式3.1搭建mcp-server3.1.1导入工程核心依赖3.1.2添加配置文件3.1.3提供两个Tool3.1.4注册Tool3.2搭建mcp-client3.2.1导入核心依赖3.2.2
学习日记-spring-day37-6.25 永日45670 学习日记学习 spring java
知识点：1.使用utillist进行配置知识点核心内容重点Spring框架中utl名称空间创建List通过utl名称空间创建并管理集合对象，实现数据复用utllist与普通list赋值的区别;名称空间引入方法无参构造器使用规则当类中没有其他构造器时，默认无参构造器可不写；若有其他构造器则必须显式定义无参构造器构造器覆盖机制;显式定义的必要性XML名称空间引入使用alt+enter自动引入或手动添加
线程状态,优先级，守护线程基础详解黑白极客 java java 多线程并发编程队列后端
线程状态,优先级，守护线程基础详解线程状态停止线程线程休眠线程礼让线程强制执行线程状态检测线程的优先级守护线程线程同步线程状态创建状态（new之后就是创建状态就绪状态（调用start方法之后调用状态（cpu调度之后阻塞状态（当调用sleep，wait，或同步锁时，线程进入阻塞状态，就是代码不往下执行。阻塞状态接触后，重新进入就绪状态，等待cpu的调度。）死亡状态（线程中断或者结束，一旦进入死亡状态
spring05-Spring核心：AOP面向切面编程 ruleslol spring spring
一、什么是AOP？AOP是为了解决“横切关注点”问题的一种编程范式。在一个项目中，有很多功能不是业务核心逻辑，但又会反复出现在多个地方，例如：日志记录权限校验登录状态检查统计耗时异常处理这些逻辑与“业务方法”不在一个维度上，但又必须“附着在”业务方法上。AOP就是用来把这些“通用功能”抽出来，统一管理和复用的。1、案例背景有一个登录流程，希望在不修改源代码的情况下，添加权限判断模块，使得用户在校验
基于PaddleOCR的表格识别系统开发 pk_xz123456 仿真模型深度学习算法深度学习开发语言分类安全 cnn
基于PaddleOCR的表格识别系统开发1.项目概述本项目旨在使用PaddleOCR框架开发一个高性能的表格识别系统，能够准确识别约30种不同类型的表格结构。系统将处理2500张合成表格图像作为训练数据，并在合成测试集上进行评估。系统核心功能包括表格检测、表格结构识别和表格内容识别三部分。1.1项目背景表格是信息传递的重要载体，广泛存在于各类文档中。传统表格识别方法需要复杂的规则和模板，而基于深度
spring —— 使用 JDBCTemplate 对数据库操作张民遇 spring 数据库 spring oracle
在传统方法中，我们一般建立Connection链接，然后通过Statementstm=conn.createStatement()来获取Statement对象，最后用Statement对象操作数据库。在spring中，则是通过com.alibaba的druid配置数据源工具，来配置要连接的数据库，然后将配置好的数据源作为属性传入JDBCTemplate对象当中，最后用JDBCTemplate对象操
口罩检测数据集-1591张图片疫情防控管理智能门禁系统公共场所安全监控 cver123 数据集目标跟踪人工智能计算机视觉目标检测 pytorch
口罩检测数据集-1591张图片已发布目标检测数据集合集（持续更新）口罩检测数据集介绍数据集概览包含类别应用场景数据样本展示文件结构与使用建议使用建议技术标签YOLOv8训练实战1.环境配置安装YOLOv8官方库ultralytics2.数据准备2.1数据标注格式（YOLO）2.2文件结构示例2.3创建data.yaml配置文件3.模型训练关键参数补充说明：4.模型验证与测试4.1验证模型性能关键参
分享16个精美网站后台登录注册页面源码总有几款适合你全栈软件开发源码分享登录页面下载登录页源码
内容目录一、详细介绍二、效果展示1.部分代码2.效果图展示三、学习资料下载一、详细介绍在开发网站后台系统时，登录注册页面作为用户与系统交互的第一步，其设计的好坏直接影响用户体验。一个美观、易用的登录注册页面能够提升用户对系统的好感度和信任度。今天，就给大家分享16个不同风格的网站后台登录注册页面源码，希望能为你的项目开发提供灵感和帮助。二、效果展示1.部分代码代码如下（示例）：LTRRTLLogi
[ACTF2020 新生赛]Include1详细解题思路櫻九.923 安全
1.点击查看出现了这个2.F12查看源代码3.没有发现没有有用信息时返回上一级查看源代码（要细心查看每一个界面的源代码，去寻找漏洞，顺势找到flag4.发现包含了一个PHP文件，那我们接下来就需要了解相应的知识了PHP伪协议（PHP定义的一种特殊访问资源的方法）⭐️PHP伪协议详解-CSDN博客1.伪协议成功执行需要一些条件在满足条件的情况下根据相应的类型，所对应的方法进行查看2.5.输入相应的编
C++魔塔基础版偶尔贪玩的骑士 c++游戏
魔塔是一款经典的策略类游戏。本文将基于C++与EasyX图形库，实现魔塔的基础改编版，相较于原版，增加了升级、血量上限等功能，设计了四层地图与出乎意料的结局，并合理安排数值，使游戏趣味性与挑战性兼备。一点小小的建议：如果想要自己独自实现魔塔，可以先实现控制台版本，再图形化、插入音乐。文章难免有疏漏失误，还请读者指出。本文重点不在于详细介绍实现魔塔的各种技术细节，想要根据本文实现自己的魔塔，必然需要
ASPICE评估：汽车软件质量的守护神亚远景aspice 汽车
随着汽车行业的快速发展，车载软件系统的复杂性和重要性日益凸显。为了确保汽车软件的质量和安全性，汽车行业引入了ASPICE（AutomotiveSPICE）评估作为评价软件开发团队研发能力的重要工具。本文将详细介绍ASPICE评估的概念、过程及其在汽车软件开发中的重要作用。一、ASPICE评估概述ASPICE，即“汽车软件过程改进及能力评定”，是汽车行业用于评价软件开发团队研发能力水平的模型框架。它
【学习】《算法图解》第七章学习笔记：树程序员
前言在前面的章节中，我们学习了数组、链表、散列表等基本数据结构，以及一些基础算法。本章将介绍一种非常重要的数据结构——树(Tree)，特别是二叉搜索树(BinarySearchTree)。树结构在计算机科学中应用广泛，从文件系统到数据库再到人工智能，都能看到树的身影。《算法图解》第七章深入浅出地介绍了树的基本概念、实现和应用，帮助读者理解这一关键数据结构。一、树的基本概念（一）什么是树树是一种分层
基于OpenCV图像分割与PyTorch的增强图像分类方案从零开始学习人工智能 opencv pytorch 分类
在图像分类任务中，背景噪声和复杂场景常常会对分类准确率产生负面影响。为了应对这一挑战，本文介绍了一种结合OpenCV图像分割与PyTorch深度学习框架的增强图像分类方案。通过先对图像进行分割提取感兴趣区域（RegionofInterest，ROI），再进行分类，可以有效减少背景干扰，突出关键特征，从而提高分类准确率。该方案在多种复杂场景下表现出色，尤其适用于图像背景复杂或包含多个对象的情况。一、
OpenCV 三维重建实战：从工业检测到自动驾驶，3 大场景代码全解析从零开始学习人工智能 opencv 自动驾驶数码相机
：工业零部件三维建模与检测案例背景：在汽车制造工厂，对于复杂形状的发动机零部件质量检测与逆向工程需求，需要高精度的三维模型。传统检测方法效率低且精度有限，而三维重建技术可快速获取零部件三维信息，实现高效检测与设计优化。技术实现：使用多个相机从不同角度拍摄零部件，利用calib3d模块进行相机标定，获取准确的相机内参和外参。通过特征点检测与匹配算法（如SIFT、ORB等）找到不同图像间的对应点，再用
python里面的单引号，双引号以及三引号的介绍 scuter_yu python python 单引号双引号以及三引号
第一次在csdn上写博客，内心有点小激动。该怎么表达我此刻的心情呢？哎呀，让我来唱一首《小苹果》吧。“你是我的小呀小苹果……balabala”！好啦，疯言疯语过后还是赶快进入主题吧。我今天要讲得是python里面的单引号（‘’），双引号（“”）以及三引号（“““”””）的区别。相信刚接触的python的朋友都会遇到这样的一个困惑，就是对单引号（‘’），双引号（“”）以及三引号（“““”””）的使用
从优劣势看：主流AI代码辅助工具 scuter_yu 人工智能
在当今数字化时代，AI代码编程工具已成为提升开发效率、优化代码质量的重要助手。本文将详细介绍几款热门的AI代码编程工具，包括通义灵码、Trae、腾讯云代码助手CodeBuddy、GitHubCopilot、Codeium和Cursor，从优缺点两方面进行分析，帮助开发者更好地选择适合自己的工具。通义灵码一句话介绍：通义灵码是阿里云出品的一款基于通义大模型的智能编码辅助工具。优点：多种会话模式：支持
智能体综述和参考资料整理木鱼时刻大模型人工智能
目录总体介绍核心组件记忆系统工具系统计划与推理开发框架Single-AgentMulti-Agent智能体平台技术实现通信协议角色系统对话记忆MCP协议参考链接总体介绍智能体（AIAgents）是人工智能领域的重要发展方向，它们能够通过传感器感知环境并通过执行器对环境采取行动。根据罗素和诺维格在《人工智能：一种现代方法》（2016年）中的定义，AIAgent是任何可以通过传感器感知其环境并通过执行
主流AI代码编程工具分享 scuter_yu ai ai编程
在当今数字化时代，AI代码编程工具已成为提升开发效率、优化代码质量的重要助手。这些工具利用人工智能技术，为开发者提供从代码生成、补全到调试、优化等一系列功能，极大地简化了编程流程，让编程变得更加高效、便捷和智能。以下将介绍几款热门的AI代码编程工具。通义灵码产品介绍：通义灵码是阿里云出品的基于通义大模型的智能编程辅助工具，提供行级/函数级实时续写、自然语言生成代码、单元测试生成、代码优化、注释生成
接口自动化测试（Python+pytest+PyMySQL+Jenkins）万能程序员-传康Kk python pytest jenkins
接口自动化测试一个完整的企业级接口自动化测试解决方案目录项目介绍技术架构功能特性项目结构环境要求安装部署使用方法测试用例说明预期结果报告系统配置说明数据库设计Jenkins集成常见问题项目亮点扩展指南联系方式项目介绍项目背景接口自动化测试作为现代软件开发流程的核心环节，已成为保障系统质量、提升交付效率的关键手段。本项目基于Python技术栈，构建了一套完整的接口自动化测试解决方案，旨在为开发团队提
健康医院门诊在线挂号系统学长代码V spring boot 后端
基于SSM框架与MySQL数据库实现的健康医院门诊在线挂号系统在当今数字化时代，健康医院门诊在线挂号系统的开发对于提升医院运营效率和患者就医体验至关重要。本文将介绍一个基于SSM框架与MySQL数据库实现的健康医院门诊在线挂号系统，探讨其技术路线和主要功能，并分享相关资源。技术路线该健康医院门诊在线挂号系统采用成熟的SSM（Spring+SpringMVC+MyBatis）框架进行开发。SSM框架
Delphi编程深度详解教程 Paula-柒月拾
本文还有配套的精品资源，点击获取简介：《Delphi详细教程》是一个全面介绍Delphi编程的资源包，涵盖了Delphi开发环境和ObjectPascal编程语言的深入学习。教程内容包括Delphi体系结构、核心类库、集合与RTTI、接口、抽象类、定制组件开发、界面设计、数据控件使用、SQL程序设计以及创建WindowsNT服务等关键知识点，旨在帮助学习者深入理解和掌握Delphi编程，并应用于实
弹幕系统开发实战：QT框架与VS2015源码解析 Paula-柒月拾
本文还有配套的精品资源，点击获取简介：本源码项目融合了三个关键技术领域：弹幕系统设计、Qt框架开发和VisualStudio2015集成。它详细阐述了弹幕系统的核心功能实现，包括弹幕数据结构、渲染、碰撞检测和用户交互。同时，本项目介绍了如何利用Qt5的信号与槽机制、GUI组件和绘图系统来开发弹幕效果，并展示了如何在VisualStudio2015中进行项目管理、编辑、调试和构建。此项目提供了全面的
【Linux 从基础到进阶】IPv6配置与管理爱技术的小伙子 Linux从基础到进阶 linux 运维服务器
IPv6配置与管理引言随着互联网地址资源的不断消耗，IPv6作为IPv4的继任者，已逐渐成为网络中的主流协议。相比IPv4，IPv6不仅提供了更为丰富的地址空间，还引入了多种新功能，如自动配置、安全性增强以及改进的路由效率。对于系统管理员来说，掌握IPv6的配置与管理至关重要。本文将详细介绍如何在CentOS和Ubuntu系统中进行IPv6的配置与管理，涵盖基本的网络配置、地址分配、路由配置以及常
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &