wishchin

LSH算法.p稳定hash

0：转自wiki：http://en.wikipedia.org/wiki/Locality_sensitive_hashing

以下参考资料仅供参考：LSH理解及相关资料：http://s99f.blog.163.com/blog/static/35118365201262691335382/

有一篇代码的实现：http://blog.sina.com.cn/s/blog_ad9597a30101o0ix.html

一：原始局部敏感哈希

原文链接：http://www.jiahenglu.net/NSFC/LSH.html

LSH(Location Sensitive Hash),即位置敏感哈希函数。为保序哈希，也就是散列前的相似点经过哈希之后，也能够在一定程度上相似，并且具有一定的概率保证。

形式化定义：

对于任意q,p属于S，若从集合S到U的函数族H={h1,h2...hn}对距离函数D(,)，如欧式距离、曼哈顿距离等等，满足条件：

则称D(,)是位置敏感的。

如下图，空间上的点经位置敏感哈希函数散列之后，对于q，其rNN有可能散列到同一个桶（如第一个桶）,即散列到第一个桶的概率较大，会大于某一个概率阈值p1;而其(1+emxilong)rNN之外的对象则不太可能散列到第一个桶，即散列到第一个桶的概率很小，会小于某个阈值p2.

LSH的作用

◆高维下近似查询

相似性检索在各种领域特别是在视频、音频、图像、文本等含有丰富特征信息领域中的应用变得越来越重要。丰富的特征信息一般用高维向量表示，由此相似性检索一般通过K近邻或近似近邻查询来实现。一个理想的相似性检索一般需要满足以下四个条件：

1. 高准确性。即返回的结果和线性查找的结果接近。

2. 空间复杂度低。即占用内存空间少。理想状态下，空间复杂度随数据集呈线性增长，但不会远大于数据集的大小。

3. 时间复杂度低。检索的时间复杂度最好为O（1）或O（logN)。

4. 支持高维度。能够较灵活地支持高维数据的检索。

传统主要方法是基于空间划分的算法——tree类似算法，如R-tree，Kd-tree，SR-tree。这种算法返回的结果是精确的，但是这种算法在高维数据集上的时间效率并不高。实验[1]指出维度高于10之后，基于空间划分的算法时间复杂度反而不如线性查找。LSH方法能够在保证一定程度上的准确性的前提下，时间和空间复杂度得到降低，并且能够很好地支持高维数据的检索。

◆分类和聚类

根据LSH的特性，即可将相近（相似）的对象散列到同一个桶之中，则可以对图像、音视频、文本等丰富的高维数据进行分类或聚类。

◆数据压缩。如广泛地应用于信号处理及数据压缩等领域的Vector Quantization量子化技术。

总而言之，哪儿需要近似kNN查询，哪儿都能用上LSH.

[1] Weber R, Schek H, Blott S. A quantitative analysis and performance study for similarity search methods in high dimensional spaces Proc.of the 24th Intl.Conf.on Very Large Data Bases (VLDB).1998:194-205

LSH的经典论文作者：http://www.informatik.uni-trier.de/~ley/pers/hd/m/Ma:Yi

http://research.microsoft.com/en-us/people/mayi/publications.aspx

32.Segmentation of Natural Images by Texture and Boundary Compression,

Hossein Mobahi, Shankar Rao, Allen Yang, Shankar Sastry, and Yi Ma, submitted to the International Journal of Computer Vision (IJCV), March 2010.

X: Compact Projection: Simple and Efficient Near Neighbor Search with Practical Memory Requirements

二：方法：Methods

Bit sampling for Hamming distance（original hash ）

One of the easiest ways to construct an LSH family is by bit sampling.^[3] This approach works for the Hamming distance over d-dimensional vectors . Here, the family of hash functions is simply the family of all the projections of points on one of the coordinates, i.e., 必须把特征转化到汉明空间，利用汉明距离；, where is theth coordinate of. A random function from simply selects a random bit from the input point. This family has the following parameters:,.

Min-wise independent permutations

Main article: MinHash ：最小hash！

Suppose is composed of subsets of some ground set of enumerable items and the similarity function of interest is theJaccard index. If is a permutation on the indices of, for let. Each possible choice of defines a single hash function mapping input sets to integers.

Define the function family to be the set of all such functions and let be the uniform distribution. Given two sets the event that corresponds exactly to the event that the minimizer of lies inside. As was chosen uniformly at random, and define an LSH scheme for the Jaccard index. 集合的 jaccard距离：一般用来判定文本相似度；

Because the symmetric group on n elements has size n!, choosing a truly random permutation from the full symmetric group is infeasible for even moderately sized n. Because of this fact, there has been significant work on finding a family of permutations that is "min-wise independent" - a permutation family for which each element of the domain has equal probability of being the minimum under a randomly chosen. It has been established that a min-wise independent family of permutations is at least of size.^[9] and that this boundary is tight^[10]

Because min-wise independent families are too big for practical applications, two variant notions of min-wise independence are introduced: restricted min-wise independent permutations families, and approximate min-wise independent families. Restricted min-wise independence is the min-wise independence property restricted to certain sets of cardinality at most k.^[11] Approximate min-wise independence differs from the property by at most a fixed .^[12]

Nilsimsa Hash

Main article: Nilsimsa Hash

Nilsimsa is an anti-spam focused locality-sensitive hashing algorithm.^[13] The goal of Nilsimsa is to generate a hash digest of an email message such that the digests of two similar messages are similar to each other. Nilsimsa satisfies three requirements outlined by the paper's authors:

The digest identifying each message should not vary signicantly (sic) for changes that can be produced automatically.
The encoding must be robust against intentional attacks.
The encoding should support an extremely low risk of false positives.

Random projection：

The random projection method of LSH^[4] (termed arccos by Andoni and Indyk ^[14]) is designed to approximate thecosine distance between vectors. The basic idea of this technique is to choose a randomhyperplane (defined by a normal unit vector) at the outset and use the hyperplane to hash input vectors.

Given an input vector and a hyperplane defined by, we let. That is, depending on which side of the hyperplane lies.

Each possible choice of defines a single function. Let be the set of all such functions and let be the uniform distribution once again. It is not difficult to prove that, for two vectors,, where is the angle between and. is closely related to.

In this instance hashing produces only a single bit. Two vectors' bits match with probability proportional to the cosine of the angle between them.

Stable distributions：基于p稳定分布的hash.

The hash function ^[15] maps ad dimensional vector onto a set of integers映射到一个数轴线段区间的整数上. Each hash function in the family is indexed by a choice of random and where is ad dimensional vector with entries chosen independently from a stable distribution and is a real number chosen uniformly from the range [0,r]. For a fixed the hash function is given by.

Other construction methods for hash functions have been proposed to better fit the data.^[16] In particular k-means hash functions are better in practice than projection-based hash functions, but without any theoretical guarantee.

三：基于p稳定分布的LSH

原文链接：http://blog.sina.com.cn/s/blog_67914f2901019p3v.html

LSH是用局部敏感的方法解决近似最近邻搜索的问题。在原始的LSH方法中，通过将原始空间嵌入到Hamming空间中，将d维空间转换成d＇=Cd维的Hamming空间（C是指原始空间中点的坐标的最大值，具体情况参见上一部分中的第4节-算法步骤），使用(r,(1+e)r,1-r/d＇,1-(1+e)r/d＇)-敏感哈希函数来解决(r,e)-Neighbor问题。而后来提出的p-stableLSH算法中，不需要将原始空间嵌入到Hamming空间中，可以直接在欧几里得空间下进行局部敏感哈希运算。

1、背景介绍

p-stableLSH应用在d维lp-norm下的欧几里得空间中，0<p<=2。p-stableLSH是LSH的进化版本，要解决的问题相同，而使用的方法和应用环境不同。因此，下面重点介绍p-stableLSH的应用环境，对于LSH的细节参见第一部分。

p-stableLSH使用的(R,cR,p1,p2)-敏感哈希中，c=1+e，并且不失一般性，设R=1。下面的工作主要是确定在1（即R）和c（即cR）下的p1与p2。

2、v概念解释

p-stableLSH之所以会叫这个名字，是因为该算法应用到p-stabledistribution（p-稳定分布）的概念。下面给出的就是p-稳定分布的概念：

Def 1 :一个分布D称为p-稳定分布，如果对于任意n个实数v1,v2,…,vn和符合D分布的n个独立同分布随机变量X1,X2,…,Xn，都存在一个p>=0，使得变量Vi和其映射具有相同的分布，此处X是一个符合D分布的随机变量。

p-稳定分布不是具体的分布，而是满足某条件的分布族。当p=1时，代表是标准柯西分布，密度函数为 p(x) =(1/3.14)*(1/(1+x*x)) ；当p=2时，代表是标准正态分布（高斯分布）。

p-stable分布有一个重要的应用，就是可以估计给定向量v在欧几里得空间p-norm下长度，记为||v||p。方法是对于取定的d维向量v，从p-稳定分布中抽取d个随机变量组成d维向量a，计算a与v的点积a.v（点积的概念是将向量对应位置的元素相乘后所有乘积之和），根据p-stable的定义，由于a.v= Add（Vi*Xi）,因此a.v与||v||pX是同分布的（X是p- stable分布的一个随机变量）。选取若干个向量a，计算多个 a.v的值，称为向量 v的“概略（sketch）”，利用 v的“sketch”可以用来估算|| v||p的值。

3、局部敏感哈希函数

在p-stableLSH中， a与 v的点积 a.v不用来估计|| v||p的值，而 是用来生成哈希函数族，且该哈希函数族是局部敏感的（即空间中距离较近的点映射后发生冲突的概率高，空间中距离较远的点映射后发生冲突的概率低）。大体方法是将一条直线分成等长且长度为r的若干段，给映射到同一段的点赋予相同的hash值，映射到不同段的点赋予不同的hash值。( a.v1- a.v2)是映射后的距离，而其值与|| v1- v2||pX同分布，因此，原始距离（ || v1 - v2 ||p）较小时，映射后的距离也小，因此使用点积来生成哈希函数族可以保持局部敏感性。

哈希函数族的形式为：，其中b是(0,r)里的随机数，r为直线上分段的段长。哈希族中的函数根据 a和b的不同建立函数索引。

从哈希函数族中随机选取一个哈希函数，现在估计两个向量 v1和 v2在该哈希函数下映射后发生冲突的概率。定义符合p-stable分布的随机变量绝对值的概率密度函数为fp(t)，设c=|| v1- v2||p，则 a.v1- a.v2与cX同分布，X为p-stable分布下的随机变量。给出概率的计算公式如下，之后会有详细分析。

Ｐ（Ｃ）＝Ｐ（ａ，ｂ）［ Ha,b（V1）= Ha,b（V2）］ =积分（1/c *fp(t/c)(1/t/r)）t

因为| a.v1- a.v2|=|| v1- v2||p|X|=c|X|，X为p-stable分布下的随机变量，|X|的概率密度函数为fp(t)。若要向量 v1和 v2映射后发生冲突，需要满足如下条件： v1和 v2通过与 a进行点积运算分别映射到一段长度为r线段后，再通过加b运算，能使映射后的点在同一条线段上。

以下是对该概率公式正确性的证明：

设点 a.v1在点M处，点 a.v2在点N处，此处设N点在靠近Q的位置。

（一）b对映射后点的影响

在加b后，因为b>0，因此加b后点会后移。不失一般性，设r=1，则有以下两种情况：

（1）若映射到同一条线段上，不妨设为线段PQ（P为前端点，Q为后端点），设|MN|=t，|NQ|=m，则若要保证加b后点M和点N仍在同一条线段中，则要满足0<b<=m（此时加b后M,N仍在线段PQ中），或者t+m<=b<r（此时加b后点M,N落入下一条线段中）。

（2）若映射到不同线段上，但|MN|<r（此时必在相邻线段中），不妨设相邻两条线段为PQ和QR，设|MQ|=m，则|QN|=t-m，则若要保证加b后点M和点N仍在同一条线段中，则要满足m<b<r-(t-m)。

可以看到，不管是那种情况，b的取值范围都是r-t，而b是(0,r)内的随机数，因此取得满足条件b的概率是(r-t)/r=1-t/r。现在只需讨论向量v1和v2经过a的点积映射后的距离为t的概率（因为讨论b是设|MN|=t，即b是在向量映射后距离为t的情况下讨论的），即求 | a.v1 - a.v2 |=|| v1 - v2 ||p|X|=c|X|=t的概率。

（二）点积对映射后点的影响：

因为随机变量|X|的概率密度函数为fp(x)，而这里要求的是c|X|=t的概率。在这里有一个误区，要注意的是，c|X|=t的概率并不是Pr(|X|=t/c)=fp(t/c)，这是因为|X|是连续随机变量，不能通过某点的概率来生成其密度函数，虽然密度函数的意义是fp(x)=Pr(|X|=x)，但反过来是不成立的。因此，要求c|X|=t的概率，只能通过密度函数的定义来解决。

密度函数的大致定义是：对于随机变量X的分布函数F(x)，如果存在函数f(x)，使得F(x)是f(x)在全部定义域内（一般就可取负无穷到正无穷，随机变量取不到的地方概率为0）的积分，那么f(x)就称为X的概率密度函数。F(x)=Pr(X<x)，f(x)=Pr(X=x)。这里再强调一遍，对于连续型随机变量，第二个式子的反过来没有意义，因为连续型随机变量在某点的概率恒为0。而分布函数代表的是某段区域内概率之和，因此，第二个式子反过来推导是有意义的。

因此，要求c|X|=t的概率，可用如下方法：设随机变量Y=c|X|，则原始问题转化成求Y=t的概率。设|X|的分布函数为Fp(t)，Y的分布函数为Gp(t)，则Gp(t)=Pr(Y<t)=Pr(c|X|<t)=Pr(|X|<t/c)=Fp(t/c)，因此，c|X|=t的概率为Gp'(t)=Fp'(t/c)=1/c*fp(t/c)，这样，经过点积映射后，两向量在线上点的距离等于t的概率便求出来了。

至此，我们得到了原始空间中的两个向量经过点积运算后映射到线段上的距离为t的概率以及在距离为t的前提下加b后能落在同一线段上的概率。因为如果两个向量经过点积后映射到线段上的距离大于r，且b是(0,r)上的随机数，因此这种情况下不论b取多少，两点都不可能落入同一条线段上。因此，t的取值范围是(0,r)。综上所述，该概率公式得证。

在上概率公式中，对于给定的r，概率p(c)是关于c的单调递减函数。即，c=|| v1- v2||越大，映射后发生冲突的概率就越小，这符合局部敏感哈希函数的要求。因此，所选取的哈希函数族是局部敏感哈希函数族，并且是(r1,r2,p1,p2)-敏感的，其中p1=p(1),p2=p(c),r2/r1=c。c>1时，满足p1>p2，r1<r2。

以上就是对p-stableLSH的讨论，它通过涉入稳定分布和点积的概念，实现了LSH算法在欧几里得空间下的直接应用，而不需要嵌入Hamming空间。p-stableLSH中，度量是欧几里得空间下的lp准则，即向量 v1与 v2的距离定义为|| v1- v2||p，然后通过设定的哈希函数将原始点映射到直线的等长线段上，每条线段便相当于一个哈希桶，与LSH方法类似，距离较近的点映射到同一哈希桶（线段）中的概率大，距离较远的点映射到同一哈希桶中的概率小，正好符合局部敏感的定义。

四：hash方法的使用过程：

Amplification：详细描述

Given a -sensitive family, we can construct new families by either the AND-construction or OR-construction of.^[1]

To create an AND-construction, we define a new family of hash functions, where each function is constructed from random functions from. We then say that for a hash function, if and only if all for. Since the members of are independently chosen for any, is a-sensitive family.

To create an OR-construction, we define a new family of hash functions, where each function is constructed from random functions from. We then say that for a hash function, if and only if for one or more values of. Since the members of are independently chosen for any, is a-sensitive family. 重点是：如何构建hash函数族...

LSH algorithm for nearest neighbor search:算法步骤

One of the main applications of LSH is to provide a method for efficient approximatenearest neighbor search algorithms. Consider an LSH family . The algorithm has two main parameters: the width parameter and the number of hash tables.

In the first step, we define a new family of hash functions, where each function is obtained by concatenating functions from, i.e.,. In other words, a random hash function is obtained by concatenating randomly chosen hash functions from. The algorithm then constructs hash tables, each corresponding to a different randomly chosen hash function.

In the preprocessing step we hash all points from the data set into each of the hash tables. Given that the resulting hash tables have only non-zero entries, one can reduce the amount of memory used per each hash table to using standardhash functions.

Given a query point , the algorithm iterates over the hash functions. For each considered, it retrieves the data points that are hashed into the same bucket as. The process is stopped as soon as a point within distance from is found.

Given the parameters and, the algorithm has the following performance guarantees:

preprocessing time: , where is the time to evaluate a function on an input point;
space: , plus the space for storing data points;
query time: ;
the algorithm succeeds in finding a point within distance from (if there exists a point within distance) with probability at least;

For a fixed approximation ratio and probabilities and, one can set and, where. Then one obtains the following performance guarantees:

preprocessing time: ;
space: , plus the space for storing data points;
query time: ;

五：Locality Sensitive Hashing(LSH)之随机投影法

原文链接：http://www.strongczq.com/2012/04/locality-sensitive-hashinglsh%E4%B9%8B%E9%9A%8F%E6%9C%BA%E6%8A%95%E5%BD%B1%E6%B3%95.html

为什么随即投影法是可行的？应该怎么去函数族的参数？以及正确率表现？

1. 概述

LSH是由文献[1]提出的一种用于高效求解最近邻搜索问题的Hash算法。LSH算法的基本思想是利用一个hash函数把集合中的元素映射成hash值，使得相似度越高的元素hash值相等的概率也越高。LSH算法使用的关键是针对某一种相似度计算方法，找到一个具有以上描述特性的hash函数。LSH所要求的hash函数的准确数学定义比较复杂，以下给出一种通俗的定义方式：

对于集合S，集合内元素间相似度的计算公式为sim(*,*)。如果存在一个hash函数h(*)满足以下条件：存在一个相似度s到概率p的单调递增映射关系，使得S中的任意两个满足sim(a,b)>=s的元素a和b，h(a)=h(b)的概率大于等于p。那么h(*)就是该集合的一个LSH算法hash函数。

一般来说在最近邻搜索中，元素间的关系可以用相似度或者距离来衡量。如果用距离来衡量，那么距离一般与相似度之间存在单调递减的关系。以上描述如果使用距离来替代相似度需要在单调关系上做适当修改。

根据元素相似度计算方式的不同，LSH有许多不同的hash算法。两种比较常见的hash算法是随机投影法和min-hash算法。本文即将介绍的随机投影法适用于集合元素可以表示成向量的形式，并且相似度计算是基于向量之间夹角的应用场景，如余弦相似度。min-hash法在参考文献[2]中有相关介绍。

2 随机投影法(Random projection)

假设集合S中的每个元素都是一个n维的向量：

v ⃗ = {v 1, v 2, \dots, v n}

，集合中两个元素

v⃗ 和

u⃗ 之间的相似度定义为

s i m (v ⃗, u ⃗) = v ⃗ * u ⃗ | v ⃗ | | u ⃗ |

。

对于以上元素集合S的随机投影法hash函数h(*)可以定义为如下：

在n维空间中随机选取一个非零向量 x⃗ ={x1,x2,…,xn} 。考虑以该向量为法向量且经过坐标系原点的超平面，该超平面把整个n维空间分成了两部分，将法向量所在的空间称为正空间，另一空间为负空间。那么集合S中位于正空间的向量元素hash值为1，位于负空间的向量元素hash值为0。判断向量属于哪部分空间的一种简单办法是判断向量与法向量之间的夹角为锐角还是钝角，因此具体的定义公式可以写为

h (v ⃗) = {1, 0, v ⃗ * x ⃗ > 0 v ⃗ * x ⃗ < = 0

。

根据以上定义，假设向量 v⃗ 和 u⃗ 之间的夹角为 θ ，由于法向量 x⃗ 是随机选取的，那么这两个向量未被该超平面分割到两侧（即hash值相等）的概率应该为： p(θ)=1−θπ 。假设两个向量的相似度值为s，那么根据 θ=arccos(s) ,有

p (s) = 1 - a r c c o s ( s ) π

。因此，存在相似度s到概率p的单调递增映射关系，使得对于任意相似度大于等于s的两个元素，它们hash值相等的概率大于等于

p(s) 。所以，以上定义的hash值计算方法符合LSH算法的要求。

以上所描述的h(*)函数虽然符合LSH算法的要求，但是实用性不高。因为该hash函数只产生了两个hash值，没有达到hash函数将元素分散到多个分组的目的。为了增加不同hash值的个数，可以多次生成独立的函数h(*)，只有当两个元素的多个h(*)值都相等时才算拥有相同的hash值。根据该思路可以定义如下的hash函数H(*)：

H (v ⃗) = (h b (v ⃗) h b - 1 (v ⃗) \dots h 1 (v ⃗)) 2

。其中每个

hi(v⃗ ) 表示一个独立的h(*)函数，H(*)函数值的二进制表现形式中每一位都是一个h(*)函数的结果。

以H(*)为hash函数的话，两个相似度为s的元素具有相同hash值的概率公式为

p (s) = (1 - a r c c o s ( s ) π) b

。hash值的个数为 2b 。很容易看出H(*)函数同样也是符合LSH算法要求的。一般随机按投影算法选用的hash函数就是H(*)。其中参数b的取值会在后面小节中讨论。

3 随机投影法在最近邻搜索中的应用

3.1 最近邻搜索

最近邻搜索可以简单的定义为：对于m个元素的集合T，为一个待查询元素q找到集合中相似度最高的k个元素。

最近邻搜索最简单的实现方法为：计算q与集合T中每一个元素的相似度，使用一个具有k个元素的大顶堆（优先队列）保存相似度计算结果（相似度值为key）。这种实现方法每一次查询都要遍历整个集合T来计算相似度，当m很大并且查询的频率很高的时候这种暴力搜索的方法无法满足性能要求。

当最近邻搜索的近邻要求并不是那么严格的时候，即允许top k近邻的召回率不一定为1（但是越高越好），那么可以考虑借助于LSH算法。

3.2 随机投影法提高执行速度

这里我们介绍当集合T的元素和查询元素q为同维度向量(维度为n)，并且元素相似度计算方法为余弦相似度时，使用随机投影法来提高最近邻搜索的执行速度。具体的实现方法为：

预处理阶段：使用hash函数H(*)计算集合T中所有元素的hash值，将集合T分成一个个分组，每个分组内的元素hash值均相等。用合适的数据结构保存这些hash值到分组的映射关系（如HashMap）。

查询阶段：计算查询元素q的hash值H(q)，取集合T中所有hash值为H(q)的分组，以该分组内的所有元素作为候选集合，在候选该集合内使用简单的最近邻搜索方法寻找最相似的k个元素。

该方法的执行效率取决于H(*)的hash值个数 2b ，也就是分组的个数。理想情况下，如果集合T中的向量元素在空间中分布的足够均匀，那么每一个hash值对应的元素集合大小大致为 m2b 。当m远大于向量元素的维度时，每次查询的速度可以提高到 2b 倍。

根据以上分析H(*)中b的取值越大算法的执行速度的提升越多，并且是指数级别的提升。但是，在这种情况下H(*)函数下的概率公式p(s)，实际上表示与查询元素q的相似度为s的元素的召回率。当b的取值越大时，top k元素的召回率必然会下降。因此算法执行速度的提升需要召回率的下降作为代价。例如：当b等于10时，如果要保证某个元素的召回率不小于0.9，那么该元素与查询元素q的相似度必须不小于0.9999998。

3.3 提高召回率改进

为了在保证召回率的前提下尽可能提高算法的执行效率，一般可以进行如下改进：

预处理阶段：生成t个独立的hash函数 Hi(∗) ，根据这t个不同的hash函数，对集合T进行t种不同的分组，每一种分组方式下，同一个分组的元素在对应hash函数下具有相同的hash值。用合适的数据结构保存这些映射关系（如使用t个HashMap来保存）。

查询阶段：对于每一个hash函数 Hi(∗) ，计算查询元素q的hash值 Hi(q) ，将集合T中 Hi(∗) 所对应的分组方式下hash值为 Hi(q) 的分组添加到该次查询的候选集合中。然后，在该候选集合内使用简单的最近邻搜索方法寻找最相似的k个元素。

以上改进使得集合中元素与查询元素q的t个hash值中，只要任意一个相等，那么该集合元素就会被加入到候选集中。那么，相似度为s的元素的召回率为

p (s) = 1 - (1 - (1 - a r c c o s ( s ) π) b) t

在执行效率上，预处理阶段由于需要计算t个hash函数的值，所以执行时间上升为t倍。查询阶段，如果单纯考虑候选集合大小对执行效率的影响，在最坏的情况下，t个hash值获得的列表均不相同，候选集集合大小的期望值为 t∗m2b ，查询速度下降至 1t ，与简单近邻搜索相比查询速度提升为 2bt 倍。

下图是召回率公式 p(s)=1−(1−(1−arccos(s)π)b)t 在不同的b和t取值下的s-p曲线。我们通过这些曲线来分析这里引入参数t的意义。4条蓝色的线以及最右边红色的线表示当t取值为1（相当于没有引入t），而b的取值从1变化到5的过程，从图中可以看出随着b的增大，不同相似度下的召回率都下降的非常厉害，特别的，当相似度接近1时曲线的斜率很大，也就说在高相似度的区域，召回率对相似度的变化非常敏感。10条红色的线从右到左表示b的取值为5不变，t的取值从1到10的过程，从图中可以看出，随着t的增大，曲线的形状发生了变化，高相似度区域的召回率变得下降的非常平缓，而最陡峭的地方渐渐的被移动到相对较低的相似度区域。因此，从以上曲线的变化特点可以看出，引入适当的参数t使得高相似度区域在一段较大的范围内仍然能够保持很高的召回率从而满足实际应用的需求。

3.4 参数选取

根据以上分析，H(*)函数的参数b越大查询效率越高，但是召回率越低；参数t越大查询效率越低但是召回率越高。因此选择适当参数b和t来折中查询效率与召回率之间的矛盾是应用好随机投影法的关键。下面提供一种在实际应用中选取b和t的参考方法。

根据实际应用的需要确定一对(s,p)，表示相似度大于等于s的元素，召回率的最低要求为p。然后将召回率公式表示成b-t之间的函数关系 t=log1−(1−acos(s)pi)b(1−p) 。根据(s,p)的取值，画出b-t的关系曲线。如s=0.8,p=0.95时的b-t曲线如下图所示。考虑具体应用中的实际情况，在该曲线上选取一组使得执行效率可以达到最优的(b,t)组合。

3.5 关于最近邻文本搜索

在最近邻文本搜索中，一般待检索的文本或查询文本，都已被解析成一系列带有权重的关键词，然后通过余弦相似度公式计算两个文本之间的相似度。这种应用场景下的最近邻搜索与以上所提到的最近邻搜索问题相比存在以下两个特点：

如果把每个文本的带权重关键词表都看作是一个向量元素的话，每个关键词都是向量的一个维度，关键词权重为该维度的值。理论上可能关键词的个数并不确定（所有单词的组合都可能是一个关键词），因此该向量元素的维数实际上是不确定的。
由于关键词权重肯定是大于零的，所以向量元素的每一个维度的值都是非负的。

对于第一个特点，我们需要选取一个包含n个关键词的关键词集合，在进行文本相似度计算时只考虑属于该集合的关键词。也就是说，每一个文本都视为是一个n维度的向量，关键词权重体现为对应维度的值。该关键词集合可以有很多种生成办法，比如可以是网站上具有一定搜索频率的关键词集合，总的来说该关键词集合应当能够涵盖所有有意义并且具有一定使用频率的关键词。通常n的取值会比较大，如几十万到几百万，由于在使用随机投影算法时，每一个生成的随机向量维度都为n，这种情况下需要特别考虑利用这些高维随机向量对执行效率造成的影响，在确定b、t参数时需要考虑到这方面的影响。

对于第二个特点，由于向量元素各维度值都非负，那么这些元素在高维空间中只会出现在特定的区域中。比如当n为3时，只会出现在第一象限中。一个直观的感觉是在生成随机向量的时候，会不会生成大量的无用切割平面（与第一个象限空间不相交，使得所有元素都位于切割平面的同侧）。这些切割平面对应的H(*)函数hash值中的二进制位恒定为1或者0，对于提高算法执行速度没有帮助。以下说明这种担心是没有必要的：

切割平面与第一象限空间不相交等价于其法向量的每一个维度值都有相同的符号（都为正或者负），否则总能在第一象限空间中找到两个向量与法向量的乘积符号不同，也就是在切割平面的两侧。那么，随机生成的n维向量所有维度值都同号的概率为 12n−1 ，当n的取值很大时，该概率可以忽略不计。

参考文献

[1] P. Indyk and R. Motwani. Approximate Nearest Neighbor:Towards Removing the Curse of Dimensionality. In Proc. of the 30th Annual ACM Symposium on Theory of Computing, 1998, pp. 604–613.

[2] Google News Personalization: Scalable Online Collaborative Filtering

你可能感兴趣的:(LSH算法.p稳定hash)

01背包问题的一维数组解法
核心思想：fori:=1toNdoforj=Vdowntoc[i]doiff[j-c[i]]+w[i]>f[j]thenf[j]=f[j-c[i]]+w[i];背包问题九讲-P010-1背包问题在讲背包问题的时候老师说这是一个老鸟中的老鸟总结的，很全面也很简洁易懂，在此把内容贴上来，供大家一起交流学习。感谢原作者！题目有N件物品和一个容量为V的背包。第i件物品的费用是c[i]，价值是w[i]。求解
Redis（十五）Bitmap、Hyperloglog、GEO案例、布隆过滤器 Lucky_Turtle Java redis 面试数据库
文章目录面试题常见统计类型聚合统计排序统计二值统计基数统计Hyperloglog专有名词UV（UniqueVisitor）独立访客PV（PageView）页面浏览量DAU（DailyActiveUser）日活跃用户量MAU（MonthlyActiveUser）需求原理亿级UV的Redis统计方案GEO面试题命令GEOADD获取某位置的经纬度GEOPOS返回坐标的Geohash表示GEOHASH两个
嵌入式 - i.MX93的GPIO寄存器解读夜流冰嵌入式笔记
有四组GPIO，gpio1~gpio4，每组32个端子，序号从0~31。例如，GPIO1_IO00~GPIO1_IO31。表示GPIO状态时，一组寄存器的32个端子用32bit表示，正好四个字节。每组GPIO都有各自的寄存器，基地址空间不同，但其布局和偏移是一致的。1，偏移0x54寄存器PDDR用来设置整组GPIO的输入输出方向，1表示输出，0表示输入。reset后值为0。2，偏移0x50寄存器P
GESP认证C++编程真题解析 | GESP202409 三级单选题和判断题热爱编程的通信人历年GESP CSP-J CSP-S真题解析 c++开发语言
欢迎大家订阅我的专栏：算法题解：C++与Python实现！本专栏旨在帮助大家从基础到进阶，逐步提升编程能力，助力信息学竞赛备战！专栏特色1.经典算法练习：根据信息学竞赛大纲，精心挑选经典算法题目，提供清晰的代码实现与详细指导，帮助您夯实算法基础。2.系统化学习路径：按照算法类别和难度分级，从基础到进阶，循序渐进，帮助您全面提升编程能力与算法思维。适合人群：准备参加蓝桥杯、GESP、CSP-J、CS
LeetCode 学习day3 不喜勿喷小小小新人12123 leetcode 学习算法 python
题目：给定一个数组prices，它的第i个元素prices[i]表示一支给定股票第i天的价格。你只能选择某一天买入这只股票，并选择在未来的某一个不同的日子卖出该股票。设计一个算法来计算你所能获取的最大利润。返回你可以从这笔交易中获取的最大利润。如果你不能获取任何利润，返回0。（LeetCode121.买卖股票的最佳时机）问题分析：简而言之为求最大差Python代码：importnumpyasnpc
算法优化：前缀和+哈希表雨声敲敲，风声潇潇算法算法 java leetcode 性能优化哈希表
今天在leetcode上写到6952.统计趣味子数组的数目这道题的时候出现了超时问题，由此学习了前缀和+哈希表的方法。目前看到与此知识点相关的题目有如下：560.和为k的子数组，非常经典的前缀和+哈希表，可以从这一道题入手。6952.统计趣味子数组的数目，这道题比上一到稍微难一点，但是不至于困难。下面介绍一下前缀和+哈希表以560题为例，题目：给你一个整数数组nums和一个整数k，请你统计并返回该
POS（权益证明机制） Chinatesila 区块链
由来：SunnyKing和ScottNadal首先建议使用权益证明作为工作量证明（PoW）的替代方案，并创造了权益一词。他们描述了一种算法，该算法根据个人钱包中代币的数量和年龄选择生产区块的节点。Peercoin（PPC）被创造出来，并成为第一个混合加密货币。PPC使用PoW分发令牌，并使用PoS验证交易。简介：权益证明机制的目的是让所谓的“权益者”、“锻造者”或者“验证者”来代替矿工，他们本质上
什么是 PoW（工作量证明，Proof of Work） MonkeyKing.sun 区块链
共识算法（ConsensusAlgorithm）是区块链的“心脏”，它决定了多个节点在没有中央机构的前提下，如何就“谁来记账”达成一致。什么是PoW（工作量证明，ProofofWork）定义：工作量证明（ProofofWork,简称PoW）是一种共识机制，要求节点通过解决一个高难度数学问题，来获得记账权。第一个算出答案的节点获得“打包交易→生成区块→获取奖励”的权利。它是比特币、以太坊（1.0）等
舵机控制信号周期：运作关键及对性能的重要影响？
舵机控制信号的周期对于舵机的运作至关重要。它与舵机的精确度和稳定性等方面紧密相连。接下来，我们将对此进行详细探讨。认识舵机控制信号周期舵机运作的关键参数是控制信号周期，这相当于舵机运作的指挥者。通常，舵机的控制信号周期为20毫秒。打个比方，这就像舞蹈中的节奏间隔。在这20毫秒的周期里，1到2毫秒的脉冲宽度足以影响舵机的转动角度。此外，不同型号的舵机对信号周期的要求各异，只有找到合适的周期，舵机才能
排序指标
排序指标MAP（平均准确率指标）AP@K=∑k=1KP(k)∗rel(k)∑kKrel(k)AP@K=\frac{\sum_{k=1}^{K}P(k)*rel(k)}{\sum_{k}^{K}rel(k)}AP@K=∑kKrel(k)∑k=1KP(k)∗rel(k)其中，rel(k)rel(k)rel(k)表示第k个元素是否与查询元素相关，相关为1，不想管为0。P(k)表示前k个结果的准确率。MA
从决策树到随机森林：Python机器学习里的“树形家族“深度实战与原理拆解小张在编程机器学习决策树随机森林
引言在机器学习的算法森林中，有一对"树形兄弟"始终占据着C位——决策树像个逻辑清晰的"老教授"，用可视化的树状结构把复杂决策过程拆解成"是/否"的简单判断；而它的进阶版随机森林更像一支"精英军团"，通过多棵决策树的"投票表决"，在准确性与抗过拟合能力上实现了质的飞跃。无论是医疗诊断中的疾病预测，还是金融风控里的违约判别，这对组合都用强大的适应性证明着自己的"算法常青树"地位。今天，我们就从原理到实
什么是 PoS（权益证明） MonkeyKing.sun pos
PoS（ProofofStake，权益证明）是区块链中常用的一种共识算法，作为PoW（工作量证明）的替代方案，它通过“持币数量+持有时间”决定谁有权记账（打包区块），从而降低能耗、提升效率。一、什么是PoS（权益证明）？PoS是一种基于“持有代币数量”的区块链共识机制，持币越多、持币越久，获得打包新区块机会的概率越高。换句话说，不是靠算力挖矿，而是靠“你拥有多少币”来竞争记账权。二、PoS的核心原
实现make_power_of_two函数洞阳 c++面试 c++
目录代码make_power_of_two函数解析：将数值转换为大于等于它的最小2的幂一、函数功能与核心逻辑二、代码实现与逐行解析三、逐步骤原理解析四、位运算的数学原理五、不同输入的转换示例六、算法复杂度与适用场景七、与其他实现方式的对比八、注意事项总结代码该函数将任意n转换为大于等于n的最小2的幂（如n=10→16，n=16→16）size_tmake_power_of_two(size_tn)
PCB设计实践(三十七）PCB机械孔设计全解析：作用原理与设计规范指南技术流浪者 PCB设计硬件工程 PCB设计单片机嵌入式硬件
在PCB设计中，机械孔是实现电路板机械固定、电气连接和功能扩展的核心要素之一。其设计质量直接影响PCB的组装效率、结构稳定性和长期可靠性。本文将从机械孔的基础概念出发，系统阐述其在PCB设计中的作用原理、分类特性、设计规范及进阶技巧，为工程师提供全面的设计指导。一、机械孔的核心作用解析机械孔在PCB中承担着多重关键功能，其作用远超过单纯的物理开孔概念：1.机械固定与结构支撑作为电路板与外壳、散热器
从指令设计到系统集成：提示词工具链与GPTs插件的效率革命 charles666666 人工智能自然语言处理语言模型知识图谱 transformer
一、提示词工程工具链：概念与架构解析1.1为什么需要工具链？大模型交互的本质是“指令设计”，但人工编写提示词存在三大痛点：效率低（重复调试耗时）、质量不稳定（依赖个人经验）、复用性差（场景迁移成本高）。例如，某电商企业要求AI生成500种商品描述时，人工逐条调整提示词需耗费数周，且风格难以统一。工具链的价值在于通过模块化设计与自动化流程解决上述问题。其核心架构包含三个层级：需求解析层：将用户需求拆
具身智能基础 frostmelody 人工智能
1.MuJoCo：高保真物理仿真的核心引擎技术本质定义：MuJoCo（Multi-JointDynamicswithContact）是由EmoTodorov开发的物理仿真引擎，专注于多关节系统接触动力学的高效计算。核心突破：约束动力学模型：采用约束优化（而非传统弹簧阻尼模型）模拟物体接触，避免穿透和数值不稳定（公式：min12q˙TMq˙+q˙Tf\text{min}\frac{1}{2}\dot
【Python】abc 模块：定义抽象基类（Abstract Base Classes）的工具彬彬侠 Python基础 python abc ABCMeta abstractmethod
Python的abc模块（AbstractBaseClasses，抽象基类）是标准库中用于定义抽象基类的工具，旨在为面向对象编程提供一种标准化的方式来定义接口、强制子类实现特定方法，并支持类型检查。abc模块特别适合需要明确接口定义的场景，例如框架开发、插件系统或大型项目。本文详细介绍abc模块的定义、核心组件、使用方法、实际应用场景、注意事项以及与元类的关系。1.什么是abc模块？abc模块是P
深入详解：随机森林算法——概念、原理、实现与应用场景猿享天开算法随机森林机器学习
深入详解：随机森林算法——概念、原理、实现与应用场景随机森林（RandomForest,RF）是一种经典的集成学习算法，广泛应用于机器学习任务。本文将通过图文结合的方式，全面解析随机森林的核心原理、实现细节和应用实践，帮助读者建立系统认知。1.核心概念与直观理解1.1什么是随机森林？随机森林是一种基于决策树的集成学习算法，通过构建多棵决策树进行协同预测。其核心思想是"三个臭皮匠，顶个诸葛亮"——多
Promptify与ReActAgent frostmelody 人工智能
一、Promptify定位：NLP任务的「自动化流水线」1.解决什么问题？传统LLM应用开发痛点：反复调试：需手工编写/调整prompt格式（如调整分隔符、示例数量）兼容性差：不同模型需重写适配代码输出不稳定：非结构化文本需额外解析Promptify用标准化流水线解决上述问题，将复杂prompt工程简化为三行代码：model=OpenAI(api_key)#选择模型prompter=Prompte
【项目实战】Redis使用场景之基于Redis实现分布式限流本本本添哥 002 -进阶开发能力 003 -数据库 redis 分布式数据库
一、技术概览1.1定义分布式限流是指在分布式系统中限制请求的速率，以保护后端服务不被过多的请求压垮。它可以帮助我们控制系统的负载，保证服务的稳定性。Redis是一个高性能的键值存储系统，常用于缓存、消息队列和实时分析等场景。由于其支持丰富的数据结构和原子操作，非常适合用来实现分布式限流。专业术语:令牌桶算法(TokenBucket):一种流量整形算法，允许突发流量但不超过平均速度。漏桶算法(Lea
人工智能大模型原理与应用实战：大模型在金融风控中的应用 AI天才研究院 LLM大模型落地实战指南大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
文章目录人工智能大模型原理与应用实战：大模型在金融风控中的应用01.背景介绍1.1金融风控的挑战1.2大模型的优势2.核心概念与联系2.1大模型在金融风控中的应用场景2.2大模型与传统风控技术的结合3.核心算法原理具体操作步骤3.1基于大模型的欺诈检测3.2基于大模型的信用评估4.数学模型和公式详细讲解举例说明4.1逻辑回归模型4.2XGBoost模型5.项目实践：代码实例和详细解释说明5.1基于
Go项目限流全攻略：超越中间件的全方位解决方案码农老gou golang 中间件开发语言
引言：限流在分布式系统中的重要性在当今高并发的互联网应用中，流量控制已成为保障系统稳定性的关键手段。一次突发的流量洪峰可能导致整个系统崩溃，造成不可估量的损失。作为Go开发者，我们常常会面临这样的面试问题：Go项目中如何实现限流？仅仅使用中间件就足够了吗？本文将深入探讨Go项目中的限流策略，分析中间件的局限性，并介绍超越中间件的全方位解决方案。一、常见限流算法解析1.令牌桶算法（TokenBuck
随机森林详解：原理、优势与应用实践大千AI助手人工智能 Python #OTHER 随机森林算法机器学习决策树人工智能 DecisionTree 数据挖掘
本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！随机森林介绍1.定义：随机森林是一种强大的、高度灵活的集成学习（EnsembleLearning）算法，主要用于分类和回归任务。它的核心思想是构建多棵决策树（DecisionTree），并将这些树的预测结果进行组合（例如，分类任务采用投票，回归任务采用
集成学习基础：Bagging 原理与应用大千AI助手人工智能 Python #OTHER 集成学习机器学习人工智能算法决策树 Bagging
本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！Bagging介绍1.定义与全称：Bagging是BootstrapAggregating的缩写，中文常译为装袋法。它是一种并行式的集成学习方法。核心目标是通过构建多个基学习器的预测结果进行组合（通常是投票或平均），来获得比单一基学习器更稳定、更准确、
Modbus RTU 转 Profinet 网关接台安 N310 变频器与西门子plc通讯兴达易控工业以太网解决方案网络协议
ModbusRTU转Profinet网关接台安N310变频器与西门子plc通讯在工业自动化领域，设备之间的通信至关重要，它如同神经系统一般，连接着各个部分，确保系统的稳定运行。今天，我们就来深入探讨一下ModbusRTU转Profinet网关与台安N310变频器通讯的相关知识。ModbusRTU是一种广泛应用的工业通讯协议，以其简单、可靠等特点在众多工业场景中占据一席之地。它采用主从站架构，通过串
【第二章:机器学习与神经网络概述】03.类算法理论与实践-(3)决策树分类器 IT古董人工智能课程机器学习算法神经网络
第二章:机器学习与神经网络概述第三部分：类算法理论与实践第三节：决策树分类器内容：信息增益、剪枝技术、过拟合与泛化能力。决策树是一种常用于分类和回归的树状结构模型，它通过一系列特征判断进行决策，有良好的可解释性。一、基本概念节点（Node）：表示特征判断条件边（Branch）：表示特征判断的结果路径叶子节点（Leaf）：表示分类结果二、划分准则：信息增益（InformationGain）信息增益衡
选择Alluxio来解决AI模型训练场景数据访问的五大理由 Alluxio 人工智能 AI 分布式大数据语言模型
在AI模型训练尤其是大模型领域，存储系统的性能和稳定性直接决定了模型训练、推理、部署任务的效率和成本。随着全球AI行业的爆发带来的数据规模的快速增长，如何高效管理和利用这些数据成为AI模型训练中的一大挑战。AI模型训练场景面临的五大难题1.数据读写性能不足在AI模型训练与推理过程中，数据的高效读写是确保计算效率的关键。然而，随着数据集的急剧增长，存储系统往往无法满足对高速数据传输的需求，导致读写性
算法练习-02 亮亮爱刷题算法数据结构 c++
今天给大家带来的是第二天的几道练习题，包括几道思路特别巧妙的算法题，以及提升的背包问题，相信这类问题对大家算法能力的提升还是十分有帮助的，希望大家学完可以给博主点一个关注。第一题：问题描述给定一个长度为n的数组a，小蓝希望从数组中选择若干个元素（可以不连续），并将它们重新排列，使得这些元素能够形成一个先严格递增然后严格递减的子序列（可以没有递增部分或递减部分）。你需要求出在满足这个条件下，最多可以
基于Redis分布式的限流 chi_666 redis 分布式数据库
以下是基于Redis实现分布式限流的Java解决方案，包含多种限流算法和完整实现代码：一、限流算法选择与实现1.固定窗口算法（SimpleRateLimiter）publicclassRedisFixedWindowRateLimiter{privatefinalStringRedisTemplateredisTemplate;privatefinalStringscript="localcurr
Web中间件性能调优指南：线程池、长连接与负载均衡的最佳实践编程实战派-李工《Java 负载均衡中间件优化 Tomcat调优 Nginx配置性能工程线程池技术 Keep-Alive优化
目录引言一、Web容器线程池配置不当1.1线程池参数的核心作用与影响1.2线程池大小计算模型1.3动态调优实践二、Keep-Alive机制配置缺陷2.1Keep-Alive的工作原理2.2典型配置问题与影响2.3优化配置建议三、负载均衡策略缺失3.1负载均衡的核心价值3.2主流负载均衡算法对比3.3Nginx关键配置优化四、全链路压测与调优方案4.1压测实施流程4.2典型优化案例4.3持续监控体系
linux系统服务器下jsp传参数乱码 3213213333332132 java jsp linux windows xml
在一次解决乱码问题中，发现jsp在windows下用js原生的方法进行编码没有问题，但是到了linux下就有问题， escape,encodeURI,encodeURIComponent等都解决不了问题但是我想了下既然原生的方法不行，我用el标签的方式对中文参数进行加密解密总该可以吧。于是用了java的java.net.URLDecoder,结果还是乱码，最后在绝望之际，用了下面的方法解决了
Spring 注解区别以及应用 BlueSkator spring
1. @Autowired @Autowired是根据类型进行自动装配的。如果当Spring上下文中存在不止一个UserDao类型的bean，或者不存在UserDao类型的bean，会抛出 BeanCreationException异常，这时可以通过在该属性上再加一个@Qualifier注解来声明唯一的id解决问题。 2. @Qualifier 当spring中存在至少一个匹
printf和sprintf的应用 dcj3sjt126com PHP sprintf printf
<?php printf('b: %b c: %c d: %d <bf>f: %f', 80,80, 80, 80); echo ' '; printf('%0.2f %+d %0.2f ', 8, 8, 1235.456); printf('th
config.getInitParameter 171815164 parameter
web.xml <servlet> <servlet-name>servlet1</servlet-name> <jsp-file>/index.jsp</jsp-file> <init-param> <param-name>str</param-name>
Ant标签详解--基础操作 g21121 ant
Ant的一些核心概念： build.xml：构建文件是以XML 文件来描述的，默认构建文件名为build.xml。 project：每个构建文
[简单]代码片段_数据合并 53873039oycg 代码
合并规则:删除家长phone为空的记录,若一个家长对应多个孩子,保留一条家长记录,家长id修改为phone,对应关系也要修改。代码如下:
java 通信技术云端月影 Java 远程通信技术
在分布式服务框架中，一个最基础的问题就是远程服务是怎么通讯的，在Java领域中有很多可实现远程通讯的技术，例如：RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等，这些名词之间到底是些什么关系呢，它们背后到底是基于什么原理实现的呢，了解这些是实现分布式服务框架的基础知识，而如果在性能上有高的要求的话，那深入了解这些技术背后的机制就是必须的了，在这篇blog中我们将来
string与StringBuilder 性能差距到底有多大 aijuans
之前也看过一些对string与StringBuilder的性能分析，总感觉这个应该对整体性能不会产生多大的影响，所以就一直没有关注这块！由于学程序初期最先接触的string拼接，所以就一直没改变过自己的习惯！
今天碰到 java.util.ConcurrentModificationException 异常 antonyup_2006 java 多线程工作 IBM
今天改bug，其中有个实现是要对map进行循环，然后有删除操作，代码如下： Iterator<ListItem> iter = ItemMap.keySet.iterator(); while(iter.hasNext()){ ListItem it = iter.next(); //...一些逻辑操作 ItemMap.remove(it); } 结果运行报Con
PL/SQL的类型和JDBC操作数据库百合不是茶 PL/SQL表标量类型游标 PL/SQL记录
PL/SQL的标量类型: 字符,数字,时间,布尔,%type五中类型的 --标量：数据库中预定义类型的变量 --定义一个变长字符串 v_ename varchar2(10); --定义一个小数,范围 -9999.99~9999.99 v_sal number(6,2); --定义一个小数并给一个初始值为5.4 :=是pl/sql的赋值号
Mockito：一个强大的用于 Java 开发的模拟测试框架实例 bijian1013 mockito 单元测试
Mockito框架： Mockito是一个基于MIT协议的开源java测试框架。 Mockito区别于其他模拟框架的地方主要是允许开发者在没有建立“预期”时验证被测系统的行为。对于mock对象的一个评价是测试系统的测
精通Oracle10编程SQL(10)处理例外 bijian1013 oracle 数据库 plsql
/* *处理例外 */ --例外简介 --处理例外-传递例外 declare v_ename emp.ename%TYPE; begin SELECT ename INTO v_ename FROM emp where empno=&no; dbms_output.put_line('雇员名：'||v_ename); exceptio
【Java】Java执行远程机器上Linux命令 bit1129 linux命令
Java使用ethz通过ssh2执行远程机器Linux上命令，封装定义Linux机器的环境信息 package com.tom; import java.io.File; public class Env { private String hostaddr; //Linux机器的IP地址 private Integer po
java通信之Socket通信基础白糖_ java socket 网络协议
正处于网络环境下的两个程序，它们之间通过一个交互的连接来实现数据通信。每一个连接的通信端叫做一个Socket。一个完整的Socket通信程序应该包含以下几个步骤： ①创建Socket； ②打开连接到Socket的输入输出流； ④按照一定的协议对Socket进行读写操作； ④关闭Socket。 Socket通信分两部分：服务器端和客户端。服务器端必须优先启动，然后等待soc
angular.bind boyitech AngularJS angular.bind AngularJS API bind
angular.bind 描述：上下文，函数以及参数动态绑定，返回值为绑定之后的函数. 其中args是可选的动态参数，self在fn中使用this调用。使用方法： angular.bind(se
java-13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 bylijinnan java
import java.util.ArrayList; import java.util.List; public class KickOutBadGuys { /** * 题目：13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 * Maybe you can find out
Redis.conf配置文件及相关项说明（自查备用） Kai_Ge redis
Redis.conf配置文件及相关项说明 # Redis configuration file example # Note on units: when memory size is needed, it is possible to specifiy # it in the usual form of 1k 5GB 4M and so forth: #
[强人工智能]实现大规模拓扑分析是实现强人工智能的前奏 comsci 人工智能
真不好意思,各位朋友...博客再次更新... 节点数量太少,网络的分析和处理能力肯定不足,在面对机器人控制的需求方面,显得力不从心.... 但是,节点数太多,对拓扑数据处理的要求又很高,设计目标也很高,实现起来难度颇大...
记录一些常用的函数 dai_lm java
public static String convertInputStreamToString(InputStream is) { StringBuilder result = new StringBuilder(); if (is != null) try { InputStreamReader inputReader = new InputStreamRead
Hadoop中小规模集群的并行计算缺陷 datamachine mapreduce hadoop 并行计算
注：写这篇文章的初衷是因为Hadoop炒得有点太热，很多用户现有数据规模并不适用于Hadoop，但迫于扩容压力和去IOE（Hadoop的廉价扩展的确非常有吸引力）而尝试。尝试永远是件正确的事儿，但有时候不用太突进，可以调优或调需求，发挥现有系统的最大效用为上策。 -----------------------------------------------------------------
小学4年级英语单词背诵第二课 dcj3sjt126com english word
egg 蛋 twenty 二十 any 任何 well 健康的，好 twelve 十二 farm 农场 every 每一个 back 向后，回 fast 快速的 whose 谁的 much 许多 flower 花 watch 手表 very 非常，很 sport 运动 Chinese 中国的
自己实践了github的webhooks, linux上面的权限需要注意 dcj3sjt126com github webhook
环境, 阿里云服务器 1. 本地创建项目, push到github服务器上面 2. 生成www用户的密钥 sudo -u www ssh-keygen -t rsa -C "[email protected]" 3. 将密钥添加到github帐号的SSH_KEYS里面 3. 用www用户执行克隆, 源使
Java冒泡排序蕃薯耀冒泡排序 Java冒泡排序 Java排序
冒泡排序 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 10:40:14 星期二 http://fanshuyao.iteye.com/
Excle读取数据转换为实体List【基于apache-poi】 hanqunfeng apache
1.依赖apache-poi 2.支持xls和xlsx 3.支持按属性名称绑定数据值 4.支持从指定行、列开始读取 5.支持同时读取多个sheet 6.具体使用方式参见org.cpframework.utils.excelreader.CP_ExcelReaderUtilTest.java 比如： Str
3个处于草稿阶段的Javascript API介绍 jackyrong JavaScript
原文： http://www.sitepoint.com/3-new-javascript-apis-may-want-follow/?utm_source=html5weekly&utm_medium=email 本文中，介绍3个仍然处于草稿阶段，但应该值得关注的Javascript API. 1) Web Alarm API &
6个创建Web应用程序的高效PHP框架 lampcy Web 框架 PHP
以下是创建Web应用程序的PHP框架，有coder bay网站整理推荐： 1. CakePHP CakePHP是一个PHP快速开发框架，它提供了一个用于开发、维护和部署应用程序的可扩展体系。CakePHP使用了众所周知的设计模式，如MVC和ORM，降低了开发成本，并减少了开发人员写代码的工作量。 2. CodeIgniter CodeIgniter是一个非常小且功能强大的PHP框架，适合需
评"救市后中国股市新乱象泛起"谣言 nannan408
首先来看百度百家一位易姓作者的新闻：三个多星期来股市持续暴跌，跌得投资者及上市公司都处于极度的恐慌和焦虑中，都要寻找自保及规避风险的方式。面对股市之危机，政府突然进入市场救市，希望以此来重建市场信心，以此来扭转股市持续暴跌的预期。而政府进入市场后，由于市场运作方式发生了巨大变化，投资者及上市公司为了自保及为了应对这种变化，中国股市新的乱象也自然产生。首先，中国股市这两天
页面全屏遮罩的实现方式 Rainbow702 html css 遮罩 mask
之前做了一个页面，在点击了某个按钮之后，要求页面出现一个全屏遮罩，一开始使用了position:absolute来实现的。当时因为画面大小是固定的，不可以resize的，所以，没有发现问题。最近用了同样的做法做了一个遮罩，但是画面是可以进行resize的，所以就发现了一个问题，当画面被reisze到浏览器出现了滚动条的时候，就发现，用absolute 的做法是有问题的。后来改成fixed定位就
关于angularjs的点滴 tntxia AngularJS
angular是一个新兴的JS框架，和以往的框架不同的事，Angularjs更注重于js的建模，管理，同时也提供大量的组件帮助用户组建商业化程序，是一种值得研究的JS框架。 Angularjs使我们可以使用MVC的模式来写JS。Angularjs现在由谷歌来维护。这里我们来简单的探讨一下它的应用。首先使用Angularjs我
Nutz--->>反复新建ioc容器的后果 xiaoxiao1992428 DAO mvc IOC nutz
问题： public class DaoZ { public static Dao dao() { // 每当需要使用dao的时候就取一次 Ioc ioc = new NutIoc(new JsonLoader("dao.js")); return ioc.get(