凌云竹Csun123

大规模文本相似性计算1(LSH理论部分)

最近在做互联网热点发现时需要将全网一段时间内每一篇文章和它所有相关的报道聚集在一起形成一个事件，再对事件下报道的数量进行汇总和排序得到不同维度的热点事件。

其中相关的报道定义为相似度较高的文章，相似度较高指的是文章间的关键词重合度超过一定阈值或者事件以及事件属性相似度超过一定阈值。

input :

60岁的穆罕默德在贾巴里亚难民营附近的家中被火箭弹射杀

关键词:

穆罕默德:0.6198;贾巴里亚:0.5796;难民营:0.2304;火箭弹:0.2012;射杀:0.1718;附近:0.1701;60岁:0.1018;家中:0.0563;

事件:

这其中涉及一个报道间两两计算相似度的问题。而一天内在各个网站，app，微博，微信等媒体文章的数量为4000万左右。假设一个报道取20个关键词，采用onehot编码，使用稀疏矩阵，两遍文章相似度计算复杂度为，其中，假设位置查找 + 对应位置加以及乘的计算量大约为100次。这样4000万篇文章两两计算复杂度为:

$\times 10^7)^2 \times 1 \times 10^2 = 1.6 \times 10^{17}$

现在计算及单核的计算速度为2ghz，即每秒钟20亿次浮点运算，这里还有操作系统占用资源以及程序调度，io等等占用的资源，真正用来计算的假设为单核2亿次( $2\times 10^8$ ),那要完成这个计算任务，单核大约需要 $\times 10^8$ 秒，大约25年左右，即使加大投入10000核，理想状态下也需要1天来完成计算。

所以这里需要一个策略能将时间复杂度由 $O(N^2)$ 降为 $O (N)$ 或者 $O (N L o g N)$ 。

查询算法中最快的为哈希查询，能够在常数时间内找到具体的某一个物料。如果能将所有的物料按照其属性分到不同的块中，每个块中都是相似的文章，然后只计算块内元素的相似度，其计算量就能极大的简化了，就像哈希查找一样，通过一次哈希计算找到其相似文章所在的块，然后再逐个计算块内物料和查找文章相似度。如下图，假如分成10000个块。

将4千万个报道平均分布在这1万个块中，每个块大约4千个报道，则总的计算量估计为

$(\frac{4\times10^7}{10000})^2\times100 \times 10000 = 1.6 \times 10^{13}$

同上单核计算能力为 $2\times 10^8/s$ 大约需要 $8*10^4$ 秒，大约要22小时计算完，如果100核的集群，大约13分钟就能计算完。

实际操作中全量数据并不是均匀分布在每个块上的，当一个块上数据量超过10万时，因为每一个块是单独计算的，多核并不能加快其计算，单块的计算时间为2小时，会拖慢整体任务进度。(实际使用中测试一个container中数量超过5万就会造成内存溢出)

实际操作中也不是分为10000个块，一般使用 $2^{32}-5$ 个块，具体原因在实现和参数设置篇描述。

所以接下来的任务为，如何将全量数据中相似的项分到相同的块中，不相似的项分到不同的块中，且每块数据量均衡且不超过5万。

分块的方式很多，如先按照报道的地域分块，再按照报道的领域分块，或者交叉分块，但是这种根据业务进行分块的方式一般为kdtree算法，但是并不能处理高纬度数据。

LSH的历史

当前，在大规模高维数据集上近似最近邻问题最好的解决方案是位置敏感哈希，它将高维向量映射到低维空间，并且以较大的概率使映射前相近的映射后仍然相近。LSH虽然采用近似的方法，不保证得出精确的结果，但是它能以较低的代价返回精确的或接近精确的结果。LSH算法有多种，在不同度量空间及不同相似度量条件下有不同的方案。它们在多种场合得到应用，如计算生物学、音乐识别、图像检索、音乐检索、复制检测、近似重复检测和名词聚类等。

LSH是由Indyk在斯坦福大学和他的导师Motwani 与1998年提出的，主要解决汉明空间的高维搜索问题。

2004年，Datar、 Immorlica和 Indyk在斯坦福大学将p - 稳定分布函数引入LSH，并将LSH的使用范围扩展到欧氏空间。

2005年，Indyk的学生Andoni给出了欧氏空间LSH具体实现方案，并称之为E2LSH。

2008年，Andoni 在麻省理工大学将Leech lattice引入文献的LSH方案，将查询时间和内存消耗降到接近于文献中Motwani给出的下界。

2010年，Andoni在他的博士论文中对LSH相关问题进行了详细描述。

Jaccard相似度

判断两个集合是否相等，一般使用称之为Jaccard相似度的算法（后面用Jac(S1,S2)来表示集合S1和S2的Jaccard相似度）。举个列子，集合X = {a,b,c}，Y = {b,c,d}。那么Jac(X,Y) = 2 / 3 = 0.67。也就是说，结合X和Y有67%的元素相同。下面是形式的表述Jaccard相似度公式：

Jac(X,Y) = |X∩Y| / |X∪Y|

也就是两个结合交集的个数比上两个集合并集的个数。
范围在[0,1]之间。

文档的局部敏感哈希算法

此时如果我们有一种算法，能将两个文档 $S_1$ , $S_2$ 编码为一个数字 $s_1$ , $s_2$ ,文档相似的概率为这两个数字相等的概率。

如果能得到上面的算法，就可对目标文档进行多次哈希处理，得到一个签名向量，所有的签名向量会形成签名矩阵M。再对签名分组进行哈希计算，使得相似项会比不相似项更可能哈西到同一桶中。然后将至少有一次哈希到同一桶中的文档对看成为候选对。我们只会检查这些候选对的相似度。这样哈希到同一个桶中的非相似文档称为伪正例(FP)，那些没有映射到相同桶中的真正相似的文档对称为伪反例(FN),我们希望FP和FN的都很小。

我们将矩阵的行分成b个Band（r行为一个Band）

行条号策略分析

假定使用b个行条，每个行条由r行组成，并假定某具体文档之间的jaccard相似度为s，上面已经说明某一种算法得到某个具体行中的两个签名相等的概率为s。接下来我们可以计算这些文档作为候选对的概率，具体计算过程如下：

在某个具体行条中所有行的两个签名相等的概率为 $s^r$

在某个具体行条中至少有一对签名不相等的概率为 $1 - s^r$

在任何行条中的任意一行的签名都不相等的概率为 $1 - s^r)^b$

签名至少在一个行条中全部相等的概率，也就是称为候选对的概率为 $1 - (1 - s^r)^b$

虽然有可能并不特别明显，但是不论常数b和r的取值如何，上述形式的概率函数图像大致为下图给出的s曲线。曲线中上升最陡的地方对应的相似度就是所谓的阈值，他是b和r的函数。阈值是一个近似估计值为 $(\frac{1}{b})^{\frac{1}{r}}$ ,比如b=16, r=4 则阈值的近似度为0.5。

考虑b=20且r=5的情况，也就是说假定签名的个数为100，分为20个行条，每个行条包含5行。于是两列成为候选对的概率为 $1 - (1 - s^5)^{20}$ 不同相似度下它的采样值以及曲线如下

当两篇文档的相似度为0.8时，它们hash到同一个桶而成为候选对的概率是0.9996，而当它们的相似度只有0.3时，它们成为候选对的概率只有0.0475，因此局部敏感hash解决了让相似的对以较高的概率hash到同一个桶，而不相似的项hash到不同的桶的问题。

集合的矩阵表示

假定给出全集{a , b, c, d , e}中元素组成的多个集合的矩阵表示，这里 $S_1=\{a , d\}$ , $S_2=\{c\}$ , $S_3=\{b , d , e\}$ , $S_4=\{a , c , d\}$ ，组成矩阵:

实际中，数据不会存储为一个矩阵的一个原因是该矩阵往往非常稀疏(0的个数远远多于1的个数)，只存储1所在的位置能够大大节省存储的开销，同时又能完整的表示整个矩阵。

Minhash

所谓的MinHsah，即进行如下的操作：

1. 对 $S_1,S_2,S_3,S_4$ 的n个维度，做一个随机排列（即对索引随机 $a, b, c, d, e$ 打乱）

2. 分别取向量 $S_1,S_2,S_3,S_4$ 的第一个非0行的索引值（index），即为MinHash值

举个例子,对上面的数据进行随机打乱，得到下图

可以得到 $h(S_1)=a,h(S_2)=c,h(S_3)=b,h(S_4)=a$

一个神奇的结论

$P(Minhash(S_1) = Minhash(S_2)) = Jac(S_1,S_2)$

在集合的jaccard相似度和最小哈希值之间存在着非同寻常的关联：

两个集合经随机排列转换之后得到的两个最小哈希值相等的概率等于这两个集合的jaccard相似度。

为了理解上述结论的原因，必须要对两个集合同一列所有可能的结果进行枚举，假设只考虑集合 $S_1$ 和 $S_2$ 所对应的列，那么他们所在的行可以按照所有可能的结果分为3类：

X类：两列的值均为1

Y类 : 其中一列值为0，另外一列为1

Z类：两列的值均为0

由于特征非常稀疏，因此大部分行都属于Z类，但是X和Y类行的数目的比例决定了 $Jac(S_1,S_2)$ 和概率 $h(S_1)=h(S_2)$ 的大小，假定X类行的数目为x，Y类行的数目为y，则 $Jac(S_1,S_2)=\frac{x}{x+y}$ 原因是 ${S_1}\bigcup{S_2}$ 的大小为x，而 ${S_1}\bigcap{S_2}$ 的大小为x+y。

接下来考虑 $h(S_1)=h(S_2)$ 的概率。设想所有行进行随机排列转换，然后从上到下进行扫描处理，在碰到Y类行之前碰到X类行的概率是 $\frac{x}{x+y}$ ，如果从上往下扫描遇到的除Z类之外的第一行属于X类，那么肯定有 $h(S_1)=h(S_2)$ 。另一方面，如果首先碰到的是Y类行，而不是Z类行，那么值为1的那个集合的最小哈希值为当前行。但值为0的那个集合必将会进一步扫描下去，因此，如果首先碰到Y类行，那么此时 $h(S_1) \neq h(S_2)$ .于是，可以得到最终结论，及 $h(S_1)=h(S_2)$ 的概率为 $\frac{x}{x+y}$

最小哈希签名

之前用矩阵M表示特征矩阵，我们随机选择n个排列转换用于矩阵M的行处理，其中n一般为几百。对于集合S对应的列，分别调用这些排序转换锁具定的最小哈希函数 $h_1,h_2,...h_n$ 则可构建S的最小哈希签名向量 $h_1(S),h_2(S),...h_n(S)$ ,该向量通常写为列向量格式，因此，基于矩阵M可以构建一个签名矩阵，其中M的每一列替换为该列所对应的最小哈希签名向量即可。这里的签名矩阵与M的列数相同但行数只有n，通常签名矩阵所需要的空间比矩阵M本身需要的空间要小的多。

对大规模特征矩阵进行行显示排列转换是不可行的，即使对上百万的行选择一个随机排列转换也及其消耗时间，而对行进行必要的排序则需要花费更多的时间，因此上面的算法理论上很吸引人，但是缺少可操作性。

这里我们可以通过一个随机哈希函数来模拟随机排列转换的效果，该函数将行号映射到与行数目大致相等数量的桶中。通常，一个将整数0,1,…,k-1映射到桶号0,1,…,k-1的哈希函数会将某些整数映射到一个桶中，而有些桶却没有倍任何整数所映射到。然而，只要k很大且哈希结果冲突不太频繁的话，差异就不是很重要。于是，我们就可以继续假设哈希函数h将原来的第r行放在排列转换后次序中的第h®个位置上。

因此，我们就可以不对行选择n个随机排列转换，取而代之的是随机选择n个哈希函数 $h_1,h_2,...h_n$ 作用于行。在上述处理基础上，就可以根据每行在哈希之后的位置来构建签名矩阵。令SIG(i,c)为签名矩阵中第i个哈希函数在第c列上的元素。一开始，对于所有的i和c，将SIG(i,c)都初始化为 $\infty$ .然后，对r进行如下处理：

$h_1(r),h_2(r),...h_n(r)$

对每列c进行如下操作：

(a)如果c在第r行为0，则什么都不做

(b)否则，如果c在第r行为1，那么对于每个i=1,2,…,n,将SIG(i,c)置为原来的SIG(i,c)和 $h_i(r)$ 中的较小值。

使用上面的特征矩阵，在前面加上行号，在后面加上哈希函数对行号散列后的值形成下图，这里使用2个哈希函数 $h_1(x)=(x+1)\mod 5 $ , $h_1(x)=(3x+1)\mod5$

签名计算流程为下图

通过上面签名矩阵可以看出 $Jac(S_1,S_4)=1$ 而真实的 $Jac(S_1,S_4)=\frac{2}{3}$ ,这里签名的相似度只是一个真实相似度的估计值，本例中数据规模太小，不足以说明大规模数据下相似度的估计程度。

最小函数族总结

这里给出一个完整的相似项发现算法:首先找出可能的候选对相似文档集合，然后基于该集合发现真正的相似文档。

这里还是4000万文档，计算机单核计算能力 $\times 10^8$ ,采用20个band，每个band5行,每个文档取20个特征。总的计算量为：

生成minhash签名: $\times 10^7 \times 100 \times 20$

哈希到相应的桶中: $\times 10^7 \times 20$

两两计算相似度: $\times 10^7 \times 20 \times C$ 这里C为常数，假设为100

总的计算量: $\times 10^7 \times 4020$

单核用时: $800 s$

但是上面最小哈希函数族并不能满足要求，因为jaccard距离是没有权重的，而实际中往往是有特征权重的，接下来就讨论除最小函数族之外的的其它函数族，他们也能非常高效地产生候选对

局部敏感函数理论

上面介绍了LSH技术是一个具体函数族(最小哈希函数族)上的应用例子，这些函数可以组合在一起(如上面提到的行条化技术)来更有效的区分低距离对和高距离对。

这些函数族必须满足以下3个条件：

(1) 它们必须更可能选择近距离对而不是远距离对作为候选对。

(2) 函数之间必须在统计上相互独立。

(3) 他们必须在以下两个方面具有很高的效率：

(a) 它们必须能在很短的时间内识别候选对，改时间远小于扫描所有对所花费的时间。

(b) 他们必须能更好的组合在一起来避免伪正例和伪反例，组合后所花费的时间也必须远小于对的数目。

这里考虑一个判定函数，它判定两个候选项是否为候选对。很多情况下，函数f会对两个输入项求哈希值，最后的判断取决于两个哈希值是否相等。当 $f (x, y)$ 判定x和y是一个候选对时，用 $f (x) = f (y)$ 来表示。同样的用 $f(x)\ne f(y)$ 来表示 $f (x, y)$ 判定x，y不是候选对。这种形式的一系列函数集合构成了所谓的函数族。

令 $d_1d1<d2$

(1) 如果 $d(x,y)\le d_1$ ,那么 $f (x) = f (y)$ 的概率至少是 $p_1$

(2) 如果 $d(x,y)\ge d_2$ ,那么 $f(x)\ne f(y)$ 的概率至少是 $p_2$

下图给出了一个示意图，该图表示的是 $d_1,d_2,p_1,p_2)$ 敏感的函数族中的一个给定函数对两个输入项判断是否候选对的期望概率情况。我们可以使 $d_1$ 和 $d_2$ 尽量靠近。当然这种靠近通常也会使得 $p_1$ 和 $p_2$ 相互靠近。后面会提供一种方法，在固定 $d_1$ 和 $d_2$ 的情况下尽量分开 $p_1$ 和 $p_2$ 。

面向Jaccard距离的局部敏感函数族

目前为止，我们暂时只有一种找到局部敏感函数族的方法，即采用最小哈希函数族并假设距离测度采用Jaccard距离。

对任意 $d_1$ , $d_2$ , $0\le d_1 \le d_2 \le 1$ ，最小哈希函数族是 $d_1,d_2,1-d_1,1-d_2)$ 敏感的。

证明: $\because$ 如果x，y的jaccard距离 $d(x,y)\le d_1$

$\therefore sim(x,y) = 1- d(x,y) \ge 1- d_1$

$\because$ x和y的jaccard相似度等于最小哈希函数对x及y哈希之后结果相等的概率

$\therefore P(f(x)=f(y)) \ge 1- d_1$

同理证明(2)

局部敏感函数族的放大处理

假设给定一个 $d_1,d_2,p_1,p_2)$ 敏感的函数族F.我们可以对F进行与构造得到新的函数族 $F^{'}$ 。 $F^{'}$ 的定义如下: $F^{'}$ 的每个成员函数由r个F成员函数组成，其中r是一个固定常数。若f在 $F^{'}$ 中，而f为F的函数成员 $f_1,f_2,...f_r$ 中一个，当且仅当所有i都有 $f_i(x)=f_i(y)$ 时，才有 $f (x) = f (y)$ 。

由于 $F^{'}$ 的成员函数都是从F的成员函数中独立选出的，因此可以断言 $F^{'}$ 是一个 $d_1,d_2, (p_1)^r,(p_2)^r)$ 敏感的函数族。也就是说，对于任意p，如果F的一个成员函数判定(x,y)是候选对的概率为p,那么 $F^{'}$ 的一个成员函数相同判定的概率为 $p^r$ 。

另外一种构造方式称为或构造，他可以将一个 $d_1,d_2,p_1,p_2)$ 敏感的函数族F转换为
一个 $d_1,d_2, 1-(1-p_1)^r,1-(1-p_2)^r)$ 敏感的函数族 $F^{'}$ 。也就是说当且仅当存在一个或者多个i使 $f_i(x)=f_i(y)$ 时，才有 $f (x) = f (y)$

我们注意到，与构造过程降低了所有的概率。但是如果能够谨慎选择F和r，就能使得小概率 $p_2$ 非常接近于0，同时大概率 $p_1$ 显著偏离0。类似的，或构造过程提升了所有的概率，但是通过谨慎选择F和r，能使得 $p_1$ 接近于1而 $p_2$ 有界远离1。通过任意次序串联与构造与或构造就可以使得 $p_2$ 接近于0，同时 $p_1$ 接近于1。

不同r和b选择的情况下图像的样子如下

面向其它函数族的LSH

面向海明距离的LSH函数族

假定一个d维向量空间， $h (x, y)$ 表示向量x和向量y之间的海明距离。选取向量的任意位置(如第i个位置),则定义函数 $f_i(x)$ 为向量x的第i个位置上的分量，当且仅当x和y的第i个位置上的分量值相等时有 $f_i(x) = f_i(y)$ 。对于随机选择的i， $f_i(x) = f_i(y)$ 的概率为 $\frac{h(x,y)}{d}$ ，即向量x和向量y中相等分量所占的比例。

上述情况和最小哈希遇到的情况几乎完全相同。因此，对任意 $d_1d1<d2$

(1) Jaccard距离的取值范围是0到1之间，而两个d维向量空间的海明距离的取值范围是0到d。因此，必须对海明距离除以d来转换成概率。

(2) 本质上，最小哈希函数的形式可以有无限可能，而海明距离的函数族F的规模仅为d。

因为海明距离的函数族F规模有限，所以其会限制S-曲线的陡峭程度。

举例说明其计算过程：

数据点集合P由以下6个点构成:A=(1,1) ,B=(2,1),C=(1,2),D=(2,2),E=(4,2),F=(4,3)

可知坐标出现的最大值是4，则d=4,维度为2，则n=2，显然dC=8，我们进行8位海明编码

v(A) = 10001000

v(B) = 11001000

v© = 10001100

v(D) = 11001100

v(E) = 11111100

v(F) = 11111110

若采用d=2 , r= 3生成哈希函数

G由 $g_1$ , $g_2$ , $g_3$ 构成，每个g由它对应的 $h_1$ , $h_2$ 构成，假设有如下结果。

$g_1$ 分别抽取2,4位。

$g_2$ 分别抽取1,6位。

$g_3$ 分别抽取3,8位。

哈希表的分布如下图所示

若此时我们查询点q=(4,4),可以计算出 $g_1=[1,1]^T$ , $g_2=[1,1]^T$ , $g_3=[1,1]^T$ 。则分别取出表1，2，3的11，11，11号哈希桶的数据点与q比较。依次是C，D，E，F。算出距离q最近的点为F。原始搜索空间为6个点，现在搜索空间为4个点。

随机超平面和余弦距离

两个向量的余弦距离是他们的夹角，夹角越小，成为候选对的概率越大。接下来讨论这个夹角和夹角相关的概率如何确定。

答案就是通过一个哈希函数对这两个向量进行哈希，而这个哈希函数实际上只是一个随机的向量与这两个向量的内积，如果好多个这样的随机向量与他们的内积是同号的，则说明这两个向量的夹角很小，相似性大，否则相似性小。

如下图，紫色虚线能将x和y哈希到同一位置，黄色的不能。

对于任意的向量x和y，x和y之间的距离为x和y之间的夹角 $\theta$ .哈希函数为随机寻找一个向量v，如果 $\times v$ 和 $\times v$ 同号，则说明f(x) = f(y)，很明显，其概率为 $1-\frac{\theta}{180}$ 。所以F具备 $(d_1,d_2,1-\frac{d_1}{180},1-\frac{d_2}{180})$ 敏感性。

随机向量v可以只由1和-1组成，因为夹角和向量的模无关，而只选择1或者-1方便计算。

举例说明其计算过程：

给定一个四维的向量空间，选出3个随机向量 $v_1=[+1,-1,+1,+1]$ , $v_2=[-1,+1,-1,+1]$ , $v_3=[+1,+1,-1,-1]$ 。那么对于向量x=[3,4,5,6]。计算过程如下: $v_1 \times x = 3-4+5+6=10>0$ 因此其梗概的第一个元素为+1。类似的, $v_2 \times x = 3$ 且 $v_3 \times x = -4$ 。因此梗概的第二个元素和第三个元素分别是+1和-1.

考虑向量y=[4,3,2,1],可以采用上述类似的方法计算其梗概为 $[+ 1, - 1, + 1]$ 。由于x和y的梗概中相同元素的比例为 $\frac{1}{3}$ ，因此可以估计这两个向量间夹角为 $1-\frac{\theta}{180}=\frac{1}{3}$ ,其中 $\theta = 120$

但是上述结论却大错特错。我们可以计算这两个向量的的夹角为 $\theta = \frac{6\times 1 + 5\times 2 + 4\times 3 + 3\times 4}{\sqrt{6^2+5^2+4^2+3^2}\times \sqrt{1^2+2^2+3^2 +4^2}}=0.7875$ 大约为38度左右。但是上面结果错误是法向量采样问题，如果选择所有的16个不同的四维+1,-1向量就会发现，其中只有4个向量与x的内积和与y的内积符号相反。因此，如果选择16个向量来构成梗概的话，那么最后的夹角估计结果为 $1-\frac{\theta}{180}=\frac{12}{16}$ 为45度。

面向欧式距离的LSH函数族(E2LSH)

欧式空间中，LSH的hash算法的思路是将n维向量随机射到一个向量，使用向量点乘，由于投射向量不是单位向量，所以严格意义上不能称之为投影。投射hash算法如下:

$\left\lfloor \frac{a \bullet v + b}{w} \right\rfloor$

其中 $b(\in [0,w])$ 是随机量， $(\in R^n,a_i \sim N(0,1))$ ，是被投射的向量。投射完后，需要设置一个固定长度为w的参数，将向量严格的划分为不同的单位，投射到相同单位的向量就认为比较近。所以，w的设置十分重要，如果设置太大，比较远的对象也设hash到一个单位里，无法做到过滤的效果；如果太小，即使很近的对象也到不了一个桶里面，导致找不到相邻的对象。

碰撞概率分析

设向量 $\in R^n$ ，并且 $u=\lVert p-q\rVert_2$ ，p与q投射到任意向量
a
的概率如下，

$2\int_{0}^{w}\frac{1}{u}f(\frac{t}{u})(1-\frac{t}{w})dt$

上面概率公式很突然，先别慌是怎么过来的，后面慢慢道来，我们先直奔主题: $p (u, w)$
的解析解。观察w,u与概率的关系，控制碰撞概率。 $f (x)$
是稳定分布的概率密度函数，该分布只有在欧式距离和曼哈顿距离才有解析解，否则没有。好在我们关心的是欧式空间，所以可以得到解析解。欧式空间中， $f(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}$ 是标准正在分布的概率密度函数。完整推导如下，

$\begin{array}{l l l} p(u)&= 2(\int_{0}^{w}\frac{1}{u}f(\frac{t}{u})dt - \int_{0}^{w}\frac{1}{u}f(\frac{t}{u})\frac{t}{w}dt) \\ &= 2(\int_{0}^{w}f(\frac{t}{u})d\frac{t}{u} - \int_{0}^{w}\frac{1}{u\sqrt{2\pi}}e^{-\frac{t^2}{2u^2}}\frac{t}{w}dt) \\ &= 2(\int_{0}^{\frac{w}{u}}f(x)dx - \frac{-u}{\sqrt{2\pi}w}\int_{0}^{w}e^{-\frac{t^2}{2u^2}}d(-\frac{t^2}{2u^2})) \\ &= 2(\frac{1}{2} - F(-\frac{w}{u}) + \frac{u}{\sqrt{2\pi}w}e^{-\frac{t^2}{2u^2}}|^w_0) \\ &= 2(\frac{1}{2} - F(-\frac{w}{u}) + \frac{u}{\sqrt{2\pi}w}(e^{-\frac{w^2}{2u^2}}-1)) \\ \end{array}$

令 $c=\frac{u}{w}$

$2F(-\frac{1}{c}) + \sqrt{\frac{2}{\pi}}c(e^{-\frac{1}{2c^2}}-1)$

上面推导的结果只与c有关，无需考虑数据真实的单位.画出上面函数的图像为下图：

根据曲线，上述函数是关于c的减函数，也就是比例越大，聚到一起的概率越低，理论与直觉一致。可以通过设定u，然后通过曲线设置一个概率，得到对应w。通过计算导数，也可以很容易发现其值恒为复数，如下：

$\begin{array}{l l l} p(u)&= 2(\int_{0}^{w}\frac{1}{u}f(\frac{t}{u})dt - \int_{0}^{w}\frac{1}{u}f(\frac{t}{u})\frac{t}{w}dt) \\ &= 2(\int_{0}^{w}f(\frac{t}{u})d\frac{t}{u} - \int_{0}^{w}\frac{1}{u\sqrt{2\pi}}e^{-\frac{t^2}{2u^2}}\frac{t}{w}dt) \\ &= 2(\int_{0}^{\frac{w}{u}}f(x)dx - \frac{-u}{\sqrt{2\pi}w}\int_{0}^{w}e^{-\frac{t^2}{2u^2}}d(-\frac{t^2}{2u^2})) \\ &= 2(\frac{1}{2} - F(-\frac{w}{u}) + \frac{u}{\sqrt{2\pi}w}e^{-\frac{t^2}{2u^2}}|^w_0) \\ &= 2(\frac{1}{2} - F(-\frac{w}{u}) + \frac{u}{\sqrt{2\pi}w}(e^{-\frac{w^2}{2u^2}}-1)) \\ \end{array}$

导数严格小于0，证实了上述曲线确实严格下降。

碰撞概率推导过程

本节详细介绍如何得到上面的概率公式。假设 $t=a\bullet v_1 - a \bullet v_2$ 是向量 $v_1$ ， $v_2$ 投影到a上距离，必须 $\le w$ 才有 $Pr(h(v_1) = h(v_2)) > 0$ 所以当 $v_1$ ， $v_2$ 投影距离为t时，且t>0时碰撞的概率为 $1-\frac{t}{w}$ 。但是t的概率是什么呢？t与投影向量有关，同时与向量 $v_1$ ， $v_2$ 也有关。

这里需要利用稳定分布。这是一类分布，如果任意分布D是稳定分布，那么任意n个D的独立同分布随机变量 $X_1,X_2,\cdots,X_n$ ,在任意n个实数 $v_1,v_2,\cdots,v_n$ ,有 $\sum_{i=1}^{n}{(v_iX_i)}$ 与 $(\sum{|v_i|^s})^{\frac{1}{s}}X$ (X也是D的一个随机变量)有相同的分布。可以利用这个分布计算t的概率分布。

对于随机变量 $t=a(v_1-v_2)=\sum{a_i(v_{1i}-v_{2i})}$ ,只要 $a_i$ 的概率分布固为D，t的分布与 $(\sum{|v_{1i}-v_{2i}|^s})^{\frac{1}{s}}a$ 一致。且当 $s = 2$ 时，分布D是标准正太分布。(只有S等于2或1，D的分布才有解析解，否则没有)。在s=2的情况下，设a的概率密度函数为 $f_A(a)$ ,且 $u=(\sum{|v_{1i}-v_{2i}|^2})^{\frac{1}{2}}$ ,那么 $f_T(t)=\frac{1}{u}f_A(\frac{t}{u})$ 有了t的概率密度函数，对于任意t的概率为 $\frac{1}{u}f_X(\frac{t}{u})dt$ 结合概率积分，得到概率最后的碰撞概率公式: $p(w,u)=2\int_0^w\frac{1}{u}f_X(\frac{t}{u})(1-\frac{t}{w})dt$ ，当 $\in [-w,0]$ 时，概率与 $[0, w]$ 一致，所以乘以2；其他范围概率均为0。

欧式空间中的 $r_1,r_2,p_1,p_2)-sensitive$

上面讨论的投射方法和碰撞概率函数，就是分别对应上面定义的h和P。尤其是碰撞函数，可以根据给出的 $r_1$ 和 $r_2$ 情况估算 $p_1$ 和 $p_2$ ，并且计算最优的w的范围。首先，回顾一下碰撞函数:

$2F(-\frac{1}{c}) + \sqrt{\frac{2}{\pi}}c(e^{-\frac{1}{2c^2}}-1)$

其中 $c=\frac{u}{w}$ ,假设 $r_1=5,r_2=50,p_1 = 0.95, p_2 = 0.1$ 。根据碰撞概率的解析公式，可以得到 $p_1$ , $p_2$ 对应的数值解。即 $c_1 = g^{-1}(p_1),c_2=g^{-1}(p_2)$ 。由于概率公式是减函数，所以

$\begin{array}{l l l} g(c_1) \ge p_1 and g(c_2) \le p_2 &\Rightarrow c_1 \le g^{-1}(p_1) and c_2 \ge g^{-1}(p_2) \\ &\Rightarrow \frac{r_1}{w} \le g^{-1}(p_1) and \frac{r_2}{w} \ge g^{-1}(p_2) \\ &\Rightarrow \frac{r_1}{g^{-1}(p_1)} \le w \le \frac{r_2}{g^{-1}(p_2)} \\ &\Rightarrow \frac{5}{g^{-1}(0.95)} \le w \le \frac{50}{g^{-1}(0.1)} \\ \end{array}$

$p_1$ , $p_2$ 与 $r_1$ , $r_2$ 可以根据应用精度和数据范围，人工估算。通过碰撞公式，完美的解决了w的取值问题，非常具有指导意义。但是，上述不等式不是永远成立的，部分 $p_1$ , $p_2$ 与 $r_1$ , $r_2$ 的组合可能导致不等式下界大于上界。

强化LSH函数

强化LSH函数，可以不改变LSH算法的情况下，通过增加运算量，提高精度。假设有一个 $r_1,r_2,p_1,p_2)-sensitive$ 函数族 $F$ ，可以通过逻辑与的方法构造一个新的函数族 $F^{'}$ .

假设 $\in F'$ 并且 $f_i \in F, i = 1,2,\cdots r$ 令 $f (x) = f (y)$ 为 $f_i(x)=f_i(y),i = 1,2,\cdots,r$ ，此时 $F^{'}$ 是 $r_1, r_2, p_1^r, p_2^r) - sensitive$ 。如果 $p_2$ 较小 $p_1$ 较大，可以通过此操作将其进一步的缩小，同时有不会将 $p_1$ 变得太小。

同理，可以使用逻辑或的方法，将其变成一个 $r_1, r_2, 1-(1-p_1)^r, 1-(1-p_2)^r) - sensitive$ 。其效果与逻辑和相反，它将概率均变大。

常用的方法是将逻辑与嵌套到逻辑或中使用，得到 $r_1, r_2, 1-(1-p_1^k)^L, 1-(1-p_2^k)^L) - sensitive$ 函数族（先使用逻辑与，再使用逻辑和也可）。这种组合的意义是去掉那些碰巧hash到一起的情况，如果真的很近，在L组计算中，总有一组k个hash均相等。k和L需要设置合理，L如果设置太大，计算开销会增加。给定k，增强的概率比原来要好，即 $\rho_1 \le 1-(1-p_1^k)^L, \rho_2 \ge 1-(1-p_2^k)^L$ ，可以得到L的范围:

$\frac{\ln{(1-\rho_1)}}{\ln{(1-p_1^k)}} \le L \le \frac{\ln{(1-\rho_2)}}{\ln{(1-p_2^k)}}$

L取范围内最小的整数，节省空间。桶里，上面不等式不保证永远成立，条件太苛刻时需要调整。

E2LSH的工作流程

前面理论讲了很多，现在介绍LSH的工作流程。大体步骤分为两步：1）创建hash表；2）对象聚集。

创建hash表

如果不使用增强hash函数，理论上只需要一个hash表即可。但是从实际应用来看，一个hash表要不够精确。最佳实践是创建 $\times L$
个hash表，每一个表的hash函数均是使用标准正太分布随机生成投影向量和均匀分布生成随机偏移量。每k个hash表为一组，称为一个“桶”，共L个桶。生成过程如下：

由于随机的原因，可能有些比较近的对象在一个桶内会hash到不同的位置，但是我们给了L个桶，即L此碰撞机会。如果他们真的相似，总有可能在其他桶里面hash到同一个位置（该桶内所有k个hash值均相等）。

对象聚集

hash表创建完毕后，只是给每个对象一堆 $\times l$ 标记，实际上相似的对象并没有在一起。需要将这些标记，每k个合并为一个id，然后按照id聚合。生成id使用两段hash函数 $h_1$ , $h_2$ 计算方法如下

$\begin{array}{l l l} h_1 = a \bullet v \bmod p \bmod n \\ h_2 = b \bullet v \bmod p \end{array}$

其中 $\in R^k$ ,且 $a_i,b_i$ 是随机整数.p
是一个很大的质素，通常 $p=2^{32}-5$ ；n是源数据条数。如果只使用1个hash函数，n较大时，冲撞的概率不可以忽略；但是如果使用两个hash函数，冲撞的概率基本可以忽略不计。整个过程示意图如下：

合并后，同一个key下的所有对象就是比较近的对下。然后根据事先设定的相似度阀值，得到阀值以内的相似对象。

你可能感兴趣的:(hadoop,机器学习,算法)

C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
LeetCode算法题：电话号码的字母组合吱屋猪_ 算法 leetcode java
题目描述：给定一个仅包含数字2-9的字符串，返回所有它能表示的字母组合。答案可以按任意顺序返回。给出数字到字母的映射如下（与电话按键相同）。注意1不对应任何字母。2->"abc"3->"def"4->"ghi"5->"jkl"6->"mno"7->"pqrs"8->"tuv"9->"wxyz"例如，给定digits="23"，返回["ad","ae","af","bd","be","bf","cd
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
被动降噪的概念及编程实现 CodeByte 人工智能算法 javascript 编程
被动降噪是指通过编程技术和算法，对输入的数据进行处理，以减少或消除其中的噪声。噪声可以是各种形式的干扰，例如来自传感器、通信信号或其他外部源的干扰。在本文中，我们将探讨被动降噪的意义以及如何使用编程来实现这一目标。被动降噪的意义：噪声对数据的准确性和可靠性产生负面影响。在许多应用领域，例如图像处理、音频处理和信号处理中，噪声的存在可能导致数据质量下降，使得后续的分析和处理变得困难。因此，被动降噪技
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
反光衣识别漏检率 30%？陌讯多尺度模型实测优化
在建筑工地、交通指挥等场景中，反光衣是保障作业人员安全的重要装备，对其进行精准识别是智能监控系统的核心功能之一。但传统视觉算法在实际应用中却屡屡碰壁：强光下反光衣易与背景混淆、远距离小目标漏检率高达30%、复杂场景下模型泛化能力不足[实测数据来源：某智慧工地项目2024年Q1日志]。这些问题直接导致安全监控系统预警滞后，给安全生产埋下隐患。一、技术解析：反光衣识别的核心难点与陌讯算法创新反光衣识别
【GESP】C++三级真题 luogu-B4359 [GESP202506 三级] 分糖果 CoderCodingNo GESP c++java 开发语言
GESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较简单。题目题解详见：【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoder【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoderGESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较
【华为机试】HJ61 放苹果不爱熬夜的Coder 算法华为机试 golang 华为 golang 算法面试
文章目录HJ61放苹果描述输入描述输出描述示例1示例2解题思路算法分析问题本质分析状态定义与转移递推关系详解动态规划表构建算法流程图示例推导过程代码实现思路时间复杂度分析关键优化点边界情况处理递归解法对比实际应用场景测试用例分析算法特点数学原理完整题解代码HJ61放苹果描述我们需要将m个相同的苹果放入n个相同的盘子中，允许有的盘子空着不放。求解有多少种不同的分法。输入描述输入两个整数m,n(0B[
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
.NET中的安全性之数字签名、数字证书、强签名程序集、反编译 hezudao25 NET .net assembly 加密算法 reference header
本文将探讨数字签名、数字证书、强签名程序集、反编译等以及它们在.NET中的运用（一些概念并不局限于.NET在其它技术、平台中也存在）。1.数字签名数字签名又称为公钥数字签名，或者电子签章等，它借助公钥加密技术实现。数字签名技术主要涉及公钥、私钥、非对称加密算法。1.1公钥与私钥公钥是公开的钥匙，私钥则是与公钥匹配的严格保护的私有密钥；私钥加密的信息只有公钥可以解开，反之亦然。在VisualStud
数据结构：导论梁辰兴数据结构学习笔记数据结构导论算法时间复杂度空间复杂度
目录一，数据结构的研究内容二，基本概念与术语（一）数据、数据元素、数据项与数据对象（二）数据结构（三）数据类型与抽象数据类型️三，抽象数据类型的表示与实现⚙️四，算法与算法分析⚖️（一）算法的定义及特性（二）评价算法优劣的基本标准⏱️（三）算法的时间复杂度（四）算法的空间复杂度章结一，数据结构的研究内容数据结构是计算机科学的核心基础，其研究内容可概括为三大维度：数据组织形式：探索如何将现实世界中的
C++ 标准库＜numeric＞
以下对C++标准库中头文件所提供的数值算法与工具做一次系统、深入的梳理，包括算法功能、示例代码、复杂度分析及实践建议。一、概述中定义了一组对数值序列进行累加、内积、差分、扫描等操作的算法，以及部分辅助工具（如std::iota、std::gcd/std::lcm等）。所有算法均作用于迭代器区间，符合STL风格，可与任意容器或原始数组配合使用。从C++17、20起，又陆续加入了并行友好的std::r
具身语义导航算法总揽 Shilong Wang 具身导航算法算法
端到端方法小脑大脑GNMNavDPNaVILAViNTNomadNavidStreamVLNMapNavNavGPTUni-NavidOctoNavNavGPT2模仿学习行为克隆BCDAgger模块化方法GOATVLFMSayPlanLM-NavETPNavVoroNavEmbodiedRAGVL-NavStairwaytoSuccess业内大佬北大王鹤NavidUni-NavidOctoNav吴
android去除gps漂移代码,GPS漂移过滤算法扇贝君
GPS漂移过滤算法基本思想：逐点过滤，再经过基础过滤后，进行判断运动状态，静止状态和运动中。如果静止，则使用电子围栏；如果运动，则先过滤大速度，再过滤加速度，然后过滤距离(包括超大距离，和速度相关距离)。对于要过滤的点，采用之前最近的可靠点，进行替换，同时，无效次数+1，如果后面是有效点，则无效次数-1，如果无效次数归0，认为这个点才是真正可靠点(无效次数为正时，都为要被替换的点)。如果遇到不定点
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
项目开发日记
框架整理学习UIMgr：一、数据结构与算法1.1关键数据结构成员变量类型说明m_CtrlsList当前正在显示的所有UI页面m_CachesList已打开过、但现在不显示的页面（缓存池）1.2算法逻辑查找缓存页面：从m_Caches中倒序查找是否已有对应ePageType页面，找到则重用。页面加载：从资源管理器ResMgr加载prefab并绑定控制器/视图组件。页面关闭：从m_Ctrls移除，添加
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
《C++性能优化指南》 linux版代码及原理解读第一章 v俊逸 C++性能优化指南性能优化 C++性能优化性能优化
概述：目录概述：性能优化的必要性：C++代码优化策略总结用好的编译器并用好编译器使用更好的算法使用更好的库减少内存分配和复制移除计算使用更好的数据结构提高并发性优化内存管理性能优化的必要性：按照当今的CPU运行速度来说，执行一条指令所需要的时间是10的-9次方的时间单位，如此快速的执行速度是否就没有性能优化的必要了呢？其实不然，性能优化与CPU的执行速度并无非常大的关系，试想一下，一段代码，如果用
《C++性能优化指南》 linux版代码及原理解读第四章 v俊逸 C++性能优化指南性能优化 C++性能优化指南性能优化
目录概述为什么字符串很麻烦字符串是动态分配的字符串赋值背后的操作如何面对字符串会进行大量复制写时复制COW（copyonwrite）尝试优化字符串避免临时字符串通过预留存储空间减少内存分配通过传递引用减少实参复制使用迭代器操作减少循环中的比较操作减少返回值的复制还没有结束，使用字符数组代替字符串再次优化字符串尝试其他的算法叠加以前的优化方式使用其他的编译器使用其他字符串的库功能丰富的字符串库使用s
rtos内存管理林内克思 java linux 算法
FreeRTOS将内存分配API保留在其可移植层，提供了五种内存管理算法：heap_1：最简单，不允许释放内存。heap_2：允许释放内存，但不会合并相邻的空闲块。heap_3：简单包装了标准malloc()和free()，以保证线程安全。heap_4：合并相邻的空闲块以避免碎片化。包含绝对地址放置选项。heap_5：如同heap_4，能够跨越多个不相邻内存区域的堆。特点缺点heap_1简单、不支
c++中迭代器的本质三月微风 c++开发语言
C++迭代器的本质与实现原理迭代器是C++标准模板库(STL)的核心组件之一，它作为容器与算法之间的桥梁，提供了统一访问容器元素的方式。下面从多个维度深入解析迭代器的本质特性。一、迭代器的基本定义与分类迭代器的本质迭代器是一种行为类似指针的对象，用于遍历和操作容器中的元素。它提供了一种统一的方式来访问不同容器中的元素，而无需关心容器的具体实现细节。标准分类体系C++标准定义了5种迭代器类型，按功能
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin