SimHash和MinHash

在搜索中,文本滤重可以节省存储空间,并使得排序效果更优。在推荐中,如果应用协同过滤算法,可以节省计算时间。不管在哪种应用场景下,面临的问题都是,需要滤重的对象的数量非常大,且其特征的表示维度非常高,如果进行两两的比较,那么时间复杂度和空间复杂度都很高。因此,1要对特征进行降维,但是降维后的特征仍可计算相似度,根据降维的算法不同,计算相似度的算法不同。(局部敏感哈希LSH可以将相似的字符串hash得到相似的hash值。)2 不能两两进行比较,需要根据降维后的特征,选出候选的最可能相似的两两进行比较即可,把完全不可能相似的排除在外。

在google的论文里,再论文本身的滤重中用到了SIMHash。在论文的推荐中用到了MinHash。两者都是局部敏感哈希。

SimHash

1. 首先基于传统的IR方法,将文章转换为一组加权的特征向量

2. 初始化一个f维的向量V,其中每一个元素初始值为0。

3. 对于文章的特征向量集中的每一个特征,做如下计算:

a) 利用传统的hash算法映射到一个f-bit(一般设成32位或者64位)的签名。对于这个f- bit的签名,如果签名的第i位上为1,则对向量V中第i维加上这个特征的权值,否则对向量的第i维减去该特征的权值

b) 整个特征向量的集合迭代上述运算后,根据V中每一维向量的符号来确定生成的f-bit指纹的值,如果V的第i维为正数,则生成f-bit指纹的第i维为1,否则为0。

汉明距离来衡量相似度。

Simhash算法比较高效,比较适用于对于长文本。

MinHash:集合A、B是docA、docB的one-hot词向量。

1. 使用一组随机的hash函数h(x)对集合A和B中的每个元素进行hash

2. hmin(A)、hmin(B)分别表示分别hash后集合A和集合B的最小值的向量。

3. jarcarrd距离来衡量相似度。

候选的选择:对于一个32位的指纹来说,将该指纹划分成4段(band),每个区间8位,如果两个指纹至多存在3(设k=3)位差异,那么至少有一段的8位是完全相同的,因此可以考虑利用分段来建立索引,来减少需要匹配的候选指纹数量。

SIMHash后的汉明距离为何可以衡量相似度:衡量两个文本的相似度可以看做衡量高维空间向量的夹角。

区别

SIMHash 不适合短文本?

场景特征: 数据量1亿+ ,线下做数据滤重。

但是没有每天新增n多数据。因此在对候选相似集合进行比较时,对性能要求不是特别高。

文本长度算是短文本。短文本测试如下,图为盗图。相似度在0.8左右的Hamming距离为7,只有相似度高到0.9412,Hamming距离才近到4,此时,反观Google对此算法的应用场景:网页近重复。

SimHash和MinHash_第1张图片

MinHash 适合稀疏的数据?

MinHash: 100维,10*10band 。0.7 and (0.7 or 0.7)   122行

50维,10*5band 。0.7 and (0.7 or 0.7)   82行

50维,5*10band 。0.7 and (0.7 or 0.7)  866行  1个半小时 

50维,2*25band 。0.7 and (0.7 or 0.7)  5%的reduce失败,未找到原因。但是1个半小时, 1w+ 行

你可能感兴趣的:(SimHash和MinHash)