simhash

simhash


在我看来,这个也不算简单啊,计算量仍然很大,尤其是我比较讨厌的是feature的庞大,对文本来说。吼吼。


google在2002年的文章,Similarity Estimation Techniques from Rounding Algorithms。http://grunt1223.iteye.com/blog/964564

http://www.cnblogs.com/linecong/archive/2010/08/28/simhash.html


DetectingNear-Duplicates for Web Crawling


网上有现有的代码可用。


我理解的一种比较夸张的方式,有一个假设为64位的向量,每个文本都是一个N维的向量,对所有文本的这N维向量进行hash,N>>64,当然可以用每个词在字典中的位置来表示。这样hash完,再对相应的值进行加减,这样得到这篇文章的和64位的向量相关的向量P,这个向量每一位上是一个数值,这个数值表征了hash后对应index上是+还是-,然后进行0和1的转换。然后就把这个文章的hash值得到了。

在google的应用中,说是3个值就是相似文档了。因此,在找相似文档时,可以用这种快速的方式进行。



你可能感兴趣的:(simhash)