BLOOM filter 布隆过滤器  去重算法首选


去重一般用hash。 hash 算法有MD5, SHA-1, MD4

Hash存在一个冲突(碰撞)的问题,用同一个Hash得到的两个URL的值有可能相同。为了减少冲突,我们可以多引入几个Hash,如果通过其中的一个Hash值我们得出某元素不在集合中,那么该元素肯定不在集合中。只有在所有的Hash函数告诉我们该元素在集合中时,才能确定该元素存在于集合中。这便是Bloom-Filter的基本思想。


http://blog.csdn.net/hguisu/article/details/7866173

你可能感兴趣的:(去重,hash,布隆过滤器)