聊聊Bloom Filter

最近在看Hadoop源代码的时候,发现了一个Bloom Filter的数据结构,觉得比较有意思,所以了解了一些,下面是大致的解释,需要detailed information的请Google之:

Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属于这个集合的元素误认为属于这个集合(false positive)。因此,Bloom Filter不适合那些“零错误”的应用场合。而在能容忍低错误率的应用场合下,Bloom Filter通过极少的错误换取了存储空间的极大节省。



除了用来去重的场景外,大家有用到Bloom Filter吗?还有些什么场景下,我们可以考虑用它呢?

你可能感兴趣的:(数据结构,框架,hadoop,算法,Google)