布隆过滤器(BoomFilter)学习

一、什么是布隆过滤器(BoomFilter)

Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。它实际上是一个很长的二进制向量和一系列随机映射函数。

特点总结为如下:

  • 空间效率高的概率型数据结构,用来检查一个元素是否在一个集合中。
  • 对于一个元素检测是否存在的调用,BloomFilter会告诉调用者两个结果之一:可能存在或者一定不存在。

二、使用场景

  1. 解决缓存穿透
    我们经常会把一部分数据放在Redis等缓存,比如产品详情。这样有查询请求进来,我们可以根据产品Id直接去缓存中取数据,而不用读取数据库,这是提升性能最简单,最普遍,也是最有效的做法。一般的查询请求流程是这样的:先查缓存,有缓存的话直接返回,如果缓存中没有,再去数据库查询,然后再把数据库取出来的数据放入缓存,一切看起来很美好。但是如果现在有大量请求进来,而且都在请求一个不存在的产品Id,会发生什么?既然产品Id都不存在,那么肯定没有缓存,没有缓存,那么大量的请求都怼到数据库,数据库的压力一下子就上来了,还有可能把数据库打死。
    虽然有很多办法都可以解决这问题,但是我们的主角是“布隆过滤器”,没错,“布隆过滤器”就可以解决(缓解)缓存穿透问题。至于为什么说是“缓解”,看下去你就明白了。
  1. 大量数据,判断给定的是否在其中
    现在有大量的数据,而这些数据的大小已经远远超出了服务器的内存,现在再给你一个数据,如何判断给你的数据在不在其中。如果服务器的内存足够大,那么用HashMap是一个不错的解决方案,理论上的时间复杂度可以达到O(1),但是现在数据的大小已经远远超出了服务器的内存,所以无法使用HashMap,这个时候就可以使用“布隆过滤器”来解决这个问题。但是还是同样的,会有一定的“误判率”。
  1. 进行垃圾邮件过滤(垃圾数据过滤)
  1. 网页爬虫对 URL 的去重,避免爬取相同的 URL 地址

三、实现原理

布隆过滤器的核心实现是一个超大的位数组和几个哈希函数。假设位数组的长度为 m,哈希函数的个数为 k。
布隆过滤器(BoomFilter)学习_第1张图片
以上图为例,具体的操做流程:假设集合里面有 3 个元素 {x, y, z},哈希函数的个数为 3。首先将位数组进行初始化,将里面每一个位都设置位 0。对于集合里面的每个元素,将元素依次经过 3 个哈希函数进行映射,每次映射都会产生一个哈希值,这个值对应位数组上面的一个点,而后将位数组对应的位置标记为 1。查询 W 元素是否存在集合中的时候,一样的方法将 W 经过哈希映射到位数组上的 3 个点。若是 3 个点的其中有一个点不为 1,则能够判断该元素必定不存在集合中。反之,若是 3 个点都为 1,则该元素可能存在集合中。注意:此处不能判断该元素是否必定存在集合中,可能存在必定的误判率。能够从图中能够看到:假设某个元素经过映射对应下标为 四、五、6 这 3 个点。虽然这 3 个点都为 1,可是很明显这 3 个点是不一样元素通过哈希获得的位置,所以这种状况说明元素虽然不在集合中,也可能对应的都是 1,这是误判率存在的缘由。

优势
相比于其它的数据结构,布隆过滤器在空间和时间方面都有巨大的优点。布隆过滤器存储空间和插入/查询时间都是常数。另外,Hash 函数相互之间没有关系,方便由硬件并行实现。布隆过滤器不须要存储元素自己,在某些对保密要求很是严格的场合有优点。
布隆过滤器能够表示全集,其它任何数据结构都不能。

缺点
可是布隆过滤器的缺点和优势同样明显。误算率(False Positive)是其中之一。随着存入的元素数量增长,误算率随之增长(误判补救方法是:再创建一个小的白名单,存储那些可能被误判的信息)。可是若是元素数量太少,则使用散列表足矣。
另外,通常状况下不能从布隆过滤器中删除元素。咱们很容易想到把位列阵变成整数数组,每插入一个元素相应的计数器加 1, 这样删除元素时将计数器减掉就能够了。然而要保证安全的删除元素并不是如此简单。首先咱们必须保证删除的元素的确在布隆过滤器里面. 这一点单凭这个过滤器是没法保证的。另外计数器回绕也会形成问题。

四、推荐使用Guava的布隆过滤器

Maven:


        com.google.guava
        guava
        22

建立 BloomFilter 对象,须要传入 Funnel 对象,预估的元素个数,误判率。

BloomFilter filter = BloomFilter.create(Funnels.stringFunnel(Charset.defaultCharset()), 1000,0.01);

使用 put 方法添加元素:

filter.put("test");

使用 mightContain 方法判断元素是否存在:

filter.mightContain("test");

你可能感兴趣的:(布隆过滤器)