布隆过滤器的原理和缓存穿透

布隆过滤器原理

布隆过滤器(Bloom Filter)是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率和删除困难。

如果想判断一个元素是不是在一个集合里,一般想到的是将集合中所有元素保存起来,然后通过比较确定。链表、树、散列表(又叫哈希表,Hash table)等等数据结构都是这种思路。但是随着集合中元素的增加,我们需要的存储空间越来越大。同时检索速度也越来越慢,上述三种结构的检索时间复杂度分别为:O(n), O(log n), O(n/k)。

布隆过滤器的原理是,当一个元素被加入集合时,通过K个Hash函数将这个元素映射成一个位数组中的K个点,把它们置为1。检索时,我们只要看看这些点是不是都是1就(大约)知道集合中有没有它了:如果这些点有任何一个0,则被检元素一定不在;如果都是1,则被检元素很可能在。这就是布隆过滤器的基本思想。
布隆过滤器的原理和缓存穿透_第1张图片
布隆过滤器的原理和缓存穿透_第2张图片
利用布隆过滤器解决缓存穿透

在缓存穿透上的应用,是为了避免恶意用户频繁请求缓存中不存在DB也不存在的值,会导致缓存失效、DB负载过大,可以使用BloomFilter把所有数据放到bit数组中,当用户请求时存在的值肯定能放行,部分不存在的值也会被放行,绝大部分会被拦截,这些少量漏网之鱼对于DB的影响就会比大量穿透好的多了

如何过滤恶意请求:
如果hash后的所有bit位中只要有一个为0,则判定肯定不存在,会被拦截,绝大多数都是这种情况。然而由于布隆过滤器是有误差的,可能计算的bit位都是1,但请求的数据并不真实存在,这种情况也会放行到数据库。但这种误差是可控的。 至少保证了大部分的恶意请求不会打到数据库。

你可能感兴趣的:(布隆过滤器的原理和缓存穿透)