布隆过滤器

一、布隆过滤器原理

原理:当一个元素被加入集合时,通过K个hash函数将这个元素映射成一个位数组中的K个点,把它们置为1。检索时,我们只要看看这些点是不是都是1就(大约)知道集合中有没有它了:如果这些点有任何一个0,则被检元素一定不在;如果都是1,则被检元素很可能在。

作用:布隆过滤器(bloom filter)可以用于检索一个元素是否在一个集合中。

优点:

1.比起一般的算法如数组、链表、树,hash表等,可以大大节约存储空间和提高查询效率。

2.全量存储但不存储元素本身,在某些保密要求非常严格的场合有优势

缺点:

1.有一定的误识别率

2.删除元素困难。

3.数组长度以及hash函数个数确定过程复杂

二、使用方法

1.布隆过滤器添加元素:

Add用来添加元素到集合内将要添加的元素给k个哈希函数得到对应于位数组上的k个位置将这k个位置设为1。

2.布隆过滤器查询元素:

Test用来确认某个元素是否在集合内。将要查询的元素给k个哈希函数得到对应于位数组上的k个位置

1)如果k个位置有一个为0,则肯定不在集合中

2)如果k个位置全部为1,则可能在集合中,,布隆过滤器的假正率(False positive rate)用来描述这一概率,其随着数据的增大而增大,同时也和所使用的hash函数有关。

 

三、使用场景

1.对Key-Value数据库系统使用布隆过滤器来加快查询过程,快速查询value是否存在保存的key中,减少磁盘查找的IO次数或者网络请求。

2.高并发系统中某个用户数据是否已存在

3.在爬虫系统中,对已经爬过的URL进行去重

4.使用布隆过滤器来对邮箱系统的垃圾邮件进行过滤

5.文档存储检索系统也可以采用布隆过滤器来检测先前存储的数据

6.Redis防雪崩(缓存穿透),避免查询一个在缓存内必然不存在的数据,导致每次请求都要去存储层去查询,导致在大流量下数据库可能挂掉的情况。

 


 

 

你可能感兴趣的:(分布式架构,区块链)