布隆过滤器

布隆过滤器是一种数据结构,比较巧妙的概率型一个数据结构 ,其特点是高效地插入和查询;用于查询某个东西是否存在,可以允许存在误差的场景上。

业务场景:

    使用word时,检测某个单词是否拼写正确;缓存崩溃后造成的缓存击穿;垃圾邮件过滤算法;

布隆过滤器&hashpmap:

    哈希表的存储效率一般只有50%,所以很费内存;hash面临的问题就是冲突,如果位阵列长度是m个点,那么想把冲突率降到1%,这个散列表只能容纳m/100个元素。


检测某一个key是否存在?

使用布隆过滤器不会存储这个key,使用hashmap会存储这个key;布隆过滤器是在hash的基础上

千万级的key存放 hashmap存放占用的空间很大,

   

hash存储数据量消耗

相同key在布隆过滤器中所占的内存大约为23M,远低于1599M;差不多相差80倍。

布隆过滤器是bit向量或者说bit数组;原理是,

    当一个元素被加入到集合中时,通过K个Hash函数将这个元素映射成一个位数组中的K个点,把他们置为1;检索时,只要检测相关点是否是1,就可以知道集合中有没有它了。如果这些点有一个是0,则被检验元素一定不在; 如果都是1,被检验元素可能存在。

增加key不会耗内存,内部不会存储这个key,

布隆过滤器使用多个hash为了解决冲突的问题。

误判率:

    布隆过滤器内部维护的是bit数组,误判率约低,数组越长,所占空间越大;误判率越高,数组越短,所占空间越小。

缓存击穿:

    单个key在缓存中查不到,去数据库查询,如果数据量大且是高并发的情况下那么可能会造成数据库压力过大而崩溃。    

   设置热点key永不过期或者过期时间长点。

缓存穿透:

    查询一个数据库中不一定存在的数据,穿过缓存,每次都会访问过滤器。

     方案:将数据库所有的查询条件,放入布隆过滤器中,一个查询请求过来时,先经过布隆过滤器进行查,如果请求查询存在,则继续查,如果查询请求不存在,则直接丢弃。

缓存雪崩:

        缓存集中在一段时间内失效,发生大量的缓存穿透,所有的查询都落在数据库上,造成了缓存雪崩。    

        出现原因:key同时失效,redis本身崩溃了


        可以设置缓存失效时间,使其失效时间点尽量均匀。

        通过加锁或者队列控制读数据库写缓存的数量;缓存失效时,不立即去loaddb,先使用某些带成功操作返回值的操作去set一个mutex key,操作返回成功时,再进行load db的操作设置缓存。

        使用二级缓存或者双缓存策略。

你可能感兴趣的:(布隆过滤器)