面试填坑之Redis无底洞(二、布隆过滤器)

布隆过滤器

参考博客:
https://juejin.im/post/5db69365518825645656c0de
https://blog.csdn.net/weixin_41010294/article/details/103515034
https://blog.csdn.net/qq_15071263/article/details/101346367
https://www.cnblogs.com/chenying99/p/4375174.html
https://segmentfault.com/a/1190000012620152

1、从哪接触到的布隆过滤器?

在了解Redis的过程中,学习到Redis可能遇到的雪崩、穿透、击穿问题时,看到别人的博客中对这个进行了很大的一个描述,据说是对击穿和穿透都算是一个非常优秀的解决方案。

2、什么是布隆过滤器?

百度百科:
布隆过滤器(Bloom Filter)是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都比一般的算法要好的多,缺点是有一定的误识别率和删除困难。

我擦,这个二进制我懂,向量我也懂但是这个二进制向量是啥东西???
百度知道,阳光上的桥的回答:
https://zhidao.baidu.com/question/2143305522501337508.html
二进制向量,在计算机领域又叫做位向量、比特向量,因为计算机中的 “位” 都是二进制位,也就是比特(bit).
它本质还是向量,所以就可以表示为有向线段或坐标.而顾名思义,描述这种向量的各维坐标的数值应该也是二进制数.可如果只是把普通向量中的十进制数,改写为二进制数,那没什么意义——不同进制改变的只是数的表示方法(可能还有计算方法),数本身的意义却没变.
真正二进制向量与普通向量的区别在于:各个维度的取值范围,从普通向量的连续区间(甚至是整个数轴),改变为 “两个离散的数值”.这就意味着,同一向量空间中的所有二进制向量,所用到的数值不会超过 2 个.所以,用二进制中的 0 和 1 表示这两个不同而又相关的数值再合适不过了.举个例子:
某班进行 5 门课程的考试,成绩只有通过和不通过两种.为记录所有同学的考试成绩,我们就可以建立一个 5 维的二进制向量空间,各维度分别对应一门课程;各维度的取值只有通过和不通过两个(分别用 1、0 表示).则某个同学的成绩就可以用一个 5 维二进制向量表示,如(1, 1, 1, 1, 0),表示该同学前四门课程通过,最后一门未通过.
上面的例子还不算是二进制向量的典型应用,可能有种华而不实的感觉.不过在计算机领域中,二进制向量的作用就很重要了.

3、原理

布隆过滤器的原理是,当一个元素被加入集合时,通过K个散列函数将这个元素映射成一个位数组中的K个点,把它们置为1。检索时,我们只要看看这些点是不是都是1就(大约)知道集合中有没有它了:如果这些点有任何一个0,则被检元素一定不在;如果都是1,则被检元素很可能在。这就是布隆过滤器的基本思想。
Bloom Filter跟单哈希函数Bit-Map不同之处在于:Bloom Filter使用了k个哈希函数,每个字符串跟k个bit对应。从而降低了冲突的概率。
面试填坑之Redis无底洞(二、布隆过滤器)_第1张图片
敖丙大佬的图,对应上面的描述解析一下就是:
一个名为s的集合里面有a、b、c三个值,存储每个值的时候使用三种不同的hash算法,计算出三个不同的位置,在这三个位置上都标为1,当查询一个元素是否存在与集合中的时候,就用三种hash算法,查出对应的三个位置,然后看三个位置上的数字是1还是0,如果有任何一个位置的数字是0的话,就代表着这个元素不存在于自己的集合中。

4、缺点

  1. 看到这首先能感知到这种形式的查询过程中肯定是有一些hash碰撞的,好巧不巧查询一个不存在的元素刚刚好它指向的三个位置都更好有其他元素指向过来的1,那么肯定会误判断这个不存在的元素是存在与集合中的。
  2. 这个k中hash算法,k的值越大的时候理论上hash碰撞的概率越低,而且hash值的计算过程中,肯定会牵扯到位的运算,那么可以存储的空间越大那么理论上hash碰撞的概率也会越低,但这样的话,k越高理论上效率就越低下,空间越大,需要的内存资源肯定越多
  3. 还是hash碰撞导致的问题,删除的时候咋办?不删了?你删的时候难道还要轮训一遍全部的集合把碰撞点规避掉删除?还是通过给每一位增加一个计数器,每回有碰撞产生的时候就+1,删除的时候看计数器是1的话就可以删,不然的话就不删了

查了一下Counting Bloom Filter,果然和我想的一样,加了个计数器,感觉计数器的作用真的很大,java的gc中无数个版本都用到了计数器的方式来进行垃圾回收判断

5、实现

       <dependency>
            <groupId>com.google.guava</groupId>
            <artifactId>guava</artifactId>
            <version>23.0</version>
       </dependency>

本来想看一看guava实现的布隆过滤器的源码学习一下的,看了一会发现:
嗯、、、、
我一个凡人,不配看懂
内部实现的嵌套实在是有些复杂了
挑一些等看懂的地方记录一下

创建方法:
面试填坑之Redis无底洞(二、布隆过滤器)_第2张图片
布隆过滤器对外的create方法有4种,看一下最简单的两种吧
面试填坑之Redis无底洞(二、布隆过滤器)_第3张图片

提供对外的一共有三个参数:

  1. Funnel funnel 制定存储的数据类型一共有五种(我看的这个版本):
    byte[] ByteArrayFunnel
    CharSequence UnencodedCharsFunnel
    CharSequence StringCharsetFunnel
    Integer IntegerFunnel
    Iterable SequentialFunnel
    我看了一下
    SequentialFunnel和StringCharsetFunnel都重写了equals和hash方法
    其余的都用的数本身自带的,可以看得出来,如果要使用一些自己创建的对象来使用的话一定要重写equals和hash方法
  2. long expectedInsertions,就算是int类型的也强转成long型了,值的数就是你想要存储的数据量
  3. double fpp 误判率 你可以接受的容错范围
  4. Strategy strategy 唯一不对外提供的函数多了这么一个参数,选定了默认的哈希算法为64位算法,如下图:
    面试填坑之Redis无底洞(二、布隆过滤器)_第4张图片
    可以看出来 一定会存在误判率的不可能为零
    hash的64位和32位映射函数下来需要好好研究一下???
    TODO

面试填坑之Redis无底洞(二、布隆过滤器)_第5张图片
存储位向量的数据结构,核心是:
data:存储数据 也就是0和1
bitCount:计数器,用来计算这一位存了多少值的

put方法:
面试填坑之Redis无底洞(二、布隆过滤器)_第6张图片
面试填坑之Redis无底洞(二、布隆过滤器)_第7张图片
判断是否存在的方法:
面试填坑之Redis无底洞(二、布隆过滤器)_第8张图片
面试填坑之Redis无底洞(二、布隆过滤器)_第9张图片
这个明明真的是严谨,可能存在

算存储空间的容量:
面试填坑之Redis无底洞(二、布隆过滤器)_第10张图片
算应该使用多少种hash方法:
在这里插入图片描述

没找到删除数据的方法,还有就是Redis中的布隆过滤器是基于这种实现的 但是支持动态扩容待老夫有时间了在更

你可能感兴趣的:(算法,面试,NoSQL)