一、布隆过滤器

1.1 原理

1.1.1 布隆过滤器基础版

原理就是一个对一个key进行k个hash算法获取k个值，在比特数组中将这k个值散列后设定为1，然后查的时候如果特定的这几个位置都为1，那么布隆过滤器判断该key存在。

布隆过滤器可能会误判，如果它说不存在那肯定不存在，如果它说存在，那数据有可能实际不存在；

Redis的bitmap只支持2^32大小，对应到内存也就是512MB，误判率万分之一，可以放下2亿左右的数据，性能高，空间占用率及小，省去了大量无效的数据库连接。

image.png

存入过程：通过三个hash函数计算出三个哈希值，然后将三个值映射到数组中将0改成1。
查询过程：通过三个hash函数计算出查询数据的哈希值，然后检查布隆过滤器对应位置上的值是否为1，如果有一个不为1表示该值不存在，如果都为1表示该值可能存在。（查询时间复杂度为O(k)，k为哈希函数个数）
删除过程：不能进行删除，因为会删除掉其他数据。
更新过程：也不能进行更新。

1.1.2 布隆过滤器增强版

为了解决上面布隆过滤器的问题,出现了一个增强版的布隆过滤器(Counting Bloom Filter),这个过滤器的思路是将布隆过滤器的bitmap更换成数组,当数组某位置被映射一次时就+1,当删除时就-1,这样就避免了普通布隆过滤器删除数据后需要重新计算其余数据包Hash的问题,但是依旧没法避免误判。

image.png

1.2 应用

image.png

redis缓存穿透（大量查询不存在于数据库中的数据）：使用布隆过滤器进行过滤，如果不存在直接跳过查询数据库，返回结果。
新闻客户端的推送去重功能，当推荐系统推荐新闻时会从每个用户的历史记录里进行筛选，过滤掉那些已经存在的记录。它在起到去重的同时，在空间上还能节省 90% 以上，只是稍微有那么点不精确，也就是有一定的误判概率。
黑白名单
块索引是HBase固有的一个特性，因为HBase的底层数据是存储在HFile中的，而每个HFile中存储的是有序的键值对，HFile文件内部由连续的块组成，每个块中存储的第一行数据的行键组成了这个文件的块索引，这些块索引信息存储在文件尾部。当HBase打开一个HFile时，块索引信息会优先加载到内存；HBase首先在内存的块索引中进行二分查找，确定可能包含给定键的块，然后读取磁盘块找到实际想要的键。
但实际应用中，仅仅只有块索引满足不了需求，这是因为，块索引能帮助我们更快地在一个文件中找到想要的数据，但是我们可能依然需要扫描很多文件。而布隆过滤器就是为解决这个问题而生。因为布隆过滤器的作用是，用户可以立即判断一个文件是否包含特定的行键，从而帮我们过滤掉一些不需要扫描的文件。

1.3 代码实现

1.3.1 实现一(Guava)

调用谷歌的guava包的api就可以。

缺点：guava版实现主要问题在于无法支持集群环境. 为了支持集群环境主要考虑通过redis setbit来实现BloomFilter。

创建布隆过滤器对象：

  // 参数Funnels.integerFunnel()是默认参数，size是预计存入的数据量，fpp是设置的误判率
  public static  BloomFilter create(
      Funnel funnel, int expectedInsertions, double fpp) {
    return create(funnel, (long) expectedInsertions, fpp);
  }

误判率越低，哈希函数个数和布隆过滤器数组长度越大，运算效率越低。

放入数据：

  @CanIgnoreReturnValue
  public boolean put(T object) {
    return strategy.put(object, funnel, numHashFunctions, bits);
  }

判断是否存在：

  public boolean mightContain(T object) {
    return strategy.mightContain(object, funnel, numHashFunctions, bits);
  }

1.3.2 实现二(Redisson)

使用redis实现

依赖


            org.redisson
            redisson
            3.6.5

代码

public class RedissonBloomFilter {

    public static void main(String[] args) {
        Config config = new Config();
        config.useSingleServer().setAddress("redis://192.168.32.128:6379");
//        config.useSingleServer().setPassword("");
        // 构造Redisson
        RedissonClient redissonClient = Redisson.create(config);

        // 初始化布隆过滤器：预计元素为100000000L个，误差率为3%
        RBloomFilter

布隆过滤器与布谷鸟过滤器

一、布隆过滤器

1.1 原理

1.1.1 布隆过滤器基础版

1.1.2 布隆过滤器增强版

1.2 应用

1.3 代码实现

1.3.1 实现一(Guava)

1.3.2 实现二(Redisson)

使用redis实现

代码

1.4 布隆过滤器的缺点

二、布谷鸟过滤器

2.1 原理

2.2 应用

2.3 代码实现

2.4 布谷鸟过滤器的优缺点

你可能感兴趣的:(布隆过滤器与布谷鸟过滤器)