《Redis深度历险》读书笔记（3）

布隆过滤器

使用HyperLogLog来进行数量估计可以解决很多精确度不高的统计需求,但是这种数据结构只提供了pfadd和pfcount方法，所以没有办法直到某一个值是不是已经在HyperLogLog里面了

场景
- 向客户推送新闻内容时，如何去掉那些已经看过的内容？
- 几种方法
  1. 推荐系统推荐新闻时会从每个用户的历史记录里进行筛选，过滤掉那些已经存在的记录。
    - 当用户量很大，每个用户看过的新闻又很多时，这种方法的性能会跟不上，如果历史记录存储在关系数据库里，去重就需要频繁地对数据库进行 exists 查询，当系统并发量很高时，数据库是很难扛住压力的。
  2. 将历史记录全部缓存起来
    - 存储空间随着时间线性增长, 短时间内可能可以撑住，但是时间长了之后，需要的存储空间太大，还是要到数据库中查询,性能又跟不上了
布隆过滤器是什么？
- 布隆过滤器可以理解为一个不怎么精确的 set 结构，当你使用它的 contains 方法判断某个对象是否存在时，它可能会误判。但是只要参数设置的合理，它的精确度可以控制的相对足够精确，只会有小小的误判概率。但是当布隆过滤器说某个值存在时，这个值可能不存在；当它说不存在时，那就肯定不存在。
- 在上面的场景中，布隆过滤器能准确过滤掉那些已经看过的内容，那些没有看过的新内容，它也会过滤掉极小一部分 (误判)，但是绝大多数新内容它都能准确识别。
Redis 中的布隆过滤器
- 布隆过滤器是一个插件, 需要在Redis 4.0 以上才能使用
- 基本使用
  - 布隆过滤器有二个基本指令，bf.add 添加元素，bf.exists 查询元素是否存在，它的用法和 set 集合的 sadd 和 sismember 差不多。
  - bf.add 只能一次添加一个元素，如果想要一次添加多个，就需要用到 bf.madd 指令。同样如果需要一次查询多个元素是否存在，就需要用到 bf.mexists 指令。
  - Redis 其实还提供了自定义参数的布隆过滤器，需要我们在 add 之前使用bf.reserve指令显式创建。如果对应的 key 已经存在，bf.reserve会报错。bf.reserve有三个参数，分别是 key, error_rate和initial_size。错误率越低，需要的空间越大。initial_size参数表示预计放入的元素数量，当实际数量超出这个数值时，误判率会上升。
  - 所以需要提前设置一个较大的数值避免超出导致误判率升高。如果不使用 bf.reserve，默认的error_rate是 0.01，默认的initial_size是 100。
```
127.0.0.1:6379> bf.add test user1
(integer) 1
127.0.0.1:6379> bf.add test user2
(integer) 1
127.0.0.1:6379> bf.add test user3
(integer) 1
127.0.0.1:6379> bf.exists test user1
(integer) 1
127.0.0.1:6379> bf.exists test user2
(integer) 1
127.0.0.1:6379> bf.exists test user3
(integer) 1
127.0.0.1:6379> bf.exists test user4
(integer) 0
127.0.0.1:6379> bf.madd test user4 user5 user6
1) (integer) 1
2) (integer) 1
3) (integer) 1
127.0.0.1:6379> bf.mexists test user4 user5 user6 user7
1) (integer) 1
2) (integer) 1
3) (integer) 1
4) (integer) 0
```
- 注意事项
  - 布隆过滤器的initial_size估计的过大，会浪费存储空间，估计的过小，就会影响准确率
  - 布隆过滤器的error_rate越小，需要的存储空间就越大
布隆过滤器的原理
- 每个布隆过滤器对应到 Redis 的数据结构里面就是一个大型的位数组和几个不一样的无偏 hash 函数。
- 添加操作
  - 向布隆过滤器中添加 key 时，会使用多个 hash 函数对 key 进行 hash 算得一个整数索引值然后对位数组长度进行取模运算得到一个位置，每个 hash 函数都会算得一个不同的位置。再把位数组的这几个位置都置为 1 就完成了 add 操作。
- 判断是否存在
  - 向布隆过滤器询问 key 是否存在时，跟 add 一样，也会把 hash 的几个位置都算出来，看看位数组中这几个位置是否都为 1，只要有一个位为 0，那么说明布隆过滤器中这个 key 不存在。如果都是 1，这并不能说明这个 key 就一定存在，只是极有可能存在，因为这些位被置为 1 可能是因为其它的 key 存在所致。
空间占用估计
- 布隆过滤器有两个参数，第一个是预计元素的数量 n，第二个是错误率 f。
```
k=0.7*(l/n)  # 约等于
f=0.6185^(l/n)  # ^ 表示次方计算，也就是 math.pow
```
- 从公式中可以看出
  1. 位数组相对越长 (l/n)，错误率 f 越低，这个和直观上理解是一致的
  2. 位数组相对越长 (l/n)，hash 函数需要的最佳数量也越多，影响计算效率
  3. 当一个元素平均需要 1 个字节 (8bit) 的指纹空间时 (l/n=8)，错误率大约为 2%
  4. 错误率为 10%，一个元素需要的平均指纹空间为 4.792 个 bit，大约为 5bit
  5. 错误率为 1%，一个元素需要的平均指纹空间为 9.585 个 bit，大约为 10bit
  6. 错误率为 0.1%，一个元素需要的平均指纹空间为 14.377 个 bit，大约为 15bit
其它应用
- 在爬虫系统中，我们需要对 URL 进行去重
- NoSQL查询中过滤不存在的列，减少IO请求数量
- 邮箱系统的垃圾邮件过滤功能

《Redis深度历险》读书笔记（3）

布隆过滤器

你可能感兴趣的:(《Redis深度历险》读书笔记（3）)