首先我们先了解,布隆过滤器存在的主要存在意义:在极端处理数据量下(海量数据)仍旧保持一种可用的集合判断方案。
位(Bit):即比特,非0即1,是一个二进制数据单位。那么我们判断集合中的数据是否存在也可以用这么个“是否”的单位来存储,类似的在Redis中有Bitmap数据类型:Redis(四)Redis的三种特殊数据类型:GEO、Hyperloglog和Bitmap 。
这里举个例子: 0-9十个数字,我们有一百个数字(0-9),随机抽出,如何快速判断凑齐了0-9,建立一个十个位置来存放0-9十个数字(数组),当空位置遇到符合数据放进去,重复数据则不操作。这是不是很像 0 到 1 到 1 的过程呢?每个对应数字都存在一个对应的位置,其实这里就是没有哈希函数的哈希数组。
hash数组(散列表、哈希表)通过特殊的hash函数映射位置,比如说:365天中每天为一个Bit(当天是否打卡),一个字节8bit,只需要几十个字节!可以理解为值被解析为存放bit的内存地址(散列地址)。
布隆过滤器实则就是这样:但是为了将数据项添加到布隆过滤器中,布隆过滤器会提供 K 个不同的哈希函数,将值解析结果位置上对应位的值置为 “1”。
设为3个hansh函数,136分别为为“小明” 的hansh地址,247为小红,那么小白“137”就会被误判。虽然会有误报,但是不存在漏报,即某个元素在某个集合中,肯定能报出来。
com.google.guava
guava
25.1-jre
public class BloomFilterDemo {
private static int size = 100;
private static BloomFilter bloomFilter = BloomFilter.create(Funnels.integerFunnel(), size);
public static void main(String[] args) {
int randomNum;
for (int i = 0; i < size; i++) {
randomNum = (int) (Math.random()*100);
bloomFilter.put(randomNum);
}
long startTime = System.nanoTime(); // 获取开始时间
int count = 0;
for (int i = 0; i < size; i++) {
/*
* ns(nanosecond):纳秒, 时间单位。一秒的10亿分之一,即等于10的负9次方秒。常用作 内存读写速度的单位。
* 1纳秒=0.000001 毫秒
* 1纳秒=0.00000 0001秒
*/
if (bloomFilter.mightContain(i)) {
count++;
System.out.println("命中了" + i);
}
}
long endTime = System.nanoTime(); // 获取结束时间
System.out.println("共命中:" + count + "次 , 程序运行时间: " + (endTime - startTime) + "纳秒" + " , 等价于 " + TimeUnit.MILLISECONDS.convert(endTime - startTime, TimeUnit.NANOSECONDS) + " 毫秒 || "
+ TimeUnit.SECONDS.convert(endTime - startTime, TimeUnit.NANOSECONDS) +"秒" );
}
}
size设置为1000000,判断区间1000000 - 2000000,修改代码:
public class BloomFilterDemo {
private static int size = 1000000;
private static BloomFilter bloomFilter = BloomFilter.create(Funnels.integerFunnel(), size ,0.0001);
public static void main(String[] args) {
int randomNum;
for (int i = 0; i < size; i++) {
randomNum = (int) (Math.random()*size);
bloomFilter.put(randomNum);
}
long startTime = System.nanoTime(); // 获取开始时间
int count = 0;
for (int i = size; i < size * 2; i++) {
if (bloomFilter.mightContain(i)) {
count++;
System.out.println("命中了" + i);
}
}
long endTime = System.nanoTime(); // 获取结束时间
System.out.println("共命中:" + count + "次 , 程序运行时间: " + (endTime - startTime) + "纳秒" + " , 等价于 " + TimeUnit.MILLISECONDS.convert(endTime - startTime, TimeUnit.NANOSECONDS) + " 毫秒 || "
+ TimeUnit.SECONDS.convert(endTime - startTime, TimeUnit.NANOSECONDS) +"秒" );
System.err.println("误判次数:" + count + " 误判概率:" + (double)count/size );
}
设置误判率:默认为 0.03:0.03
BloomFilter
其结果:
1e-6表示1乘以10的负6次方:0.000001。
前面我们讲到了bitmap这种特殊的redis数据结构,他其实就是redis实现布隆过滤器的底层结构,java中使用可以引入Redisson来实现。
org.redisson
redisson
2.7.0
public class RedissonBloomFilter {
public static void main(String[] args) {
Config config = new Config();
config.useSingleServer().setAddress("127.0.0.1:6379");
//config.useSingleServer().setPassword("");
//构造Redisson对象
RedissonClient redisson = Redisson.create(config);
//构造redis的布隆过滤器
RBloomFilter bloomFilter = redisson.getBloomFilter("redisBloomFilter");
//初始化布隆过滤器:预计元素为100000000L,误差率为0.03(google的默认值)
bloomFilter.tryInit(100000000L,0.03);
//插入测试数据到布隆过滤器中
bloomFilter.add("hello world");
//判断下面号码是否在布隆过滤器中
System.err.println(bloomFilter.contains("cbry")); //false
System.err.println(bloomFilter.contains("hello world")); //true
}
}
无密码不需要设置密码,设置空串会报下面错误。
Exception in thread "main" org.redisson.client.RedisConnectionException: Can't init enough connections amount! Only 0 from 5 were initialized. Server: /127.0.0.1:6379
布隆过滤器虽然可以设置误判率,但是是以牺牲存储空间为代价的。所以不是越小就真的越好。