布隆过滤器及demo代码(含redis布隆过滤器demo)

前言

首先我们先了解,布隆过滤器存在的主要存在意义:在极端处理数据量下(海量数据)仍旧保持一种可用的集合判断方案。 

结构构造

位(Bit):即比特,非0即1,是一个二进制数据单位。那么我们判断集合中的数据是否存在也可以用这么个“是否”的单位来存储,类似的在Redis中有Bitmap数据类型:Redis(四)Redis的三种特殊数据类型:GEO、Hyperloglog和Bitmap 。

这里举个例子: 0-9十个数字,我们有一百个数字(0-9),随机抽出,如何快速判断凑齐了0-9,建立一个十个位置来存放0-9十个数字(数组),当空位置遇到符合数据放进去,重复数据则不操作。这是不是很像 0 到 1 到 1 的过程呢?每个对应数字都存在一个对应的位置,其实这里就是没有哈希函数的哈希数组。

hash数组(散列表、哈希表)通过特殊的hash函数映射位置,比如说:365天中每天为一个Bit(当天是否打卡),一个字节8bit,只需要几十个字节!可以理解为值被解析为存放bit的内存地址(散列地址)。

布隆过滤器

布隆过滤器实则就是这样:但是为了将数据项添加到布隆过滤器中,布隆过滤器会提供 K 个不同的哈希函数,将值解析结果位置上对应位的值置为 “1”。

关于误判

设为3个hansh函数,136分别为为“小明” 的hansh地址,247为小红,那么小白“137”就会被误判。虽然会有误报,但是不存在漏报,即某个元素在某个集合中,肯定能报出来。

实例代码

引入依赖

		
		
			com.google.guava
			guava
			25.1-jre
		

demo

public class BloomFilterDemo {

	private static int size = 100;

	private static BloomFilter bloomFilter = BloomFilter.create(Funnels.integerFunnel(), size);

	public static void main(String[] args) {
		
		int randomNum;

		for (int i = 0; i < size; i++) {
			randomNum = (int) (Math.random()*100);
			bloomFilter.put(randomNum);
		}

		long startTime = System.nanoTime(); // 获取开始时间
		int count = 0;
		for (int i = 0; i < size; i++) {
			/*
			 * ns(nanosecond):纳秒, 时间单位。一秒的10亿分之一,即等于10的负9次方秒。常用作 内存读写速度的单位。
			 * 1纳秒=0.000001 毫秒
			 * 1纳秒=0.00000 0001秒
			 */
			
			if (bloomFilter.mightContain(i)) {
				count++;
				System.out.println("命中了" + i);
			}
		}
		long endTime = System.nanoTime(); // 获取结束时间
		System.out.println("共命中:" + count + "次 , 程序运行时间: " + (endTime - startTime) + "纳秒" + " , 等价于  " + TimeUnit.MILLISECONDS.convert(endTime - startTime, TimeUnit.NANOSECONDS) + " 毫秒 ||  "
		+ TimeUnit.SECONDS.convert(endTime - startTime, TimeUnit.NANOSECONDS) +"秒" );
	}

	
}

布隆过滤器及demo代码(含redis布隆过滤器demo)_第1张图片

误判

误判实例

size设置为1000000,判断区间1000000 - 2000000,修改代码:

public class BloomFilterDemo {

	private static int size = 1000000;

	private static BloomFilter bloomFilter = BloomFilter.create(Funnels.integerFunnel(), size ,0.0001);

	public static void main(String[] args) {
		
		int randomNum;

		for (int i = 0; i < size; i++) {
			randomNum = (int) (Math.random()*size);
			bloomFilter.put(randomNum);
		}

		long startTime = System.nanoTime(); // 获取开始时间
		int count = 0;
		for (int i = size; i < size * 2; i++) {
			if (bloomFilter.mightContain(i)) {
				count++;
				System.out.println("命中了" + i);
			}
		}
		long endTime = System.nanoTime(); // 获取结束时间
		System.out.println("共命中:" + count + "次 , 程序运行时间: " + (endTime - startTime) + "纳秒" + " , 等价于  " + TimeUnit.MILLISECONDS.convert(endTime - startTime, TimeUnit.NANOSECONDS) + " 毫秒 ||  "
		+ TimeUnit.SECONDS.convert(endTime - startTime, TimeUnit.NANOSECONDS) +"秒" );
		System.err.println("误判次数:" + count + "  误判概率:" + (double)count/size );
	}

布隆过滤器及demo代码(含redis布隆过滤器demo)_第2张图片

设置误判率

设置误判率:默认为 0.03:0.03


 BloomFilter bf = BloomFilter.create(Funnels.stringFunnel(Charsets.UTF_8), total, 0.0001); 

其结果:

1e-6表示1乘以10的负6次方:0.000001。

Redis使用布隆过滤器

前面我们讲到了bitmap这种特殊的redis数据结构,他其实就是redis实现布隆过滤器的底层结构,java中使用可以引入Redisson来实现。

Redission依赖

		
		
			org.redisson
			redisson
			2.7.0
		

demo

public class RedissonBloomFilter {
	public static void main(String[] args) {
		
        Config config = new Config();
        config.useSingleServer().setAddress("127.0.0.1:6379");
        //config.useSingleServer().setPassword("");
        //构造Redisson对象
        RedissonClient redisson = Redisson.create(config);

        //构造redis的布隆过滤器
        RBloomFilter bloomFilter = redisson.getBloomFilter("redisBloomFilter");
        
        //初始化布隆过滤器:预计元素为100000000L,误差率为0.03(google的默认值)
        bloomFilter.tryInit(100000000L,0.03);
        
        //插入测试数据到布隆过滤器中
        bloomFilter.add("hello world");

        //判断下面号码是否在布隆过滤器中
        System.err.println(bloomFilter.contains("cbry"));    //false
        System.err.println(bloomFilter.contains("hello world"));    //true
    }
}

PS

无密码不需要设置密码,设置空串会报下面错误。 

Exception in thread "main" org.redisson.client.RedisConnectionException: Can't init enough connections amount! Only 0 from 5 were initialized. Server: /127.0.0.1:6379

小结

布隆过滤器虽然可以设置误判率,但是是以牺牲存储空间为代价的。所以不是越小就真的越好。

 

你可能感兴趣的:(Redis,JAVA学习笔记,redis,java,数据结构,布隆过滤器,demo)