JAVA布隆过滤器的使用BloomFilter

JAVA布隆过滤器的使用BloomFilter

    • 需求:对于一些url的去重若果量大的话使用redis会卡顿的,使用缓存还要考虑持久化,系统一关就没了.
    • 于是就百度了一下布隆过滤器刚刚好,处理上亿数据也很快,站内存也小.
    • 用法:
      • 1.自己实现(可能不稳定,功能不是太多,一个添加,一个判断是否添加过了)
      • 2.感谢java强大的生态,谷歌的guava工具里竟然有这个工具(我给写了工具类,方便吧数据给放到文件里,实现了持久化,不怕关机后数据没有了)
        • 1.自己实现的
        • 用现成的 谷歌的guava工具
          • 1.导入jar包
          • 2.上工具

需求:对于一些url的去重若果量大的话使用redis会卡顿的,使用缓存还要考虑持久化,系统一关就没了.

于是就百度了一下布隆过滤器刚刚好,处理上亿数据也很快,站内存也小.

用法:

1.自己实现(可能不稳定,功能不是太多,一个添加,一个判断是否添加过了)

2.感谢java强大的生态,谷歌的guava工具里竟然有这个工具(我给写了工具类,方便吧数据给放到文件里,实现了持久化,不怕关机后数据没有了)

1.自己实现的

package cn.cpc.bloomfilter;


import java.util.BitSet;

public class SimpleBloomFilter {

    private static final int DEFAULT_SIZE = 2 << 24;
    private static final int[] seeds = new int[]{7, 11, 13, 31, 37, 61,};

    private BitSet bits = new BitSet(DEFAULT_SIZE);
    private SimpleHash[] func = new SimpleHash[seeds.length];


    public SimpleBloomFilter() {
        for (int i = 0; i < seeds.length; i++) {
            func[i] = new SimpleHash(DEFAULT_SIZE, seeds[i]);
        }
    }

    public void add(String value) {
        value = value.trim();
        for (SimpleHash f : func) {
            bits.set(f.hash(value), true);
        }
    }

    public boolean contains(String value) {
        value = value.trim();
        if (value == null) {
            return false;
        }
        boolean ret = true;
        for (SimpleHash f : func) {
            ret = ret && bits.get(f.hash(value));
        }
        return ret;
    }


}

用现成的 谷歌的guava工具

1.导入jar包

        
            com.google.guava
            guava
            27.1-jre
        
2.上工具
package cn.cpc.util;

import com.google.common.hash.BloomFilter;
import com.google.common.hash.Funnels;

import java.io.File;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.IOException;
import java.nio.charset.Charset;

public class BloomFilterUtil {

    private static int size = 1000000;

    private static BloomFilter bloomFilter = null;

	//获取一个布隆过滤器
	fileName:持久化的文件名,这里是相对路径,就在本项目下
    public static BloomFilter getStringBloomFilter(String fileName){

        try {
            File file = new File("filter");
            if (!file.exists()){
                System.out.println("持久化文件不存在!,将创建文件,布隆过滤器为空");
                bloomFilter = BloomFilter.create(Funnels.stringFunnel(Charset.defaultCharset()), size);
            }else{
                System.out.println("持久化文件存在!,从文件读取数据到布隆过滤器");
                FileInputStream fileInputStream = new FileInputStream(file);
                bloomFilter = BloomFilter.readFrom(fileInputStream, Funnels.stringFunnel(Charset.defaultCharset()));
            }
        } catch (IOException e) {
            e.printStackTrace();
        }

        return bloomFilter;
    }

//吧布隆过滤器的储存到硬盘(持久化操作,也可以放数据库)
fileName:持久化的文件名,这里是相对路径,就在本项目下
    public static void write(String fileName){
        try {
            bloomFilter.writeTo(new FileOutputStream(new File(fileName)));
        } catch (IOException e) {
            e.printStackTrace();
        }
    }


}

你可能感兴趣的:(java)