java实现布隆过滤器

之前去头条面试,被问及一个问题,当时直接懵逼:有100亿个url,怎么能过滤出重复的url?

接到这个问题的时候,头一个念头就是拆文件,然后用hashmap,接着转念一想,如果这100亿个url都不重复,那hashmap也不够存,就算够存,机器内存也耗不起啊。反正当时这个问题回答完就被pass了。

后来专门去找了对于这个问题的实现方式,居然找到了bloomfilter,这个东西在hbase里也看到过,但是没有很细致的去研究它的实现原理,只知道它在大数据量的情况下查询很快,但是也有可能查不到,但是绝对不会误查。

于是就耐心又仔细的研究了这个算法的实现原理:首先初始化一个很大的bit数组,长度为m,定义k的hash函数,然后对所要去重的数据做k次hash(第二次hash是基于第一次hash值之上做的),对每一次得到的hash值先除以m之后再对m取模,得到的数字就是bit数组的索引,将这个索引的值设置为1。去重的过程就是先将这k个hash值存入一个临时数组中t,然后遍历这个数据,从bit数组中查找数组t中对应的值的索引,如果临时数组t遍历完成之后,数组里的所有值对应的bit数组的值都是1,说明这个数据已经存在。

具体实现代码如下:

import java.util.ArrayList;
import java.util.BitSet;
import java.util.List;

/**
 *
 * date:18/11/23
 */
public class TestBloomFilter {

    public static int MAGIC_NUM = 10;


    public static List urls = new ArrayList<>();
    static {
        urls.add("www.baidu.com");
        urls.add("www.google.com");
        urls.add("www.weidian.com");
        urls.add("www.baidu.com");
        urls.add("www.google.com");
    }

    public static void main(String[] args) {
        int bucketSize = 100000;
        BitSet bitSet = new BitSet(bucketSize);

        for(String url : urls) {
            int h = Math.abs(url.hashCode());
            int index = getIndex(h,bucketSize);
            int[] tmpQ = new int[MAGIC_NUM];
            tmpQ[0] = index;
            for(int i = 1; i < MAGIC_NUM; i++) {
                h = rehash(h);
                index = getIndex(h,bucketSize);
                tmpQ[i] = index;
            }

            boolean isExist = true;
            for(int ind : tmpQ) {
                if(bitSet.get(ind)) {
                    continue;
                }
                if(isExist) {
                    isExist = false;
                }
                bitSet.set(ind,true);
            }
            if(isExist) {
                System.out.println("url is " + url);
            }
        }
    }

    private static int getIndex(int h,int m) {
        return (h/m)%m;
    }

    private static int rehash(int h) {
        return Math.abs(h^(h >>> 16));
    }

}

 

你可能感兴趣的:(算法)