大数据处理常见问题:统计3亿个整数中没有出现过的整数和不重复出现的整数

对于统计3亿个整数中没有出现过的整数,只需要使用一个BitMap这样的结构即可。

BitMap就是使用一个Bit数组,每一个Bit位表示这个数是否出现过,其空间使用是普通数组的1/32,一般只要求答出这样即可,有的还需要具体实现,实现的方法是借助int数组,然后做状态压缩。下面是示例代码

Set先找到那一个数组位置,然后往那个位置上或上一个

 

lass BitMap
{
public:
    BitMap(size_t num)
    {
        _v.resize((num >> 5) + 1); // 相当于num/32 + 1
    }

    void Set(size_t num) //set 1
    {
        size_t index = num >> 5; // 相当于num/32
        size_t pos = num % 32;
        _v[index] |= (1 << pos);
    }

    void ReSet(size_t num) //set 0
    {
        size_t index = num >> 5; // 相当于num/32
        size_t pos = num % 32;
        _v[index] &= ~(1 << pos);
    }

    bool HasExisted(size_t num)//check whether it exists
    {
        size_t index = num >> 5;
        size_t pos = num % 32;
        bool flag = false;
        if (_v[index] & (1 << pos))
            flag = true;
        return flag;

    }

private:
    vector _v;
}; 


那么如何找到没有重复出现的数呢?
很简单,就用两个BitMap,或者用2个Bit表示一个数没有出现00,出现一次01,出现两次10,出现三次以上11
 

 

 

你可能感兴趣的:(算法)