C++哈希应用

C++哈希应用

位图

所谓位图,就是用每一位来存放某种状态,适用于海量数据,数据无重复的场景。通常是用来判断某个数据存不存在的。

位图的应用

  1. 快速查找某个数据是否在一个集合中
  2. 排序 + 去重
  3. 求两个集合的交集、并集等
  4. 操作系统中磁盘块标记

C++哈希应用_第1张图片

位图的实现

template
class bitset
{
public:
	bitset() //N是数据范围
	{
		_bits.resize(N / 8 + 1, 0);
	}
	void set(size_t x)
	{
		size_t i = x / 8;
		size_t j = x % 8;
		_bits[i] |= (1 << j);
	}
	void reset(size_t x)
	{
		size_t i = x / 8;
		size_t j = x % 8;
		_bits[i] &= ~(1 << j);
	}
	bool test(size_t x)
	{
		size_t i = x / 8;
		size_t j = x % 8;
		return _bits[i] & (1 << j);
	}
private:
	vector _bits;
};

布隆过滤器

布隆过滤器提出

  1. 用哈希表存储用户记录,缺点:浪费空间
  2. 用位图存储用户记录,缺点:位图一般只能处理整形,如果内容编号是字符串,就无法处理了。
  3. 将哈希与位图结合,即布隆过滤器

布隆过滤器概念

布隆过滤器是由布隆(Burton Howard Bloom)在1970年提出的 一种紧凑型的、比较巧妙的概率型数据结构,特点是高效地插入和查询,可以用来告诉你 “某样东西一定不存在或者可能存在”,它是用多个哈希函数,将一个数据映射到位图结构中。此种方式不仅可以提升查询效率,也可以节省大量的内存空间。

布隆过滤器的插入

C++哈希应用_第2张图片

通过多个哈希函数将一个字符串映射在多个地方

布隆过滤器的特点

  • 当布隆过滤器说数据时,是不可靠
  • 当布隆过滤器说数据不在时,是可靠

布隆过滤器的实现

#pragma once
#include"bitset.h"
struct BKDRHash
{
	size_t operator()(const string& s)
	{
		size_t hash = 0;
		for (auto ch : s)
		{
			hash += ch;
			hash *= 31;
		}
		return hash;
	}
};
struct APHash
{
	size_t operator()(const string& s)
	{
		size_t hash = 0;
		for (long i = 0; i < s.size(); ++i)
		{
			size_t ch = s[i];
			if ((i & 1) == 0)
				hash ^= ((hash << 7) ^ ch ^ (hash >> 3));
			else
				hash ^= (~((hash << 11) ^ ch ^ (hash >> 5)));
		}
		return hash;
	}
};
struct DJBHash
{
	size_t operator()(const string& s)
	{
		size_t hash = 5381;
		for (auto ch : s)
			hash += (hash << 5) + ch;
		return hash;
	}
};
//N最多会插入key数据的个数
template
class BloomFilter
{
public:
	void set(const K& key)
	{
		size_t len = N * _X;
		size_t hash1 = Hash1()(key) % len;
		_bs.set(hash1);
		size_t hash2 = Hash2()(key) % len;
		_bs.set(hash2);
		size_t hash3 = Hash3()(key) % len;
		_bs.set(hash3);
	}
	bool test(const K& key)
	{
		size_t len = N * _X;
		size_t hash1 = Hash1()(key) % len;
		if (!_bs.test(hash1))
			return false;
		size_t hash2 = Hash2()(key) % len;
		if (!_bs.test(hash2))
			return false;
		size_t hash3 = Hash3()(key) % len;
		if (!_bs.test(hash3))
			return false;
		return true;
	}
private:
	static const size_t _X = 4;
	bitset _bs; //bitset的实现在位图模块
};

海量数据处理

位图应用变形

  1. 给两个文件,分别有100亿个整数,我们只有1G内存,如何找到两个文件交集?

    方案1:将其中一个文件1的整数映射到一个位图中,读取另外一个文件2中的整数,判断在在不在位图,在就是交集。消耗500M内存

    方案2:将文件1的整数映射到位图1中,将文件2的整数映射到位图2中,然后将两个位图中的数按位与。与之后为1的位就是交集。消耗内存1G。

  2. 1个文件有100亿个int,1G内存,设计算法找到出现次数不超过2次的所有整数

    用两个位表示一个数,分为出现0次00表示,出现1次的01表示―出现2次的10表示出现3次及3次以上的用11表示。

    代码如下

    //1个文件有100亿个int,1G内存,设计算法找到出现次数不超过2次的所有整数
    template
    class less_equal_twobitset
    {
    public:
    	void set(size_t x)
    	{
    		if (_bs1.test(x) == false && _bs2.test(x) == false)
    			_bs2.set(x);
    		else if (_bs1.test(x) == false && _bs2.test(x) == true)
    		{
    			_bs1.set(x);
    			_bs2.reset(x);
    		}
    		else if(_bs1.test(x) == true && _bs2.test(x) == false)
    			_bs2.set(x);
    
    	}
    	void Print()
    	{
    		cout << "出现次数不超过2次的所有整数有:";
    		for (size_t i = 0; i < N; ++i)
    		{
    			if ((_bs1.test(i) == false && _bs2.test(i) == true) || (_bs1.test(i) == true && _bs2.test(i) == false))
    				cout << i << " ";
    		}
    		cout << endl;
    	}
    private:
    	bitset _bs1;
    	bitset _bs2;
    };
    

布隆过滤器应用变形

给两个文件,分别有100亿个query,我们只有1G内存,如何找到两个文件交集?分别给出精确算泫和近似算法

分析:(query一般是sql查询语句或者网络请求的ur1等,一般是一个字符串)100亿个query占用多少空间呢?假设平均一个query 30-60byte,100亿个query大约占用300-600G

将文件A映射到布隆过滤器中,读取另外一个文件B,判断在不在布隆过滤器中。

哈希切割应用

前面我们给了布隆的方案,但是这个方案的缺陷也很明显就是交集中存在不是误判的值。那么现在我们来给一个准确的解决方案:

哈希切割:不再平均切分,哈希切分: i = hashstr(query) % 1000,i是多少query就进入第Ai/Bi的小文件中,文件A/文件B都别这样处理

​ A和B中相同的query一定进入编号相同的Ai和Bi小文件,所以下面只需要编号相同找交集就可以。

给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址? 与上题条件相同,如何找到top K的IP?

先创建1000个小文件A0-A999,读取IP计算出i=hashstr(IP)%1000. i是多少,IP就进入对应编号的Ai小文件。这样相同IP一定进入了同一个小文件。map countMap,读取Ai中的人IP统计出次数,一个读完了clear,再读另一个。使用一个pair max记录出现次数最多的IP就可以求出。如果要找topK,那么就是用一个堆来搞定就可以。

你可能感兴趣的:(哈希算法,c++,算法)