布隆过滤器——(C++)

布隆过滤器

  • 布隆过滤器的提出
    • 布隆过滤器概念
    • 哈希函数和布隆过滤器的长度
  • 位图的代码
  • 实现布隆过滤器
    • Set接口
    • Test接口
    • 布隆过滤器的删除
    • 布隆过滤器的优点
    • 布隆过滤器的缺点
  • 哈希分割

布隆过滤器的提出

我们在使用新闻客户端看新闻时,它会给我们不停地推荐新的内容,它每次推荐时要去重,去掉那些已经看过的内容。问题来了,新闻客户端推荐系统如何实现推送去重的? 用服务器记录了用户看过的所有历史记录,当推荐系统推荐新闻时会从每个用户的历史记录里进行筛选,过滤掉那些已经存在的记录。 如何快速查找呢?

  1. 用哈希表存储用户记录,缺点:浪费空间
  2. 用位图存储用户记录,缺点:不能处理哈希冲突
  3. 将哈希与位图结合,即布隆过滤器

布隆过滤器概念

布隆过滤器是由布隆在1970年提出的 一种紧凑型的、比较巧妙的概率型数据结构,特点是高效地插入和查询,可以用来告诉你 “某样东西一定不存在或者可能存在”,它是用多个哈希函数,将一个数据映射到位图结构中。此种方式不仅可以提升查询效率,也可以节省大量的内存空间。

布隆过滤器——(C++)_第1张图片

哈希函数和布隆过滤器的长度

布隆过滤器——(C++)_第2张图片
假设有3个哈希函数,那么大约m=4n。

位图的代码

namespace g
{
	template<size_t N>
	class bitset
	{
	public:
		bitset()
		{
			_bits.resiez(N / 32 + 1,0);
		}
		void set(size_t pos)
		{
			assert(pos < N);
			//计算pos映射在第几个数的多少位
			int i = pos / 32;
			int j = pos % 32;
			_bits[j] |= (1 << j);//将该位置设为1
		}
		void reset(size_t pos)
		{
			assert(pos < N);
			//计算pos映射在第几个数的多少位
			int i = pos / 32;
			int j = pos % 32;
			_bits[j] &= (~(1 << j));//左移取反在相与
		}
		void filp(size_t pos)
		{
			assert(pos < N);
			int i = pos / 32;
			int j = pos % 32;
			_bits[j] ^= (1 << j);//左移在取反
		}
		size_t size()
		{
			return N;
		}
		size_t count()
		{
			size_t count = 0;
			//将每个整数中1的个数累加起来
			for (auto e : _bits)
			{
				int num = e;
				//计算整数num中1的个数
				while (num)
				{
					num = num & (num - 1);
					count++;
				}
			}
			return count; //位图中1的个数,即被设置位的个数
		}
	private:
		vector<int> _bits;
	};
}

实现布隆过滤器

主要实现2个接口,1个Set接口是设置比特位,1个Test测试是否在布隆过滤器中。
整体框架,代码如下:

namespace g
{
	struct BKDRHash
	{
		size_t operator()(const std::string& s)
		{
			size_t value = 0;
			for (auto ch : s)
			{
				value += ch;
				value *= 131;
			}

			return value;
		}
	};
	struct APHash
	{
		size_t operator()(const std::string& s)
		{
			register size_t hash = 0;
			size_t ch;
			for (long i = 0; i < s.size(); i++)
			{
				if ((i & 1) == 0)
				{
					hash ^= ((hash << 7) ^ ch ^ (hash >> 3));
				}
				else
				{
					hash ^= (~((hash << 11) ^ ch ^ (hash >> 5)));
				}
			}
			return hash;
		}
	};
	struct DJBHash
	{
		size_t operator()(const std::string& s)
		{
			register size_t hash = 5381;
			for(auto ch : s)
			{
				hash += (hash << 5) + ch;
			}
			return hash;
		}
	};

	template<size_t N,class K,
		class Hash1= BKDRHash, 
		class Hash2= APHash,
		class Hash3= DJBHash>
	class BoomFilter
	{
		//设置比特位
		void Set(const K& key)
		{}
		//查找
		void Test(const K& key)
		{}
	private:
		g::bitset<N> _bitset;
	};
}

Set接口

布隆过滤器——(C++)_第3张图片
Set接口逻辑:
1.计算出映射位置
2.将对应的比特位设为1

		void Set(const K& key)
		{
			//不模N可能会越界
			size_t i1 = Hash1()(key) % N;
			size_t i2 = Hash2()(key) % N;
			size_t i3 = Hash3()(key) % N;
			//输出i的值,方便测试
			cout << i1 << "" << i2 << "" << i3 << endl;
			//调用_bitset的接口
			_bitset.set(i1);
			_bitset.set(i2);
			_bitset.set(i3);
		}

Test接口

Test的逻辑:
分别计算每个哈希值对应的比特位置存储的是否为零,只要有一个为零,代表该元素一定不在哈希表中,否则可能在哈希表中。
注意:
布隆过滤器如果说某个元素不存在时,该元素一定不存在,如果该元素存在时,该元素可能存在,因为有些哈希函数存在一定的误判。
比如:在布隆过滤器中查找"alibaba"时,假设3个哈希函数计算的哈希值为:1、3、7,刚好和其他元素的比特位重叠,此时布隆过滤器告诉该元素存在,但实该元素是不存在的。

		void Test(const K& key)
		{
			size_t i1 = Hash1()(key) % N;
			if (_bitset(i1) == false)
			{
				return false;
			}
			size_t i2 = Hash1()(key) % N;
			if (_bitset(i2) == false)
			{
				return false;
			}
			size_t i3 = Hash1()(key) % N;
			if (_bitset(i3) == false)
			{
				return false;
			}
			//注意:3个位都在可能会存在误判
			return true;
		}

简单测试

布隆过滤器——(C++)_第4张图片

布隆过滤器的删除

布隆过滤器不能直接支持删除工作,因为在删除一个元素时,可能会影响其他元素。
比如:删除上图中"tencent"元素,如果直接将该元素所对应的二进制比特位置0,“baidu”元素也被删除了,因为这两个元素在多个哈希函数计算出的比特位上刚好有重叠。
一种支持删除的方法:将布隆过滤器中的每个比特位扩展成一个小的计数器,插入元素时给k个计数器(k个哈希函数计算出的哈希地址)加一,删除元素时,给k个计数器减一,通过多占用几倍存储空间的代价来增加删除操作。
缺陷:

  1. 无法确认元素是否真正在布隆过滤器中
  2. 存在计数回绕

布隆过滤器的优点

  1. 增加和查询元素的时间复杂度为:O(K), (K为哈希函数的个数,一般比较小),与数据量大小无关
  2. 哈希函数相互之间没有关系,方便硬件并行运算
  3. 布隆过滤器不需要存储元素本身,在某些对保密要求比较严格的场合有很大优势
  4. 在能够承受一定的误判时,布隆过滤器比其他数据结构有这很大的空间优势
  5. 数据量很大时,布隆过滤器可以表示全集,其他数据结构不能
  6. 使用同一组散列函数的布隆过滤器可以进行交、并、差运算

布隆过滤器的缺点

  1. 有误判率,即存在假阳性(False Position),即不能准确判断元素是否在集合中(补救方法:再建立一个白名单,存储可能会误判的数据)
  2. 不能获取元素本身
  3. 一般情况下不能从布隆过滤器中删除元素
  4. 如果采用计数方式删除,可能会存在计数回绕问题

哈希分割

面试题:给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址? 与上题条件相同,如何找到top K的IP?

统计次数的题可以用map解决,但是这题有100G的文件,内存是放不下的,所以map就不能用了。
那该如何解决?
用哈希分割
布隆过滤器——(C++)_第5张图片
topK问题,取出最多的,就是建小堆即可。

给两个文件,分别有100亿个query,我们只有1G内存,如何找到两个文件交集?

布隆过滤器——(C++)_第6张图片

你可能感兴趣的:(C++,c++,哈希表)