C++位图(Bitmap)

一.逻辑运算符

        首先普及一下将要用到的逻辑运算符号:

【与】运算符号为 & ,运算法则为遇0得0。也就是说只要有0,结果即为0

【或】运算符号为 | ,就是一个竖线,运算法则为遇1得1。也就是说,只要有1,结果就为1。

【非】预算符号为 ~,就是一个波浪线,运算法则为按位取反,也就是遇1取0,遇0取1,即 ~1 = 0 , ~0 = 1;

【异或】运算符号为 ^,就是一个乘方符号,运算法则为相同取0,不同取1。异或运算,关键在异上面,异为1,否则为0。

二.位图

1.bitmap的概念

        位图 (Bitmap) 是一种基于位操作的数据结构,用于表示一组元素的集合信息。它通常是一个仅包含0和1的数组,其中每个元素对应集合中的一个元素。位图中的每个位(或者可以理解为数组的元素)代表一个元素是否存在于集合中。当元素存在时,对应位的值为1;不存在时,对应位的值为0。位图常用于判断某个元素是否属于某个集合,或者对多个集合做交集、并集或差集等集合运算。

        可能这么多听起来很复杂,其实总

结下来就这个意思:

        位图本质是个数组,用来存放0和1。

        位图通过自身数组中的每个位来代表集合(我们要处理的数据)中的元素,每个位是0或1,代表元素的存在与否(0,不存在;1,存在)。

给40亿个不重复的无符号整数,没排过序。给一个无符号整数,如何快速判断一个数是否在这40亿个数中。

1.首先当然可以遍历这40亿个数,这样效率会太低了,肯定直接pass掉.

2.也可以考虑搜索树或者哈希表,操作之前一定要把数据先存下来构建树或表。但是仔细一想,40亿个数,占多少空间?

40亿个无符号整数,每个大小4个字节,则一共占用160亿字节。

1GB = 1024 MB, 1MB  = 1024KB, 1KB = 1024Byte(字节).

所以一共占用16000000000/1024/1024/1024≈14.9G.

所以要用这些方法的话一上来就占用14.9G的系统内存,大多数电脑是吃不消的,更别说搜索树结点还存其他属性信息,现在内存16G的电脑也不算很多。这肯定不行的.

3.当然还可以存在磁盘上,进行外排序+二分查找。但是想一下,这一切是在磁盘上进行,磁盘的速度可是非常慢的,而且要对这么多数据排序,以及在磁盘上进行二分查找,无论代码还是时间都是复杂和比较慢的.

下一个方法,就是我们大名鼎鼎的位图来解决了,具体是怎么样的呢?

        首先,我们要给数组开辟一块空间,这片空间我们开多少呢,要根据数据范围开空间,而不是数据个数。

        这个我相信大家都能理解,毕竟如果只有两个数,一个是1,一个数是40亿,按数据个数开两个空间的话只能存下1和2,40亿肯定是存不下的。

        所以无符号整型的数据范围是0~2^32-1,所以我们要开这么大的空间.那么一共多大呢?

        由于我们是使用比特位进行表示每一个数是否存在的,所以相当于是2^32-1个比特位。由于1byte=8bit.根据上面所说,一共占用(2^32-1)/8/1024/1024/1024=0.5GB=512MB. 

        所以我们开好空间以后,我们只需要将数对应的位置为1即可.

        比如数据{1,4,9,15,17,23},在位图中是什么样的?

C++位图(Bitmap)_第1张图片

        这样到时候直接判断对应位置是不是1即可判断某个数是否存在.

2.bitmap模拟实现

        主要包含三个核心接口:设置(设为1)、重置(设为0)、判断(是0还是1)

#include
#include
using namespace std;
 
namespace hyx
{
    //N代表数据范围
	template
	class bit_set
	{
	public:
		bit_set()
		{
			_bits.resize(N / 8 + 1, 0);
		}
		void set(size_t x)
		{
			//由于一个组是char,所以x/8是计算在哪个char组里
			size_t i = x / 8;
			//一个char里有8位,x%8是计算出在char组里面的具体哪一位
			size_t j = x % 8;
			//这个建议大家画图理解,首先_bits[i]是对应的char组,然后1< _bits;
	};
}

3.常见bitmap面试题

1.给定100亿个整数,设计算法找到只出现一次的整数?
首先100亿个整数会不会有空间的问题?答案是肯定不会的,因为开空间和数据范围有关系,和数据个数没有关系,100亿个整数,每个数的范围都是42亿(2^32-1)之内,不会说有100亿个不重复的整数.

首先问题是找出现一次的整数,很明显是个key-value模型。那这至少需要两个位图了。所以就需要建立双位图解决.

既然求出现一次,那么肯定是以下三种情况:(左边次数,右边对应的位图状态)

0次                     00

1次                     01

2次及以上          10

所以上面可知,第二个位图是由两个位进行表示.这样又得需要各种控制,也是不太方便.

其实位图也是一个数据结构,STL库中也有对应的容器——bitset.

 那我们直接用两个位图分别表示这两个位不就可以了吗,当然!

所以我们要自己建立一个有两个位图的类,如下

整体思路是:依次判断两个位:

1.若为00,说明这个数一次也没出现过,将其改为01.即将第二个位图设为1.

2.若为01,说明这个数出现了一次,将其改为10,即第一个位图设为1,第二个位图设为0.

 后面可以写一个成员函数来输出符合条件的数:
 

template 
class twobitset
{
public:
	void set(size_t x)
	{
		bool inset1 = _bs1.test(x);
		bool inset2 = _bs2.test(x);
		//00
		if (inset1 == false && inset2 == false)
		{
			//->01
			_bs2.set(x);
		}
		else if (inset1 == false && inset2 == true)
		{
			//->10
			_bs1.set(x);
			_bs2.reset(x);
		}
	}
		void print_once_num()
		{
			for (int i = 0; i < N; i++)
			{
				//筛选出两个位图为01的数
				if (_bs1[i] == false && _bs2[i] == true)
				{
					cout << i << endl;
				}
			}
		}
private:
	bitset _bs1;
	bitset _bs2;
};
void test_oncenum()
{
	int a[] = { 1,1,2,3,4,5,5,5,6,6,6,6,7,9,22 };
	twobitset<100> bs;
	for (auto e : a)
	{
		bs.set(e);
	}
	bs.print_once_num();
}
2. 给两个文件,分别有100亿个整数,我们只有1G内存,如何找到两个文件交集? 

这道题比较简单,思路是建立两个位图,然后分别把两个文件里的数据set到位图里,然后最后将两个位图&一下,然后再从最后的结果中找位是1的即可(利用test).

3. 位图应用变形:1个文件有100亿个int,1G内存,设计算法找到出现次数不超过2次的所有整数.
这个题和1题类似,无非就是多了一种状态:3次及3次以上。最后对应的状态是以下这样:

0次                     00

1次                     01

2次                     10

3次及3次以上     11

然后要在twobitset的set中多加一个判断条件:当位图位10时,下一次改为11.
 

		//10
		else if (inset1 == true && inset2 == false)
		{
			//->11
			_bs2.set(x);
		}

然后输出的时候变化条件为bs1[i]==true和bs2[i]==true(11)即可.

你可能感兴趣的:(c++,算法,开发语言)