C++详细讲解模拟实现位图和布隆过滤器的方法

位图

引论

四十亿个无符号整数，现在给你一个无符号整数，判断这个数是否在这四十亿个数中。

路人甲：简单，快排+二分。

可是存储这四十亿个整数需要多少空间？

简单算一下，1G=1024M=1024 * 1024KB=1024 * 1024 * 1024Byte，也就是说1G大概也就是十亿个字节。

四十亿个整数多大？40亿 * 4==160亿个字节，换算一下也就是16G。

我电脑内存也就十六个G，还不加上别的应用，显然内存超限了。

所以快排+二分是不可取的，那有没有别的法子呢？

所以也就有了下面要讲的位图。

概念

位图是什么？

根据上面的模型我们可以发现，之前要用四个字节存储一个数字，现在只需一个比特位，当然我们不是存储具体数值，而是存储数字的状态。

因为一个比特位只有两种状态，所以我们存储的是该数字是否存在（数字存在对应位为1，否则为0）

解决引论

上面发现本来需要4个字节存储，现在只需要1位去存储，一下子就缩小了32倍，所以原本需要16G内存存储的数据只需要0.5G。显然这个内存我们是开的起的。

那该怎么判断这个数字是否存在呢？将这个数字/8得到它在第几个字节，将这个数字%8即可得到他在这个数字在第几位。

比如10，就在第一个字节的第二位。（都是从0开始计数）

总结一下应该怎么解决引论提出的问题？开一个能存储42亿位的位图，查找时算出待查找数的位置，如果这个位置为1则表示存在，否则就不存在。

位图也是一种哈希思想的运用

位图的模拟实现

铺垫

从上面可以看出，位图的实现主要在于把某一位置为0和把某一位置为1。

如何把某一位置为1？

把那个位置 |1

|是按位或运算符

如何把某一位置为0？

把那个位置 &0

&是按位与运算符

所以我们在实现时只需要算出那个位置再进行位操作即可。

结构

构造函数

BitSet()
{
	_bits.resize(N / 8 + 1);//开这么多个字节,+1是怕有余数
}

比如开10个位就要开两个字节。

因为采用的是vector,所以所有的char都会被默认置为0。char类型的默认值就是0，空字符。

比如底层实现时resize第二个参数默认值给成T()，T为模板，当用char去实例化时，那默认值就是char()了，也就是ASCII码为0的字符。

存储

vector_bits;

用vector存的。

set,reset,test

test作用：检查这一位是0还是1，是1返回true，否则返回false

bool test(size_t x)
{
	size_t integer = x / 8;//第几个字节
	size_t rem = x % 8;//字节的第几个位置
	return ((_bits[integer] >> rem) & 1) ? true : false;
}

set作用：把某一个位置置为1

void set(size_t x)//第x位置为1
{
	if (!test(x))//如果这一位是0，置为1的话++
	{
		_cnt++;
	}
	size_t integer = x / 8;//第几个字节
	size_t rem = x % 8;//字节的第几个位置
	_bits[integer] |= (1 << rem);
}

reset作用：把某一个位置置为0

void reset(size_t x)//第x位置为0
{
	if (test(x))//如果这一位是1，置为0的话--
	{
		_cnt--;
	}
	size_t integer = x / 8;//第几个字节
	size_t rem = x % 8;//字节的第几个位置
	_bits[integer] &= (~(1 << rem));
}

flip,size,count

flip：翻转，0变为1,1变为0

void flip(size_t x)//翻转
{
	if (test(x))//1
	{
		reset(x);
	}
	else//0
	{
		set(x);
	}
}

size：位图有多少位

size_t size() const
{
	return N;//模板参数
}

count：位图里有多少个1

size_t count()
{
	return _cnt;
}

any,none,all

any：位图里有没有1，有1返回true，否则返回false

bool any()
{
	if (_cnt)
	{
		return true;
	}
	return false;
}

none：与any相反

bool none()
{
	return !any();
}

all：全为1返回true，否则返回false

bool all()
{
	if (_cnt == N)
	{
		return true;
	}
	else
	{
		return false;
	}
}

重载流运算符

重载流运算符必须在BitSet里面加上一个函数声明

template
friend ostream& operator<<(ostream& out, const BitSet& bs);

这里会出现的一个问题是，因为类已经有了一个模板参数，所以很容易写成

friend ostream& operator<<(ostream& out, const BitSet& bs);

导致运行时报链接错误。

原因讲解：目录-解决方法

简单解释一下，因为这是一个声明，所以编译到这里时只当这是个友元函数的声明，并不会把函数里的模板N参数实例化，只有调用流运算符时才会去实例化，这就出现了二次编译（第一次编译只实例化了BitSet类，即类BitSet模板参数N被确定下来）

但因为友元函数只是声明并没有实例化，即第二种写法的N并没有被确定下来，到调用这个函数的时候要对N进行编译，但是不知道这个N具体是什么，因为N是一个模板参数被第一次实例化确定下来后就没了，编译器往上找也找不到，导致有函数声明但是找不到具体函数，从而发生了链接错误。解决就是写成第一种，第二次编译时看到了上面有一个模板声明就知道T是个模板参数，调用时第一次被确定的N传给现在的T，所以就能正确运行。

	ostream& operator<<(ostream& out, const BitSet& bs)
	{
		//从后往前是低位到高位，库里面是这样的
		int len = bs.size() / 8 ;
		char tmp;
		tmp = bs._bits[len];
		for (int i = bs.size() % 8 - 1; i >= 0; i--)
		{
			if ((tmp >> i) & 1)
			{
				cout << '1';
			}
			else
			{
				cout << '0';
			}
		}
		for (int i = len-1; i >=0; i--)
		{
			tmp = bs._bits[i];
			for (int j = 7; j >=0; j--)
			{
				if ((tmp >> j) & 1)
				{
					cout << '1';
				}
				else
				{
					cout << '0';
				}
			}
		}
		//从前往后是低位到高位（人看起来合适）
		//for (int i=0;i> i) & 1)
		//		{
		//			cout << '1';
		//		}
		//		else
		//		{
		//			cout << '0';
		//		}
		//	}
		//}		
		//tmp = bs._bits[len];
		//for (int i = 0; i < bs.size() % 8; i++)
		//{
		//	if ((tmp >> i) & 1)
		//	{
		//		cout << '1';
		//	}
		//	else
		//	{
		//		cout << '0';
		//	}
		//}
		return out;
	}

比如有十个位，把第一位置为1，那打印出来就是0000000010

是从右往左数的，库里的打印是这样的，注释掉的那部分代码会打印0100000000

实际我们操作内存实现的存储是00000010 00000000

测试

	void test_bitset()
	{
		BitSet<10> bits;
		bits.set(1);
		bits.set(9);
		cout << bits.count() << endl;
		bits.reset(1);
		cout << bits.count() << endl;
		cout << bits << endl;
		/*cout << bits.none() << endl;
		bits.set(4);
		cout << bits.none() << endl;
		cout << bits.any() << endl;
		cout << bits.all() << endl;*/
		/*bits.set(4);
		cout << bits.test(4) << endl;
		bits.flip(4);
		cout << bits.test(4) << endl;
		bits.flip(4);
		cout << bits.test(4) << endl;*/
		/*bits<0xffffffff>bits;
		cout << endl;*/
	}

位图简单应用

100亿个整数，找到只出现一次的数。

100亿个整数不代表要开一百亿位大小的空间，有些可能重复了几次，所以开int大小的即可。

整两个位图代表两位， 00 01 10 11，第一个位图代表第一位，第二个位图表示第二位，初始状态都是00，插入一个数后将其置为01，再来就置为10 ，再去遍历整个位图得到只出现一次的数的集合。

	template
	class FindOnceVal
	{
	public:
		void set(size_t x)
		{
			bool flag1 = _bs1.test(x);//得到第一位
			bool flag2 = _bs2.test(x);//得到第二位
			if (flag1 == false && flag2 == false)//00->01
			{
				_bs2.set(x);
			}
			else if (flag1 == false && flag2 == true)//01->10
			{
				_bs1.set(x);
				_bs2.reset(x);
			}
			//10->11...不用再处理了
		}
		bool check(size_t x)
		{
			if (!_bs1.test(x) && _bs2.test(x))//01
			{
				return true;
			}
			return false;
		}
		void print()
		{
			for (size_t i = 0; i < N; i++)
			{
				if (check(i))
				{
					printf("%d\n",i);
				}
			}
		}
	private:
		BitSet_bs1;
		BitSet_bs2;
	};
	void TestFindOnceVal()
	{
		int a[] = { 1, 20, 30, 43, 5, 4, 1, 43, 43, 7, 9, 7, 7, 0 };
		FindOnceVal<100> fov;
		for (auto e : a)
		{
			fov.set(e);
		}
		fov.print();
	}

给两个文件，分别有100亿个整数，我们只有1G内存，如何找到两个文件交集？

两个位图，分别去映射两个文件，再去遍历比对即可。比如两个位图的同一个位置都为1说明整个数就在交集里面

给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址？我们只有1G内存，如何找到top K的IP？

哈希切割，运用哈希算法将IP分类（切割），比如把IP转成字符串，再映射成整形，这就是一种哈希算法，100G给分成100个文件，即100个小类，每一个文件去计数，比如就用map 然后记录下最大的，再将map清空。

第二个文件出来的最大次数再与第一个得到的最大次数进行比较记录下出现最大次数的ip和次数，如此循环遍历完 100个文件即可。如果要topK 建一个小堆即可

如果出现切分后一个文件还是过大，那换一种哈希算法再进行切割

位图的优势就在于可以大大节省空间！

位图代码汇总

#pragma once
#include 
#include 
#include 
using namespace std;
namespace ck
{
	template//N个数
	class BitSet
	{	
	public:
		BitSet()
		{
			_bits.resize(N / 8 + 1);//开这么多个字节
		}
		void set(size_t x)//第x位置为1
		{
			if (!test(x))//如果这一位是0，置为1的话++
			{
				_cnt++;
			}
			size_t integer = x / 8;//第几个字节
			size_t rem = x % 8;//字节的第几个位置
			_bits[integer] |= (1 << rem);
		}
		void reset(size_t x)//第x位置为0
		{
			if (test(x))//如果这一位是1，置为0的话--
			{
				_cnt--;
			}
			size_t integer = x / 8;//第几个字节
			size_t rem = x % 8;//字节的第几个位置
			_bits[integer] &= (~(1 << rem));
		}
		bool test(size_t x)
		{
			size_t integer = x / 8;//第几个字节
			size_t rem = x % 8;//字节的第几个位置
			return ((_bits[integer] >> rem) & 1) ? true : false;
		}
		void flip(size_t x)//翻转
		{
			if (test(x))//1
			{
				reset(x);
			}
			else//0
			{
				set(x);
			}
		}
		size_t size() const
		{
			return N;//模板参数
		}
		size_t count()
		{
			return _cnt;
		}
		bool any()
		{
			if (_cnt)
			{
				return true;
			}
			return false;
		}
		bool none()
		{
			return !any();
		}
		bool all()
		{
			if (_cnt == N)
			{
				return true;
			}
			else
			{
				return false;
			}
		}
		template
		friend ostream& operator<<(ostream& out, const BitSet& bs);
	private:
		vector_bits;
		size_t _cnt = 0;//被设置为1的个数
	};
	template//模板参数不能取名为N
	ostream& operator<<(ostream& out, const BitSet& bs)
	{
		//从后往前是低位到高位，库里面是这样的
		int len = bs.size() / 8 ;
		char tmp;
		tmp = bs._bits[len];
		for (int i = bs.size() % 8 - 1; i >= 0; i--)
		{
			if ((tmp >> i) & 1)
			{
				cout << '1';
			}
			else
			{
				cout << '0';
			}
		}
		for (int i = len-1; i >=0; i--)
		{
			tmp = bs._bits[i];
			for (int j = 7; j >=0; j--)
			{
				if ((tmp >> j) & 1)
				{
					cout << '1';
				}
				else
				{
					cout << '0';
				}
			}
		}
		//从前往后是低位到高位（人看起来合适）
		//for (int i=0;i> i) & 1)
		//		{
		//			cout << '1';
		//		}
		//		else
		//		{
		//			cout << '0';
		//		}
		//	}
		//}		
		//tmp = bs._bits[len];
		//for (int i = 0; i < bs.size() % 8; i++)
		//{
		//	if ((tmp >> i) & 1)
		//	{
		//		cout << '1';
		//	}
		//	else
		//	{
		//		cout << '0';
		//	}
		//}
		return out;
	}
	void test_bitset()
	{
		BitSet<10> bits;
		bits.set(1);
		bits.set(9);
		cout << bits.count() << endl;
		bits.reset(1);
		cout << bits.count() << endl;
		cout << bits << endl;
		/*cout << bits.none() << endl;
		bits.set(4);
		cout << bits.none() << endl;
		cout << bits.any() << endl;
		cout << bits.all() << endl;*/
		/*bits.set(4);
		cout << bits.test(4) << endl;
		bits.flip(4);
		cout << bits.test(4) << endl;
		bits.flip(4);
		cout << bits.test(4) << endl;*/
		/*bits<0xffffffff>bits;
		cout << endl;*/
	}
	/*1. 给定100亿个整数，设计算法找到只出现一次的整数？
	100亿个整数不代表要开一百亿位大小的空间，有些可能重复了几次，所以开int大小的即可。
	整两个位图 00 01 10 11 第一个位图代表第一位 第二个位图表示第二位  初始状态都是00 来了一个数后将其置为01  再来就置为10  再去遍历
	*/
	template
	class FindOnceVal
	{
	public:
		void set(size_t x)
		{
			bool flag1 = _bs1.test(x);
			bool flag2 = _bs2.test(x);
			if (flag1 == false && flag2 == false)//00->01
			{
				_bs2.set(x);
			}
			else if (flag1 == false && flag2 == true)//01->10
			{
				_bs1.set(x);
				_bs2.reset(x);
			}
			//10->11...不用再处理了
		}
		bool check(size_t x)
		{
			if (!_bs1.test(x) && _bs2.test(x))//01
			{
				return true;
			}
			return false;
		}
		void print()
		{
			for (size_t i = 0; i < N; i++)
			{
				if (check(i))
				{
					printf("%d\n",i);
				}
			}
		}
	private:
		BitSet_bs1;
		BitSet_bs2;
	};
	void TestFindOnceVal()
	{
		int a[] = { 1, 20, 30, 43, 5, 4, 1, 43, 43, 7, 9, 7, 7, 0 };
		FindOnceVal<100> fov;
		for (auto e : a)
		{
			fov.set(e);
		}
		fov.print();
	}
	/*位图应用变形：1个文件有100亿个int，1G内存，设计算法找到出现次数不超过2次的所有整数   在第一题的基础上稍作改动即可*/
	/*给两个文件，分别有100亿个整数，我们只有1G内存，如何找到两个文件交集？
	两个位图，分别去映射两个文件，再去遍历即可
	*/
	/*给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址？ 与上题条件相同，
如何找到top K的IP？*/
	/*哈希切割  运用哈希算法将IP分类（切割），比如把IP转成字符串，再映射成整形，这就是一种哈希算法 100G给分成100个文件，即100个小类，
	每一个文件去计数，比如就用map 然后记录下最大的，再将map清空  
	第二个文件出来的最大次数再与第一个得到的最大次数进行比较
	如果要topK 建一个小堆即可  如果出现一个文件还是过大，那换一种哈希算法在进行切割
	*/
}

布隆过滤器

前提是已经实现了位图

引论

存在一亿个ip，给一个ip,快速判断这个ip在不在这一亿个ip中

之前哈希切割能不能做？之前是切成小文件，但是其实归根到底都只记录了出现次数最多的，并没有记录所有人的状态。

那我们可不可以通过位图来做，把IP映射到位图的一个位置，再去判断这个IP是否在位图中。听起来可行，但是显然会出现映射上的冲突，即两个不同的IP映射到了同一个位置，这就导致了误判。那有没有更好的法子？

一个叫布隆的人发现消除冲突是不可能的，但是可以减缓冲突，他是怎么减缓冲突的呢？

之前一个ip映射一个位置，现在我去映射多个位置，比如映射三个，只有三个位置全部对上，那才说明这个ip存在，当然这也可能存在误判，但误判概率已经减小很多了。这就是布隆过滤器

要点

布隆过滤器没有消除冲突，但是减缓了冲突。
布隆过滤器判断数据是否存在时是可能误判的，但是在判断数据不存在时一定准确
在一些允许误判的情境下大大提高了判断的效率。

一个经典的场景就是取名，我们在一个软件内注册一个用户，用户输入一个名称检查是否重复，误判的情景：用户输入一个名字，这个名字事实上不存在，但是被误判为存在，那这个代价很小啊，大不了让用户换一个名字输入不就行了。如果为了得到一个准确的结果，可以在判断存在后去对服务器发送一个请求去检查这个名字是否存在（一般能不涉及服务器就不去涉及了）。

布隆过滤器可以删除吗？

理论上是可以的，但是不建议，比如两个元素，每个元素映射三个位置，三个位置里有两个位置相同，那删除一个ip，即删除三个位置肯定会影响到另一个，所以就不好删除。

但也不是不能删除，硬要删除也是可以的，现在一个ip映射三个位置，每个位置都是1个比特位，只能表示两种状态，可以把每种状态设置为8个位，也就是一个字节，就可以表示256种状态，可以用来计数实现删除。但是问题在开位图的原因就是为了节省空间，现在一个状态一个字节与初衷相违背了，可谓是杀敌一千自损八百。因此不建议删除

代码实现

这个比较简单，复用位图即可，比如一个ip映射三个位置，也就是用来三个哈希函数而已。

哈希函数都是贴网上的代码，处理string的哈希效率比较好的有BKDR哈希等等。实现的布隆过滤器默认的哈希函数是处理string的

#include "BitSet_.h"//复用位图
namespace ck
{
	struct HashFunc1
	{
		//BKDR Hash
		size_t operator()(const string& str)
		{
			size_t seed = 131; // 31 131 1313 13131 131313 etc..
			size_t hash = 0;
			for (size_t i = 0; i < str.length(); i++)
			{
				hash = (hash * seed) + str[i];
			}
			return hash;
		}
	};
	struct HashFunc2
	{
		//FNV Hash
		size_t operator()(const string& str)
		{
			size_t fnv_prime = 0x811C9DC5;
			size_t hash = 0;
			for (std::size_t i = 0; i < str.length(); i++)
			{
				hash *= fnv_prime;
				hash ^= str[i];
			}
			return hash;
		}
	};
	struct HashFunc3
	{
		//APH Hash
		size_t operator()(const string& str)
		{
			unsigned int BitsInUnsignedInt = (unsigned int)(sizeof(unsigned int) * 8);
			unsigned int ThreeQuarters = (unsigned int)((BitsInUnsignedInt * 3) / 4);
			unsigned int OneEighth = (unsigned int)(BitsInUnsignedInt / 8);
			unsigned int HighBits = (unsigned int)(0xFFFFFFFF) << (BitsInUnsignedInt - OneEighth);
			unsigned int hash = 0;
			unsigned int test = 0;
			for (std::size_t i = 0; i < str.length(); i++)
			{
				hash = (hash << OneEighth) + str[i];
				if ((test = hash & HighBits) != 0)
				{
					hash = ((hash ^ (test >> ThreeQuarters)) & (~HighBits));
				}
			}
			return hash;
		}
	};
	template
	class BloomFilter
	{
	public:
		void set(const K& key)
		{
			size_t x1 = Hash1()(key)%len;
			size_t x2 = Hash2()(key) % len;
			size_t x3 = Hash3()(key) % len;
			_bs.set(x1);
			_bs.set(x2);
			_bs.set(x3);
		}
		bool test(const K& key)
		{
			//不用一次性算出所有的值
			size_t x1 = Hash1()(key) % len;
			if (!_bs.test(x1))
			{
				return false;
			}
			size_t x2 = Hash2()(key) % len;
			if (!_bs.test(x2))
			{
				return false;
			}
			size_t x3 = Hash2()(key) % len;
			if (!_bs.test(x3))
			{
				return false;
			}
			return true;//三个位置全都存在才能说明存在
		}
	private:
		BitSet<6*N>_bs;
		size_t len = 6 * N;//位图的大小可以决定过滤器的效率（越大哈希冲突概率越小，误判概率越低）
	};

效率

效率指的就是误判的概率。

多搞几个哈希函数，或者把位图开大一点都能提高降低误判的可能性。

网上有很多大佬探究了位图大小开多少合适，比如位图要存储N个数，那开多大可以让性能还可以的同时也不用开过多的空间，结果是4。有N个数就开4N左右，当然和存储的具体数据有关。比如我上面就开了6N。

解决方法

1. 直接把定义和实现都写在类中

2. 如下：

    #include 
    using namespace std;
    template 
    class Compleax
    {
        template  //注意这里是S,和上面的T的名字不一样
        friend ostream & operator<< (ostream &out, Compleax &c);
        public:
        Compleax(T a, T b);
        void PrintCom()
        {
            cout<<"a:"<
    Compleax :: Compleax(T a, T b)
    {
        this->a = a;
        this->b = b;
    }
    template 
    ostream &operator << (ostream &out, Compleax &c)
    {
        out< c(2, 3);
        c.PrintCom();
        cout<

3. 如下：

#include using namespace std; //1.需要先声明类模板 template class Compleax; //2.再声明友元函数 template ostream & operator<< (ostream &out, Compleax &c); template class Compleax { //3.类中定义友元函数，注意需要加上<> friend ostream & operator<< (ostream &out, Compleax &c); public: Compleax(T a, T b); void PrintCom() { cout<<"a:"< Compleax :: Compleax(T a, T b) { this->a = a; this->b = b; } template ostream &operator << (ostream &out, Compleax &c) { out< c(2, 3); c.PrintCom(); cout<

这样即可解决错误提示为无法解析的外部符之类的问题。下面来说明一下为什么会有这样的现象发生。

其实在模板机制的内部，编译器做的工作和没有模板机制时我们做的功能大同小异。在使用了函数模板的代码中。编译器其实进行了二次编译，第一次是在声明函数模板时，会检查你的函数模板的语法有没有错误，然后编译你的函数头，之后代码中使用模板时，就会把函数模板的代码根据变量类型来编译后并实例化，完成二次编译。

出现这种问题的原因就是，两次编译的函数头不一样，因为友元函数并不属于类的成员函数，所以需要单独声明此友元函数是函数模板，如果没有声明，但是后面在实现的时候又使用了template ，就会导致错误的发生。所以需要额外使用template 声明。

加上的目的是告诉编译器当前函数需要使用函数模板并且参数类型使用当前模板类的参数类型。

到此这篇关于C++详细讲解模拟实现位图和布隆过滤器的方法的文章就介绍到这了,更多相关C++模拟位图内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

tkinter中text属性_tkinter属性（总结）俠之大者 tkinter中text属性
一、主要控件1.Button按钮。类似标签,但提供额外的功能,例如鼠标掠过、按下、释放以及键盘操作事件2.Canvas画布。提供绘图功能(直线、椭圆、多边形、矩形)可以包含图形或位图3.Checkbutton选择按钮。一组方框,可以选择其中的任意个(类似HTML中的checkbox)4.Entry文本框。单行文字域,用来收集键盘输入(类似HTML中的text)5.Frame框架。包含其他组件的纯容
python创建按钮command怎么用_python图形界面tk 1.4 按钮（Button） weixin_39955825
创建按钮和设置它们的文本属性#!/usr/bin/envpython#-*-coding:utf-8-*-importtkinterastkfromtkinterimportttkwin=tk.Tk()win.title("PythonGUI")#添加标题aLabel=ttk.Label(win,text="ALabel")#创建一个标签,text：显示标签的内容aLabel.grid(colum
python中graphviz 参数_python graphviz的使用(画图工具) weixin_39900608 python中graphviz 参数
一、graphviz安装及配置graphviz实际上是一个绘图工具，可以根据dot脚本画出树形图等。1、windows安装配置环境变量：把bin文件夹的路径加入到环境变量path里安装python的graphviz模块：pipinstallgraphviz2、linuxcentos7安装yum下载graphviz软件：yum-yinstallgraphviz安装python的graphviz模块：
pycharm2021.1 突然打不开解决办法以及破解方法小树苗啦 pycharm
之前pycharm用得好好的，突然打不开了，从网上找了各种方法，都不能解决，最后通过删除pycharm.vmoptions文件解决，具体方法如下：1.找到存放pycharm.vmoptions的路径，一般是在/Users/{替换成自己的用户名}/Library/ApplicationSupport/JetBrains/PyCharm2021.1注：cd到ApplicationSupport时提示找
探秘IO分布式模块设计：让大数据处理更高效清水湾落车分布式
一、引言随着互联网的飞速发展，大数据、云计算、人工智能等技术逐渐成为时代的主流。在这个数据爆炸的时代，如何高效地处理海量数据成为企业面临的重大挑战。IO分布式模块设计作为一种有效的解决方案，越来越受到关注。本文将带您了解IO分布式模块设计的基本概念、原理及其在实际应用中的优势。二、什么是IO分布式模块设计？IO分布式模块设计，是指将数据存储、数据处理、数据传输等IO操作进行分布式处理的一种设计方法
C++11 新特性总结 weixin_30955617 c/c++数据结构与算法
前言转载请注明出处，感谢！C++11的新特性1变量和基本类型1.1longlong类型扩展精度浮点数，10位有效数字1.2列表初始化初始化的几种不同形式，其中用花括号来初始化变量称为列表初始化；比如：inti=0;inti={0};inti{0};inti(0);需要注意的是，当用于内置类型的变量时，这种初始化形式有一个重要的特点：如果我们使用初始化且初始值存在丢失信息的风险，则编译器报错；例如：
java内购_java后台接入IOS内购李三点儿 java内购
参考文档说明后台处理：将购买凭证(接收IOS端)发送到苹果的服务器验证，并将验证结果返回给客户端。代码工具类importjavax.net.ssl.*;importjava.io.BufferedOutputStream;importjava.io.BufferedReader;importjava.io.InputStream;importjava.io.InputStreamReader;im
通达信5分钟.lc5和.lc1文件格式 weixin_30767835 python 数据结构与算法 c#
一、通达信日线*.day文件文件名即股票代码每32个字节为一天数据每4个字节为一个字段，每个字段内低字节在前00~03字节：年月日,整型04~07字节：开盘价*100，整型08~11字节：最高价*100,整型12~15字节：最低价*100,整型16~19字节：收盘价*100,整型20~23字节：成交额（元），float型24~27字节：成交量（股），整型28~31字节：上日收盘*100,整型二、通
2018年年度总结 weixin_30514745 前端后端 php ViewUI
首先先看2017年定下的小目标：PHP基础知识的再次学习。（今年在工作的时候也发现了这个问题，所以将PHP基础知识再学习了一遍，对一些容易混淆的概念进行了学习。这个目标算是实现了80%吧）对前端新特性的了解。（因为之前在太原工作的时候，前端后端都干，所以当时觉得前端和后台都很重要，今年在北京主要干的是后端的工作，所以这个并没有去进行了解）python的学习。（这个也没有进行学习，了解了也没有用，今
ios storekit_在iOS 14中的应用购买和storekit中 weixin_26745865 ios python
iosstorekitMuchofthebuzzatWWDC2020wasgivenovertoSwiftUI2.0andARKit,soyoushouldforgiveyourselfformissingaseismicchangetotheStoreKitframework—achangethatwillmakeyourlifeasanappdeveloperfareasier.WWDC202
大带宽业务都包含哪些内容？ wanhengidc 服务器运维
大带宽服务器通常是指100Mbps以上的服务器，让企业能够快速稳定的传输数据信息，其中大带宽业务就是指需要高速数据传输和处理能力的业务，一般会包含对大量数据的传输和存储，需要高带宽的网络连接来支持。大带宽业务具体都包含了哪些方面呢？大带宽业务包括大规模数据传输、云计算和远程存储等内容，大规模数据传输是涉及到大文件的传输或者是大数据集的传输。同时在云计算中会涉及到云服务器和虚拟化环境的应用，需要有着
详解类与对象——继承 tanactor c++
（^_^）一.基本语法继承的好处：可以减少重复的代码classA:publicB;A类称为子类或派生类B类称为父类或基类派生类中的成员，包含两大部分：一类是从基类继承过来的，一类是自己增加的成员。从基类继承过过来的表现其共性，而新增的成员体现了其个性。//公共页面classBasePage{public:voidheader(){cout<<"首页、公开课、登录、注册...（公共头部）"<
直装永久授权，最新专业版集成VB7 纪元A梦资源分享科技电脑软件 Windows软件 office软件
无论是学生、教师还是职场工作人员，办公软件在日常工作和学习中都是不可或缺的重要工具。在众多办公软件中，微软的MicrosoftOffice和金山软件的WPSOffice最常用的选择。对于许多使用要求不高的小伙伴而言，WPSOffice因其易用性和免费版本的优势，成为了他们的首选。此外，WPS的专业版相较于免费版没有广告，提供了更强大的功能，满足了更多用户的需求。这使得WPSOffice在办公软件市
Java环境变量的设置水题检测鸟 Java从零开始 java 开发语言
JAVA环境变量的设置1.设置环境变量的作用2.如何设置环境变量2.1找到系统的环境变量2.2设置环境变量1.设置环境变量的作用说明：在Java中设置环境变量主要是为了能够让Java运行时能够找到Java开发工具包（JDK）的安装位置以及相关的库文件。以Windows为例，主要的环境变量包括JAVA_HOME,Path和有时需要的CLASSPATH，以下是具体步骤：2.如何设置环境变量2.1找到系
【技巧】优雅的使用 pnpm 单体仓库构建一个高效、灵活的多项目架构天下无贼！前端必备技能架构前端开发语言 vue.js react.js node.js
单体仓库（Monorepo）搭建指南：从零开始单体仓库（Monorepo）是一种将多个相关项目集中管理在一个仓库中的开发模式。它可以帮助开发者共享代码、统一配置，并简化依赖管理。本文将通过实际代码示例，详细介绍如何使用pnpm搭建一个单体仓库。1.创建项目目录mkdirxxx&&cdxxxmkdirmy-monorepo：mkdir是“makedirectory”的缩写，用于创建一个新的目录。xx
C++ 线程安全之互斥锁 __雨夜星辰__ c++开发语言学习笔记 visual studio 多线程
目录线程安全1.原子性2.可见性3.顺序性互斥锁1.mutex类2.timed_mutex类3.recursive_mutex类4.lock_guard类线程安全线程安全是多线程编程是的计算机程序代码中的一个概念。在拥有共享数据的多条线程并行执行的程序中，线程安全的代码会通过同步机制保证各个线程都可以正常且准确的执行，不会出现数据污染等意外情况。上述是百度百科给出的一个概念解释。换言之，线程安全就
计算机网络基础知识点简记 UV Youth 计算机网络网络
OSI七层网络模型TCP/IP四层网络模型模型图解IP地址与子网划分基础概念IPV4与IPV6的区别子网划分的目的子网掩码的使用CIDR表示法路由器与交换机TCP与UDP协议HTTP与HTTPS协议DNS域名系统网络攻击与防御机制网络安全协议网络性能优化云计算基础
已完结：C语言经典100题目（满足所有C程序基础） ChillCoding c语言开发语言
C练习实例1-组无重复数字的数题目：有1、2、3、4四个数字，能组成多少个互不相同且无重复数字的三位数？都是多少？程序分析：可填在百位、十位、个位的数字都是1、2、3、4，组成所有的排列后再去掉不满足条件的排列。#include#defineMAX5intmain(){inti,j,k;intcount=0;for(inti=1;i#defineLAC100000//将10w定义为一个常用数int
JavaSE基础（4）——面向对象编程部分 UV Youth JavaSE基础 java 开发语言
目录1.面向对象与面向过程2.类与对象的关系3.面向对象思想开发步骤4.类的定义5.创建对象6.属性7.方法的定义及调用8.形参与实参9.方法重载10.构造器11.this关键字12.匿名块13.包管理14.继承15.方法的重写（Override）16.super关键字17.多态18.面向对象类型转换20.封装——高内聚低耦合21.修饰符22.设计模式23.单例模式1.面向对象与面向过程面向对象：
leetcode14. 最长公共前缀 Cider瞳力扣刷题数据结构算法 golang c++面试 leetcode go
leetcode14.最长公共前缀编写一个函数来查找字符串数组中的最长公共前缀。如果不存在公共前缀，返回空字符串“”。最长公共前缀解析题目分析该问题要求找到一组字符串中的最长公共前缀。公共前缀是指在一个字符串集合中，所有字符串都共同拥有的起始子串。算法介绍首先，将第一个字符串作为公共前缀的初始候选。然后，逐个与剩余的字符串进行比较，更新公共前缀。在比较两个字符串时，找到它们共有的最长前缀。算法步骤
万字详解 | SQL 多表联合查询方法，收藏直接起飞！花辞树sy sql 数据库 mysql
为什么需要多张数据库表进行查询呢？因为如果设计成一张表会造成数据冗余，造成数据库空间浪费，然而有时我们需要将多张表的数据整合并且查询出来，这时就需要通过表之间的主外键关联在一起进行查询。查看获取表结构信息，根据表结构信进行连表查询mysql> use school;mysql> show tables;+------------------+| Tables_in_school |+-------
Python调用讯飞星火大模型v3.x api接口使用教程2.0（python sdk，支持图片理解） IT大头 NLP实战 python 人工智能语言模型 nlp chatgpt
前言本篇文章是针对星火大模型api接口使用的新篇章，本次主要是介绍对于pythonSDK使用，以及图片理解等新功能。相对于上篇博客中的使用方法，本次的教程相对来说更简单方便。话不多说，直接享用。1、获取api接口的ID和key参考上篇文章：https://blog.csdn.net/qq_45156060/article/details/134072123?spm=1001.2014.3001.5
Hive SQL 分组与连接操作详解大数据深度洞察 Hive 数据库 hive 大数据数据仓库 sql
目录分组GroupBy语句1.案例实操Having语句1.having与where不同点2.案例实操Join语句等值Join1.案例实操表的别名1.好处2.案例实操内连接左外连接右外连接满外连接多表连接1.创建位置表2.导入数据3.多表连接查询笛卡尔集1.笛卡尔集会在下面条件下产生2.案例实操联合（union&unionall）1.union&unionall上下拼接2.案例实操分组GroupBy
洛谷B2069求分数序列和在在在努力鸭算法（洛谷 oj等等）算法 c++开发语言
求分数序列和题目描述有一个分数序列q1p1,q2p2,q3p3,q4p4,q5p5,...\dfrac{q_{1}}{p_{1}},\dfrac{q_{2}}{p_{2}},\dfrac{q_{3}}{p_{3}},\dfrac{q_{4}}{p_{4}},\dfrac{q_{5}}{p_{5}},...p1q1,p2q2,p3q3,p4q4,p5q5,...，其中qi+1=qi+pi,pi+1=
关于Linux（Centos7）的静态IP地址配置操作为已己任 Linux 配置篇 linux centos 网络
Centos7-静态IP地址设置1、内容概述2、环境介绍3、操作步骤3.1、编辑网口配置文件3.2、进入网口配置文件3.3、修改网口配置文件内容3.3.1、静态IP设置3.3.2、自动激活网络3.4、添加配置内容3.4.1、添加IP信息3.4.2、添加网关信息3.4.3、添加掩码信息3.4.4、添加DNS地址3.5、操作结果内容4、重启网络5、检查修改情况6、检查网络情况7、总结1、内容概述关于在
（14）Chainlink VRF（可验证随机函数）详细介绍 xluo1715 solidity chainlink VRF 区块链 DAPP web3
ChainlinkVRF（VerifiableRandomFunction）是Chainlink提供的一种去中心化随机数生成服务，专为智能合约设计。它通过加密技术生成随机数，并确保随机数的不可预测性和可验证性。以下是ChainlinkVRF的详细介绍，包括其作用、用法、工作原理以及实际应用。1.ChainlinkVRF的作用ChainlinkVRF的主要作用是为智能合约提供可验证的、不可预测的随机
微信小程序连接蓝牙 xluo1715 微信小程序小程序前端 javascript vue
准备工作：1：需要一个蓝牙板子和串口软件（卖蓝牙板子的商家会提供），手机上需要蓝牙调试助手（为了测试蓝牙是否正常连接）2：蓝牙板通过usb插入到电脑端3：安装好串口调试工具并打开连接上蓝牙4：打开手机蓝牙调试助手，连接上后进行读写操作，确认已正常连接通信准备工作完结！直接上代码第一步：初始化蓝牙设备，onShow里面调用或者onLoad里面调用都可，看你的需求场景initBlue(){wx.ope
钉钉小程序、文件上传（excel、ppt、word等） xluo1715 钉钉（小程序和 H5）钉钉小程序 excel ppt pdf word
钉钉小程序上传下载（反显）文件（如excelpptworld等文件）前端处理（需要后端配合加上传下载的权限）要上传excelpptworld等文件还需要借助钉盘实现，我就不废话了，直接上代码axml结构,红框中的为钉盘文件上传和预览其余的是兼容图片上传和PC端上传的文件，这里提一嘴，如果是PC端上传到自己服务器的文件要想在小程序里显示，需要后端把服务器的文件先传到钉盘，前端再通过钉盘下载，如果是小
python glob模块蘑菇棒棒哒 python
0.摘要：glob是实用的文件名匹配库，glob.glob()函数将会匹配给定路径下的所有pattern，并以列表形式返回。用它可以查找符合特定规则的文件路径名。查找文件只用到三个匹配符：””,匹配0个或多个字符；“?”,”?”匹配单个字符；“[]”：”[]”匹配指定范围内的字符，如：[0-9]匹配数字；注意：如果文件名以“点”开头，无法被'’和'?'匹配，如：".card.gif"glob方法：
【Python】已解决ERROR: Could not find a version that satisfies the requirement 云天徽上 python运行报错解决记录 python 开发语言 tensorflow 人工智能 numpy
成功解决“ERROR:Couldnotfindaversionthatsatisfiestherequirement”错误的全面指南一、引言在Python开发中，经常需要通过pip工具来安装各种依赖包。然而，有时在尝试安装某个包时，可能会遇到“ERROR:Couldnotfindaversionthatsatisfiestherequirement”的错误。这个错误表明pip无法找到与你的请求匹配
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他