_GR

从C语言到C++_32(哈希的应用)位图bitset+布隆过滤器+哈希切割

1. 位图

1.1 位图的概念

1.2 位图的实现

1.3 位图解决海量数据面试题

完整BitSet.h和two_bitset:

1.4 位图的优缺点

2. 布隆过滤器

2.1 布隆过滤器的概念

2.2 布隆过滤器的实现

完整 BloomFilter.h 和测试

2.3 布隆过滤器的优缺点和应用

3. 哈希切割（哈希切分）

4. 笔试选择题

答案及解析

本章完。

1. 位图

腾讯面试题：给40亿个不重复的无符号整数，没排过序。给一个无符号整数，

如何快速判断一个数是否在这40亿个数中。

根据我们现有的知识，该如何处理上诉问题呢？
1. 遍历，时间复杂度O(N)
2. 排序(O(NlogN))，利用二分查找: logN
3. 红黑树 / 哈希表。

还有很多其他的方式，但是这些方式都行不通，

先来口算一下40亿的无符号整数占用多大的内存空间：

10亿个字节 ≈ 1GB。

40亿个字节 ≈ 4GB。

40亿个无符号整数 ≈ 16GB。

而一般的内存根本放不下这么多的数据，无论是上面的哪种方法，都需要存放数据本身，即使是用数组来存放都需要16GB，如果用红黑树(有三叉链，颜色)需要大的内存，哈希表虽然少一点，但是仍然有next指针，还是存放不下。

问题中只要求判断一个数是否在这40亿个数据中，所以可以不存放数据本。

可以采用下面的位图的方式来处理这个问题。

1.1 位图的概念

位图：就是用每一位来存放某种状态，适用于海量数据，数据无重复的场景。

通常是用来判断某个数据存不存在的。

位图就是哈希结构，这里我们用直接定址法，1表示在，0表示不在，就能很好处理这个面试题。

对于40亿个数据，至少需要40亿个比特位才能标识它们的状态，

对于这种情况一般选择2^32个比特位：

2^32 = 42亿9千多万，40亿个数据完全可以表示的下，

此时相当于一个数组，有2^32个元素，每个元素是一个比特位。

使用位图方式占用的内存就小多了：

1个字节等于8个比特位

2^32个比特位 = 2^29个字节 = 2^19KB = 2^9MB = 512MB = 0.5GB
从最开始需要16GB内存空间直接下降到了需要0.5GB的空间。

但是在语言层面上并没有比特位的数组。

2^32个比特位可以用2^27个int类型的数组来表示。
也可以用2^29个char类型的数组来表示。

随便例举一些数字，如上图所示，这里采用char类型为数组的基本单位。

数据范围是1到22，所以需要3个char类型的变量。
下标为1的比特位表示数字1的存在情况，下标为18的比特位表示数字18是否存在。

上图中，存在3个char类的变量，一共24个比特位，整体标号的话是0~23。

0~7使用第一个char类型的变量。
8~15使用第二个char类型变量。
16~23使用第三个char类型变量。

这3个char类型的变量是用一个数组实现的，即char [3]。

这3个char类型变量的地址从左到右依次升高。

每个char类型中比特位却是：低的比特位在右，高的比特位在左。

这是由我们的使用习惯决定的，比如3用二进制表示就是11，6用二进制表示就是100，

低比特位在右，高比特位在左。

不使用int类型数组的原因：（用int也可以）

我们知道，数据在内存中的存储是有大小端的，如果使用int类型的数组，上图就变成：

一个int就是4个字节，8个比特位只需要一个int类型的数据就够了，并且还多出8个比特位。假设上图中是小端存储方式，并且是处理完的位图，此时将这份代码换到了大端存储方式的机器上：

此时位图结构就变成了下图中所示，原本表示数字0~7的8个比特位放在了高地址处，变成了表示24 ~31的8个比特位。

原本在小端机上的程序在大端机上极有可能出现BUG。
而采用char类型数组就不用考虑大小端的问题，因为一个char类型就是一个字节，每个char都是从低地址到高地址排列。

上面是在内存中存储的真实样子，我们在使用的时候无需知道位图在内存中样子。

这种方式就是一种哈希思想，将数据直接映射到位图上。

如何确定一个数据映射在位图的哪个比特位呢？以整数18为例说明：

18映射在位图的下标为2的八个比特位中的某一个，也就是第三个char类型变量。

具体映射在下标为2的char类型变量中下标为2的比特位上，也就是在这个char类型中第三个比特位上。

确定映射到char类型变量的下标：18 / 8 = 2。
确定映射到比特位的下标：18 % 8 = 2。

可以根据上面的图确定一下，发现和我们算出来的结果是一样的。求其他数据的映射位置时，只需要将18换成对应数据即可。

1.2 位图的实现

BitSet.h：

#pragma once

#include 
#include 
using namespace std;

namespace rtx
{
	template
	class bitset
	{
	public:
		bitset()
		{
			//_bits.resize(N / 8 + 1, 0); 
			_bits.resize((N >> 3) + 1, 0); // 即上面注释的，效率快一点点
		}

	protected:
		vector _bits;
	};
}

使用非类型模板参数，该参数用来指定位图比特位的个数。
底层使用的是vector，vector中是char类型变量。

在构造函数中需要指定vector的大小，否则vector的大小是0，一个比特位也没有。

非类型模板参数N指定是比特位的个数，而构造函数开辟的是char类型变量的个数，所以需要N / 8。

由于N / 8的结果不是整数时会取整而抛弃小数部分，所以需要在N /8 后再加1，也就是再增加 8 个比特位来确保位图够用。

CPU在计算除法的时候，其实是很复杂的，而进行移位运算就很简单。N / 8相当于N右移3位。所以我们使用移位运算来代替除法来提高效率，需要注意的是，加法的优先级比移位运算高，所以必须给(N>>3)加括号，否则就是成了 N>>4了。

下面来写bitset的接口函数：

set(); 该接口的作用是将x映射在位图中的比特位置1，表示该数据存在。

首先将x映射在位图中的位置计算出来。
然后将映射的比特位置1。

怎么将对应的比特位置1？这就要我们以前C语言学的知识：

如上图所示，要将一个char类型中的8个比特位的某一个位置一而不影响其他位，就需要或等一个只有那个位是1其他位都是0的char类型，这样一个char类型可以通过1左移固定位数得到。

		void set(size_t x)
		{
			size_t i = x >> 3; // 将x映射在位图中的位置计算出来。
			size_t j = x % 8; // //映射到char中第几个比特位

			_bits[i] |= (1 << j); //将映射的比特位置1。
		}

现在来实现reset()；该接口的作用是将x映射在位图中的比特位置0，表示该数据不存在。

和set的思路一样同样先计算处x所在位图中的位置。然后再进行置0。

怎么将对应比特位置0？上面是或等，这里就要与等一个数。

这里与等一个只有那个位是0其他位都是1的char类型变量，这样一个char类型可以通过1左移固定位数（就是set或等的那个数），然后按位取反得到。

		void reset(size_t x)
		{
			size_t i = x >> 3; // 将x映射在位图中的位置计算出来。
			size_t j = x % 8; // //映射到char中第几个比特位

			_bits[i] &= ~(1 << j); //将映射的比特位置0，这里~是按位取反，不要用到!逻辑取反
		}

现在来实现test(); 该接口的作用是在位图中查找数据x是否存在。

首先计算出x映射在位图中的位置。
然后看该比特位是0还是1。

如上图所示，判断某个比特位是1还是0，需要与一个只有这个位是1其他位都是0的char类型变量，如果这个bit是0，那么与以后的结果就是0，对应的bool值flase，如果这个bit是1，那么与以后的结果就不是0，对应的bool值是true。

bool值本质上是4个字节的整形，所以这里涉及到了整形提升，但是并没有影响。

如果与以后的结果是0，整形提升后的结果仍然是0，bool值就是false。

如果与以后的结果非0，即使符号位是1，整形提升和的结果仍然非0，bool的值就是true。

		bool test(size_t x)
		{
			size_t i = x >> 3; // 将x映射在位图中的位置计算出来。
			size_t j = x % 8; // //映射到char中第几个比特位

			return _bits[i] & (1 << j); //与上除了对应比特位是1，其它位都是0的数，得到对应比特位bool值
		}

位图主要的接口就是这三个，下面来测试一下：

#include "BitSet.h"

void test_bitset()
{
	rtx::bitset<100> bs; //上面面试题开范围可以这样开：bitset<-1> bs1;
	bs.set(8);
	bs.set(9);
	bs.set(20);

	cout << bs.test(8) << endl;
	cout << bs.test(9) << endl;
	cout << bs.test(20) << endl;
	cout << bs.test(30) << endl << endl;

	bs.reset(8);
	bs.reset(20);

	cout << bs.test(8) << endl;
	cout << bs.test(9) << endl;
	cout << bs.test(20) << endl;
}

int main()
{
	test_bitset();

	return 0;
}

STL中的位图：

在STL库中，是存在位图的，但是用的比较少。

上面实现的这3个操作也是有的，当然它还提供了其他的接口，这里就不介绍了。

1.3 位图解决海量数据面试题

下面是一些海量数据面试题：

1. 给定100亿个整数，如何设计算法找到只出现一次的整数？
2. 给两个文件，分别有100亿个整数，我们只有1G内存，如何找到两个文件交集？
3. 位图应用变形：1个文件有100亿个int，1G内存，如何找到出现次数不超过两次的所有整数？

这三道题我们一题一题来看：

问题一：给定100亿个整数，如何设计算法找到只出现一次的整数？

首先这100亿个数据在内存中肯定是放不下的，所以之前学习的存放数据本身的数据结构都用不了，只能用位图。位图的一个比特位只有两种状态来表示数据的有无，这里是要统计次数，所以就要让位图不仅仅只有两种状态。这里可以用KV模型，但是想想还有没有更好的方法？

位图在STL库里有，虽然只是K模型的，但是我们用两个位图就能很好的解决这个问题：

创建两个2^32比特位的位图结构，如上图所示。

两个位图相同下标的两个比特位来表示一个数据的状态。
00表示0次，01表示1次，10表示一次1以上。

完整BitSet.h和two_bitset:

#pragma once

#include 
#include 
#include 
using namespace std;

namespace rtx
{
	template
	class bitset
	{
	public:
		bitset()
		{
			//_bits.resize(N / 8 + 1, 0); 
			_bits.resize((N >> 3) + 1, 0); // 即上面注释的，效率快一点点
		}

		void set(size_t x)
		{
			size_t i = x >> 3; // 将x映射在位图中的位置计算出来。
			size_t j = x % 8; // //映射到char中第几个比特位

			_bits[i] |= (1 << j); //将映射的比特位置1。
		}

		void reset(size_t x)
		{
			size_t i = x >> 3; // 将x映射在位图中的位置计算出来。
			size_t j = x % 8; // //映射到char中第几个比特位

			_bits[i] &= ~(1 << j); //将映射的比特位置0，这里~是按位取反，不要用到!逻辑取反
		}

		bool test(size_t x)
		{
			size_t i = x >> 3; // 将x映射在位图中的位置计算出来。
			size_t j = x % 8; // //映射到char中第几个比特位

			return _bits[i] & (1 << j); //与上除了对应比特位是1，其它位都是0的数，得到对应比特位bool值
		}

	protected:
		vector _bits;
	};

	template
	class two_bitset
	{
	public:
		void set(size_t x)
		{
			bool inset1 = _bs1.test(x); // 测试当前状态
			bool inset2 = _bs2.test(x);

			if (inset1 == false && inset2 == false)
			{
				_bs2.set(x); // 00 -> 01
			}
			else if (inset1 == false && inset2 == true)
			{
				_bs1.set(x); // 01 -> 10
				_bs2.reset(x);
			}                // 10 是出现两次或两次以上，不用变
		}

		void print_once_num()
		{
			for (size_t i = 0; i < N; ++i)
			{
				if (_bs1.test(i) == false && _bs2.test(i) == true)
				{
					cout << i << endl; // 打印只出现一次的整数
				}
			}
		}

	protected:
		bitset _bs1;
		bitset _bs2;
		//std::bitset _bs1;
		//std::bitset _bs2;
	};
}

Test.cpp:

#include "BitSet.h"

void test_bitset()
{
	rtx::bitset<100> bs; //上面面试题开范围可以这样开：bitset<-1> bs1;
	bs.set(8);
	bs.set(9);
	bs.set(20);

	cout << bs.test(8) << endl;
	cout << bs.test(9) << endl;
	cout << bs.test(20) << endl;
	cout << bs.test(30) << endl << endl;

	bs.reset(8);
	bs.reset(20);

	cout << bs.test(8) << endl;
	cout << bs.test(9) << endl;
	cout << bs.test(20) << endl;
}

void test_two_bitset()
{
	int arr[] = { 3, 4, 5, 2, 3, 4, 4, 4, 4, 12, 77, 65, 44, 4, 44, 99, 33, 33, 33, 6, 5, 34, 12 };

	rtx::two_bitset<100> bs;
	for (const auto& e : arr)
	{
		bs.set(e);
	}

	bs.print_once_num();
}

int main()
{
	//test_bitset();
	test_two_bitset();

	return 0;
}

问题二：给两个文件，分别有100亿个整数，我们只有1G内存，如何找到两个文件交集？

两个文件都有100一个整数，必然放不进内存中，所以同样采用位图结构。
每个文件使用一个2^32个比特位的位图，两个文件就是两个位图，占用的内存也就是1GB，符合要求。

两个文件都放进位图，这样就可以去重了，然后将两个位图进行按位与运算，得到的结果中，比特位是1的就是交集。

这里具体的实现就不再写了，要注意体会位图的应用，也就是哈希应用的思想。

问题三：个文件有100亿个int，1G内存，如何找到出现次数不超过两次的所有整数？

采用的方法是两个位图结构，和问题1一样。
只是这里还需要两个位是11的情况，用来表示3次及以上。

只需要在前面代码增加一种情况的处理即可：

1.4 位图的优缺点

上面就是一些位图的应用，有下面这些时应该想到位图：

1. 快速查找某个数据是否在一个集合中
2. 排序 + 去重
3. 求两个集合的交集、并集等
4. 操作系统中磁盘块标记

但是位图有优点也是有缺点的：

优点：节省空间，效率高。（直接定制法，直接开到整形的最大范围就不存在冲突）
缺点：一般要求数据相对集中，否则会导致空间消耗上升。

位图的一个致命缺点：只能针对整形。

2. 布隆过滤器

果我就要使用位图来存放字符串呢？当然也是可以的，只是需要和哈希表一样，将字符串转换成整数。

如上图所示，将不同的字符串通过hashfunc函数转换成不同的整数，然后将这些整数映射到位图中，从而表示字符串的存在情况。

但是无论是哪种方式，字符串转换成整数，都有可能让两个不同的字符串转换的整数相同。

这就会产生误判的情况，那是判断存在有误判，还是判断不存在有误判，还是都有误判呢？：

位图中存在：不一定真正存在。
如上图中“find”和“insert”转换成的整数都是1234，所以位图中第1234个比特位是1，就可以说“find”和“insert”都存在，但实际上是“insert”存在，而“find”不存在，于是就产生了误判。

位图不存在：必然不存在。
还使用上面的例子，如果位图的第1234个比特位是0，说明“find”和“insert”都不存在。

所以根据位图判断出的结构，不存在是准确的，存在是不准确的。

有没有办法能提高一下判断的准确率呢？答案是有的，布隆过滤器就可以降低误判率，提高准确率。

2.1 布隆过滤器的概念

布隆过滤器是由布隆（Burton Howard Bloom）在1970年提出的一种紧凑型的、比较巧妙的概率型数据结构，特点是高效地插入和查询，可以用来告诉你 “某样东西一定不存在或者可能存在”，它是用多个哈希函数，将一个数据映射到位图结构中。此种方式不仅可以提升查询效率，也可以节省大量的内存空间。

布隆过滤器：用多个哈希函数，将一个数据映射到位图结构中。

使用两个哈希函数，将同一个字符串转换成两个整数，并且都映射在位图中，如上图所示。

只有一个字符串在位图中的两个比特位同时为1才能说明该字符串存在。
"find"经过哈希函数处理后的两个整数，只有一个是被“insert”映射的，另一个是0，说明“find”不存在。而“insert”经过哈希函数处理后的两个整数，在位图中都有映射，可以说明“insert”存在。

此时降低了误判率：

位图存在：字符串存在的准确率提高，但是仍有不存在的可能。
字符串“find”经过两个哈希函数处理后得到两个整数，与字符串“insert”得到的两个整数相同的概率，比之前各自有一个整数相同的概率低的多。
但是仍然有可能“find”的两个整数和“insert”的两个整数相同，此时就会又出现误判。

位图不存在：必然不存在。

布隆过滤器对于不存在的判断是准确的，并且可以降低存在时的误判率。

布隆过滤器的应用场景：不需要一定准确的场景，比如注册昵称时的存在判断。

如上图中，一个昵称的数据库是放在服务器中的，这个数据库中昵称的存在情况都放在了布隆过滤器中，当从客户端注册新的昵称时，可以通过布隆过滤器快速判断新昵称是否存在。

这里对存在的准确率要去就没有太高，布隆过滤器显示存在(不准确)，就换一个昵称，显示不存在(准确)，就注册这个昵称，并放入数据库中。
通过布隆过滤器查找可以提高效率，如果之前去数据库中查找的话，效率就会大大降低。

哈希函数个数和布隆过滤器长度的关系：

现在知道布隆过滤器是什么了，但是我们到底该创建多少个比特位的位图(布隆过滤器长度)，又应该使用多少个哈希函数来映射同一个字符串呢？

布隆过滤器长度长度开得短了误判率就高，开得长了就存在空间浪费的情况，优点就不明显了。

如何选择哈希函数个数和布隆过滤器长度一文中，对这个问题做了详细的研究和论证：

哈希函数个数和布隆过滤器长度以及误判率三者之间的关系曲线。

最后得出一个公式：

m：表示布隆过滤器长度。k：表示哈希函数个数。n：表示插入的元素个数。n2约等于0.69。

2.2 布隆过滤器的实现

首先需要写几个哈希函数来将字符串转换成整形，各种字符串Hash函数一文中，介绍了多种字符串转换成整数的哈希函数，并且根据冲突概率进行了性能比较，有兴趣的小伙伴可以自行研究一下。这里选择分数较高的3个哈希函数：

struct HashBKDR
{
	size_t operator()(const string& key)
	{
		size_t val = 0;
		for (auto ch : key)
		{
			val *= 131;
			val += ch;
		}

		return val;
	}
};

struct HashAP
{
	size_t operator()(const string& key)
	{
		size_t hash = 0;
		for (size_t i = 0; i < key.size(); i++)
		{
			if ((i & 1) == 0)
			{
				hash ^= ((hash << 7) ^ key[i] ^ (hash >> 3));
			}
			else
			{
				hash ^= (~((hash << 11) ^ key[i] ^ (hash >> 5)));
			}
		}
		return hash;
	}
};

struct HashDJB
{
	size_t operator()(const string& key)
	{
		size_t hash = 5381;
		for (auto ch : key)
		{
			hash += (hash << 5) + ch;
		}

		return hash;
	}
};

template
class BloomFilter // N表示准备要映射N个值
{
public:

protected:
	const static size_t _ratio = 5; // 根公式算出来，此时哈希函数是3个，所以m = 3n/ln2 约等于4.2 取5
	std::bitset<_ratio* N>* _bits = new std::bitset<_ratio * N>;
	// 库里的bit是放在栈上的，容易栈溢出，所以自己放到堆上（很挫）用自己写的就是放在堆上的
};

size_t N：最多存储的数据个数。

class K：布隆过滤器处理的数据类型，默认情况下是string，也可以是其他类型。

哈希函数：将字符串或者其他类型转换成整形进行映射，缺省值是将字符串转换成整形的仿函数。

set(): 将数据经过3个哈希函数的处理得到3个整数，

然后将这3个整数都映射到位图中来表示这个数据存在。

	void Set(const K& key)
	{
		size_t hash1 = Hash1()(key) % (_ratio * N); // 注意优先级问题，在最后加括号
		size_t hash2 = Hash2()(key) % (_ratio * N);
		size_t hash3 = Hash3()(key) % (_ratio * N);

		_bits->set(hash1);
		_bits->set(hash2);
		_bits->set(hash3);

	}

test(): 对每一个哈希函数得到的整数所映射的位置进行判断，如果某个位置不存在直接返回false，说明这个字符串不存在，当所有整数所映射的位置都存在，说明这个字符串存在。

判断每个比特位时，判断它不存在，不要判断它存在，因为不存在是准确的，存在是不准确的。

	bool Test(const K& key)
	{
		size_t hash1 = Hash1()(key) % (_ratio * N);
		if (!_bits->test(hash1))
		{
			return false; // 准确的
		}

		size_t hash2 = Hash2()(key) % (_ratio * N);
		if (!_bits->test(hash2))
		{
			return false; // 准确的
		}

		size_t hash3 = Hash3()(key) % (_ratio * N);
		if (!_bits->test(hash3))
		{
			return false;  // 准确的
		}

		return true; // 可能存在误判
	}

在这思考：布隆过滤器支不支持删除？

布隆过滤器不能直接支持删除工作，因为在删除一个元素时，可能会影响其他元素。

“baidu”和“tencent”映射的比特位都有第4个比特位。删除上图中"tencent"元素，如果直接将该元素所对应的二进制比特位置0，“baidu”元素也被删除了，因为这两个元素在多个哈希函数计算出的比特位上刚好有重叠。

面试题：如何扩展BloomFilter使得它支持删除元素的操作。

一种支持删除的方法：将布隆过滤器中的每个比特位扩展成一个小的计数器，插入元素时给k个计数器(k个哈希函数计算出的哈希地址)加一，删除元素时，给k个计数器减一，通过多占用几倍存储空间的代价来增加删除操作。

但是也存在缺陷，无法确认元素是否真正在布隆过滤器中，甚至会有计数回绕。
总的来说，布隆过滤器最好不要支持删除操作。

完整 BloomFilter.h 和测试

#pragma once

#include 
#include 
#include 
#include  // to_string
using namespace std;

struct HashBKDR
{
	size_t operator()(const string& key)
	{
		size_t val = 0;
		for (auto ch : key)
		{
			val *= 131;
			val += ch;
		}

		return val;
	}
};

struct HashAP
{
	size_t operator()(const string& key)
	{
		size_t hash = 0;
		for (size_t i = 0; i < key.size(); i++)
		{
			if ((i & 1) == 0)
			{
				hash ^= ((hash << 7) ^ key[i] ^ (hash >> 3));
			}
			else
			{
				hash ^= (~((hash << 11) ^ key[i] ^ (hash >> 5)));
			}
		}
		return hash;
	}
};

struct HashDJB
{
	size_t operator()(const string& key)
	{
		size_t hash = 5381;
		for (auto ch : key)
		{
			hash += (hash << 5) + ch;
		}

		return hash;
	}
};

template
class BloomFilter // N表示准备要映射N个值
{
public:
	void Set(const K& key)
	{
		size_t hash1 = Hash1()(key) % (_ratio * N); // 注意优先级问题，在最后加括号
		size_t hash2 = Hash2()(key) % (_ratio * N);
		size_t hash3 = Hash3()(key) % (_ratio * N);

		_bits->set(hash1);
		_bits->set(hash2);
		_bits->set(hash3);

	}

	bool Test(const K& key)
	{
		size_t hash1 = Hash1()(key) % (_ratio * N);
		if (!_bits->test(hash1))
		{
			return false; // 准确的
		}

		size_t hash2 = Hash2()(key) % (_ratio * N);
		if (!_bits->test(hash2))
		{
			return false; // 准确的
		}

		size_t hash3 = Hash3()(key) % (_ratio * N);
		if (!_bits->test(hash3))
		{
			return false;  // 准确的
		}

		return true; // 可能存在误判
	}

	// 一般不支持删除，因为可能会影响其它值（引用计数可以解决，但空间消耗更多了）
	//void Reset(const K& key);

protected:
	const static size_t _ratio = 5; // 根公式算出来，此时哈希函数是3个，所以m = 3n/ln2 约等于4.2 取5
	std::bitset<_ratio* N>* _bits = new std::bitset<_ratio * N>;
	// 库里的bit是放在栈上的，容易栈溢出，所以自己放到堆上（很挫）用自己写的就是放在堆上的
};

Test.cpp：

#include "BloomFilter.h"

void TestBloomFilter1()
{
	BloomFilter<10> bf;
	string arr1[] = { "苹果", "西瓜", "阿里", "美团", "苹果", "字节", "西瓜", "苹果", "香蕉", "苹果", "腾讯" };

	for (auto& str : arr1)
	{
		bf.Set(str);
	}

	for (auto& str : arr1)
	{
		cout << bf.Test(str) << " ";
	}
	cout << endl;

	string arr2[] = { "苹果111", "西瓜", "阿里2222", "美团", "苹果dadcaddxadx", "字节", "西瓜sSSSX", "苹果 ", "香蕉", "苹果$", "腾讯" };

	for (auto& str : arr2) // 测试相似字符串在不在
	{
		cout << str << ":" << bf.Test(str) << endl;
	}
}

void TestBloomFilter2() // 网上找的测试误判率的测试
{
	srand(time(0));
	const size_t N = 100000;
	BloomFilter bf;
	cout << sizeof(bf) << endl;

	std::vector v1;
	std::string url = "https://www.cnblogs.com/-clq/archive/2012/05/31/2528153.html";

	for (size_t i = 0; i < N; ++i)
	{
		v1.push_back(url + std::to_string(1234 + i));
	}

	for (auto& str : v1)
	{
		bf.Set(str); // 将十万个不同的字符串映射到位图中
	}

	std::vector v2;
	for (size_t i = 0; i < N; ++i) // 获取十万个和前面相似的字符串用于下面测试
	{
		std::string url = "http://www.cnblogs.com/-clq/archive/2023/05/31/2528153.html";
		url += std::to_string(rand() + i);
		v2.push_back(url);
	}

	size_t n2 = 0;
	for (auto& str : v2)
	{
		if (bf.Test(str))
		{
			++n2;
		}
	}
	cout << "相似字符串误判率:" << (double)n2 / (double)N << endl;

	std::vector v3; // 获取十万个和前面不相似的字符串用于下面测试
	for (size_t i = 0; i < N; ++i)
	{
		string url = "zhihu.com";
		url += std::to_string(rand() + i);
		v3.push_back(url);
	}

	size_t n3 = 0;
	for (auto& str : v3)
	{
		if (bf.Test(str))
		{
			++n3;
		}
	}
	cout << "不相似字符串误判率:" << (double)n3 / (double)N << endl;
}

int main()
{
	TestBloomFilter1();
	TestBloomFilter2();

	return 0;
}

可以看到，相似字符串的误判率在百分之十左右。

可以试试改X值，X值越大，也就是一个字符串所需要的映射比特位越多，布隆过滤器的误判率越小。但是空间消耗也增加了。

哈希函数的个数越多，误判率也会越小，但是对于的空间消耗也会增加。

布隆过滤器只能提高存在判断的准确率，并不能让它完全准确。

2.3 布隆过滤器的优缺点和应用

优点：

1. 增加和查询元素的时间复杂度为:O(K), (K为哈希函数的个数，一般比较小)，与数据量大小无关。

2. 哈希函数相互之间没有关系，方便硬件并行运算。

3. 布隆过滤器不需要存储元素本身，在某些对保密要求比较严格的场合有很大优势。

4. 在能够承受一定的误判时，布隆过滤器比其他数据结构有这很大的空间优势。

5. 数据量很大时，布隆过滤器可以表示全集，其他数据结构不能。

6. 使用同一组散列函数的布隆过滤器可以进行交、并、差运算。

缺点：

1. 有误判率，即存在假阳性(False Position)，即不能准确判断元素是否在集合中(补救方法：再建立一个白名单，存储可能会误判的数据)。

2. 不能获取数据本身。

3. 一般情况下不能从布隆过滤器中删除元素。

4. 如果采用计数方式删除，可能会存在计数回绕问题。

海量数据面试题： 给两个文件，分别有100亿个query，我们只有1G内存，如何找到两个文件交集？分别给出近似算法和精确算法。

分析：和位图应用一样，数据量太大，无法放入内存中，由于是字符串，近似算法可以使用布隆过滤器来处理。创建两个布隆过滤器，每个是232大小，占用空间0.5GB，两个就是1GB。将两个文件中的字符串各自映射到布隆过滤器中，然后两个布隆过滤器进行按位与操作，最后是1的位置就是交集。具体代码这里就不写了，这里主要体会布隆过滤器是使用的思想。

精确算法就不能用布隆过滤器处理了，要用到下面的哈希切割：

3. 哈希切割（哈希切分）

先看一道哈希切割的海量数据面试题：给一个超过100G大小的log ﬁle, log中存着IP地址, 设计算法找到出现次数最多的IP地址？设计算法找到top k的IP地址呢？

分析：

100GB大小的文件，无法放入内存。
找到出现次数最多的IP，需要准确统计，无法使用位图或者布隆过滤器，因为它两的存在是不准确的。
统计次数，还是需要用到map或者是unordered_map。
将100GB的文件拆分成100个1GB大小的小文件，每个小文件进行统计。

一个个来统计次数，依次读取每个小文件，依次统计次数。
统计完一个，将出现最多次数的IP及次数保存，并且clear掉map，再统计下一个小文件。

如果将这100GB的文件均分为100给1GB的小文件，统计会出现问题。

假设A0中出现次数最多的IP是“IP1”，出现最少次数的IP是“IP2"，那么这个小文件最终得到是”IP1“出现最多。

A1小文件中，出现最多的是”IP2“，出现最少的是”IP1“，那么这个小文件最终得到是”IP2“出现最多。

最终是A0中统计出来”IP1“的次数和A1中统计出来”IP2“的次数在比较。

这样最终比较时的数据具有片面性，因为在统计每个小文件时，会舍弃很多的数据，这些舍弃的数据再最终比较时并没有被考虑到。

如果在分小文件的时候，让相同的IP分到一个小文件中，这样统计出来的次数就不片面了。

此时就需要用到哈希切分的方法。

哈希切分：通过哈希函数，将相同或者相近的数据切分到一组。

如上图所示，通过哈希函数，将100GB文件中的所有IP都转换成整数，然后模100，得到多少就进入标号为多少的小文件中。

哈希切分时：相同的IP经过哈希函数处理得到的整数必然是相同的，所以也必然会被分到同一个小文件中。
虽然会有哈希碰撞的情况，产生碰撞的IP都会在一个小文件中，而不会被分到其他小文件。

经过哈希切分后，每个小文件中统计出现次数最多的IP就是这100GB文件中该IP出现的总次数。最后再从每个小文件中出现次数最多的IP中比较出最终出现次数最多的IP。

但是此时又存在问题，哈希切分并不是均分，也就意味着每个小文件中的IP个数不一样，有的多有的少。如果某个小文件的大小超出1GB怎么办？有两种超出1GB的情况：

这个小文件中冲突的IP很多，都是不同的IP，大多数是不重复的，此时无法使用map来统计——需要换一个哈希函数递归切分这个小文件。
这个小文件中冲突的IP很多，都是相同的IP，大多数是重复的，此时仍然可以用map来统计——直接统计。

无论是哪种情况，我们先都直接用map去统计，如果是第二种情况，内存就够用，map可以进行统计，而且不会报错。

如果是第一种情况，map就会因为内存不够而插入失败，相当于new节点失败，就会抛异常，此时我们只需要捕获这个异常，然后换一个哈希函数递归切分这个小文件即可。

再看这道海量数据面试题： 给两个文件，分别有100亿个query，我们只有1G内存，如何找到两个文件交集？给出精确算法。（近似算法前面讲了这里就忽略）

这个问题和布隆过滤器应用中的问题一样，只是需要给出精确的算法，所以肯定不能使用布隆过滤器，还是需要map来统计。
1GB的内存，无法存放下100亿个字符串，所以需要哈希切分。

假设平均每个字符串的大小是50B，那么100亿个字符串就是500GB，所以需要将这500GB哈希切分成1000份，每个小文件才能在内存中进行准确的次数统计。

将文件A和文件B各自进行哈希切分为1000个小文件，每个小文件平均大小是0.5GB。
然后Ai和Bi去找交集，找1000次就找到了两个文件中的所有交集。
如果某个小文件太大，仍然使用上个问题的方法去处理。

找交集的方法有很多，这里就不再详细讲解了，但是需要注意的是，每个小文件Ai和Bi都需要各自去重以后再找交集。

4. 笔试选择题

1. 下面关于位图说法错误的是（）

A .位图就是用比特比特位表示一个数据的状态信息

B .通过位图可以求两个集合的交集

C .位图实际是哈希变形思想的一种应用

D .位图可以很方便的进行字符串的映射以及查找

2. 现有容量为10GB的磁盘分区，磁盘空间以簇（cluster）为单位进行分配，簇的大小为4KB，若采用位图法管理该分区的空闲空间，即用一位（bit）标识一个簇是否被分配，则存放该位图所需簇的个数为（）

A .80

B .320

C .80K

D .320K

3. 下面关于布隆过滤器优缺点说法错误的是（）

A .布隆过滤器没有直接存储数据，可以对数据起到保护作用

B .布隆过滤器查找的结果不准确，并不能使用

C .布隆过滤器采用位图的思想表示数据装填，可以节省空间

D .布隆过滤器可能会存在误判，告知数据存在可能是不准确的

4. 下面关于布隆过滤器说法不正确的是（）

A .布隆过滤器是一种高效的用来查找的数据结构

B .布隆过滤器弥补了位图不能存储字符串等类型得缺陷

C .可以使用布隆过滤器可以准确的告知数据是否存在

D .布隆过滤器不存储数据本身，是一种紧促的数据结构

答案及解析

1. D

A：正确，位图概念

B：正确，将两个序列分别映射到两个位图上，对两个位图的每个字节进行按位与操作，结果为1 的比特位对应的数据的就是两个序列的交集

C：正确，位图就是将数据与数据在位图中对应的比特位进行了一一对应，是哈希的一种变形

D：错误，采用位图标记字符串时，必须先将字符串转化为整形的数字，找到位图中对应的比特位，但是在字符串转整形的过程中，可能会出现不同字符串转化为同一个整形数字，即冲突，因此一般不会直接用位图处理字符串。

2. A

10GB = 10*1024*1024K 一个簇大小为4K，

那10GB总共有 10*1024*1024/4 = 10*1024*256个簇

用位图来进行存储时：一个簇占用一个比特位，总共需要10*1024*256个比特位，

10*1024*256 bit = 10*1024*256/8字节 = 320K

一个簇大小为4K，故总共需要320K/4k=80个簇进行存储

10GB/4KB=2.5M，共有2.5M个可分配的簇， 2.5M/8=320KB，

需要320K的字节来标记可分配的簇， 320KB/4KB=80个，

这320KB同样是按4KB一簇在硬盘上存储，所以需要除4K，得80个簇

3. B

  A：正确，布隆过滤器底层使用的是位图，没有直接存储数据本身

  B：错误，如果可以接受误差，是可以用的

  C：正确

  D：正确，因为多个元素的比特位上可能有重叠

4. C

  A：正确，因为其底层使用的是位图，而位图优势哈希的一种变形

  B：正确，布隆过滤器可以映射存储任意类型，只是存在误判的问题

  C：错误，布隆过滤器找到数据不存在，则该数据一定不存在，如果说存在，那可能存在，不存在一定是准确的，存在时可能会误判

  D：正确，因为其底层使用位图，用比特位代表数据存在与否的状态信息，

是一种紧促的数据结构

本章完。

位图和布隆过滤器都是针对数据量很大的情况下使用的数据结构，并且它们不能存放数据本身，只能表示数据存在或者不存在，位图只针对整形，并且不存在误判的情况，布隆过滤器主要针对字符串，但是也可以是其他自定义类型，但是存在误判，可以通过增加哈希函数或者映射一个数据所需要的比特位来降低误判率，但是会消耗更多的空间。

本章主要是介绍哈希思想的应用，位图以及布隆过滤器归根到底还是哈希思想的体现。
下一部分就开始进入C++11的系统学习了。

下一篇：从C语言到C++_33(C++11新特性)initializer_list+右值引用+完美转发+移动构造/赋值

你可能感兴趣的:(④从C语言到C++,c++,数据结构,算法,哈希算法,面试)

C语言基于ssl的https通信,利用OpenSSL建立SSL安全通信(C/S) 宝之大者
/*******************************************************************************************SSL/TLS客户端程序WIN32版(以demos/cli.cpp为基础)*需要用到动态连接库libeay32.dll,ssleay.dll,*同时在setting中加入ws2_32.liblibeay32.libs
华为OD机试真题E卷 - 跳马（Java/JS/Py/C/C++）耀耀zz 2025最新华为OD机试题目华为od
题目描述马是象棋(包括中国象棋和国际象棋)中的棋子，走法是每步直一格再斜一格，即先横着或者直者走一格，然后再斜着走一个对角线，可进可退，可越过河界，俗称"马走日"字。给定m行n列的棋盘（网格图），棋盘上只有象棋中的棋子“马”，并且每个棋子有等级之分，等级为k的马可以跳1~k步(走的方式与象棋中“马”的规则一样，不可以超出棋盘位置)，问是否能将所有马跳到同一位置，如果存在，输出最少需要的总步数(每匹
java上传图片到mysql数据库中_java中如何上传图片到数据库？ Blancbleu
基于layui框架，实现从jsp页面上传图片到数据库，熟悉layui框架才能用。首先如何上传图片。这里为layui的js部分和htmlvaruploadInst=upload.render({elem:'#uploadBtn'//上传按钮的id,accept:'images'//上传文件的类型,auto:false,size:1024*1024*2//上传文件的最大大小这里为2M,choose:f
Ubuntu20.04下VSCode配置PCL和OpenCV库-C++ Pertance vscode opencv c++
Ubuntu20.04+VSCode+Cpp+PCL+OpenCV准备工作代码编辑：VSCode开发语言：C++编译工具：CmakeG++依赖需求：PCL/OpenCV安装PCL库sudoaptinstalllibpcl-dev配置OpenCV库安装依赖sudoapt-getinstallbuild-essentialsudoapt-getinstallcmakegitlibgtk2.0-devp
HIVE的执行计划实操不爱学习的小枫大数据 hive 大数据
什么是执行计划所谓执行计划，顾名思义，就是对一个查询任务（sql），做出一份怎样去完成任务的详细方案。举个生活中的例子，我从上海要去新疆，我可以选择坐飞机、坐高铁、坐火车，甚至于自驾。具体到线路更是五花八门，现在我准备选择自驾了，具体什么路线怎样去划算（时间&费用），这是一件值得考究的事情。HIVE（我们的自驾工具）提供了EXPLAIN命令来展示一个查询的执行计划（什么路线）,这个执行计划对于我们
华为OD-2024年E卷-分批萨[100分] 菲儿啊华为od
文章目录题目描述输入描述输出描述用例1解题思路Python3源码题目描述吃货"和"馋嘴"两人到披萨店点了一份铁盘（圆形）披萨，并嘱咐店员将披萨按放射状切成大小相同的偶数个小块。但是粗心的服务员将披萨切成了每块大小都完全不同奇数块，且肉眼能分辨出大小。由于两人都想吃到最多的披萨，他们商量了一个他们认为公平的分法：从"吃货"开始，轮流取披萨。除了第一块披萨可以任意选取外，其他都必须从缺口开始选。他俩选
学习嵌入式必须学习32单片机吗？嵌入式开发胖胖单片机学习嵌入式硬件
不要去学STM32”。我不是说STM32不好，而是这种为了学习单片机而去学习单片机的思路不对。你问，如何系统地入门学习stm32？这本身就是一个错误的问题。假如你会使用8051，会写C语言，那么STM32本身并不需要刻意的学习。你要考虑的是，我可以用STM32实现什么?为什么使用STM32而不是8051?是因为51的频率太低，无法满足计算需求
面试题——Java中的锁 m0_67265654 面试学习路线阿里巴巴 java javascript 开发语言
文章目录谈谈你对线程安全的理解？1、synchronized关键字是怎么用的？1.1构造方法可以使用synchronized关键字修饰么？1.2使用String作为锁对象，会有什么问题？1.3synchronized的底层原理有了解吗？1.4synchronized怎么保证可重入性？可见性？抛异常怎么办？1.4还使用过其他锁吗？（ReentrantLock）1.5ReentrantLock的实现原
单片机学习规划鬼手点金技术感悟单片机嵌入式硬件
学习单片机是一个系统化的过程，以下是一个合理的学习规划，帮助你从基础到进阶逐步掌握单片机开发技能。第一阶段：基础知识准备电子基础:学习电路基础知识：电阻、电容、电感、二极管、三极管等。掌握基本电路分析方法：欧姆定律、基尔霍夫定律等。了解数字电路基础：逻辑门、触发器、计数器等。C语言编程:学习C语言基础：数据类型、运算符、控制语句、函数、数组、指针等。熟悉C语言在嵌入式开发中的应用：位操作、结构体、
2024华为OD机试真题-数据分类算法(C++/Java/Python)-E卷-100分 2024剑指offer 华为od c++python java
2024华为OD机试最新E卷题库-(C卷+D卷+E卷)-(JAVA、Python、C++)目录题目描述输入描述输出描述用例1用例2题目解析考点代码c++pythonJava题目描述对一个数据a进行分类，分类方法为：此数据a（四个字节大小）的四个字节相加对一个给定的值b取模如果得到的结果小于一个给定的值c，则数据a为有效类型，其类型为取模的值如果得到的结果大于或者等于c，则数据a为无效类型比如一个数
2024华为OD机试真题-符号运算-(C++/Python)-C卷D卷-200分 2024剑指offer 华为od c++python java
【华为OD机试】-(C卷+D卷)-2024最新真题目录题目描述给定一个表达式，求其分数计算结果。表达式的限制如下：所有的输入数字皆为正整数（包括0）仅支持四则运算（+-*,/）和括号结果为整数或分数，分数必须化为最简格式（比如6，3/4，7/8，90/7）除数可能为0，如果遇到这种情况，直接输出"ERROR"输入和最终计算结果中的数字都不会超出整型范围用例输入一定合法，不会出现括号匹配的情况输入描
openssl下SM4算法OFB模式加解密运算实例李洛克07 openssl gmssl算法接口的使用算法 openssl ofb
SM4算法ofb接口加密intopenssl_sm4_encrypt_ofb(unsignedchar*key,unsignedchar*iv,unsignedchar*in_buf,intin_len,unsignedchar*out_buf,int*out_len){EVP_CIPHER_CTX*ctx=NULL;ctx=EVP_CIPHER_CTX_new();printf("%s%d\n"
openssl的aes128_ECB加密解密运算实例李洛克07 openssl gmssl算法接口的使用算法开发语言 openssl 网络安全 aes算法
aes128算法ECB接口加密接口注意事项：EVP_EncryptInit_ex初始化算法EVP_aes_128_ecb()，和密钥，key至少16BEVP_EncryptUpdate加密运算，tmplen输出已加密长度EVP_EncryptFinal_ex结束运算，如果在此仍有加密运算，则加密长度tmplen需补充到密文长度中intopenssl_aes128_encrypt_ecb(unsig
openssl下SM4算法cbc模式加解密运算实例李洛克07 openssl gmssl算法接口的使用算法 openssl cbc
SM4算法cbc接口加密intopenssl_sm4_encrypt_cbc(unsignedchar*key,unsignedchar*iv,unsignedchar*in_buf,intin_len,unsignedchar*out_buf,int*out_len){EVP_CIPHER_CTX*ctx=NULL;ctx=EVP_CIPHER_CTX_new();printf("%s%d\n"
AI时代，程序员如何提升竞争力：技术与软技能双修炼源码姑娘人工智能
人工智能技术的迅猛发展正在重塑软件开发行业的格局。从代码生成工具（如GitHubCopilot）到智能调试系统，AI已从辅助工具逐步演变为开发流程中不可或缺的伙伴。然而，这种变革既是机遇也是挑战：程序员若想在这场技术浪潮中保持竞争力，必须实现技术与软技能的双重修炼。本文将从技术深耕、AI工具驾驭、跨学科融合及软技能提升四个维度，探讨程序员的核心竞争力构建路径。一、技术修炼：从工具使用者到领域专家1
【论文笔记】3DGS压缩相关工作2篇 AndrewHZ 深度学习新浪潮论文阅读 3DGS 计算机图形学算法三维高斯飞溅压缩方法
1.背景介绍：NVS神经辐射场（NeRFs）引入了一种基于多层感知机（MLP）的新型隐式场景表示方法，它将体密度编码作为几何形状和方向辐射的代理量。渲染通过光线行进的方式来执行。这一解决方案为新视图合成（NVS）带来了前所未有的视觉质量，但代价是训练多层感知机的优化过程极为耗时，且渲染速度很慢。有几种方法加速了训练和渲染过程，通常是利用空间数据结构或者像哈希这样的编码方式，不过牺牲了视觉质量。近期
IDEA入门及常用快捷键 tyrolin intellij-idea java ide
IDEA是java常用的IDE。当run一个.java文件时，其实是经历了先编译为.class，再运行的过程。在project文件夹中，out文件夹存储编译的.class文件，src文件夹存储.java代码文件。设置自动导包快捷键：格式化快捷键：Control+alt+L生成构造器，右键generate，constructor光标点到类，查看类的层级关系，ctrl+H光标点到方法，定位到方法，ct
第0篇：基于C++的通讯录管理系统课程实践项目设计 JuicyActiveGilbert C++项目实战（初级）c++开发语言
项目概述开发一个命令行交互式通讯录管理系统，支持联系人增删改查、数据持久化等功能，逐步引入C++核心语法和编程范式，最终实现一个面向对象、内存安全、支持数据序列化的完整应用。规划与知识点分布篇目标题知识点项目实现目标1VS2022环境搭建与第一个C++程序VS安装配置、项目创建、HelloWorld创建项目框架，验证开发环境2C++基础语法与结构体应用数据类型、变量、I/O操作、结构体定义联系人结
AI大模型学习笔记-- 大模型应用技术架构 AI大模型-搬运工人工智能学习笔记语言模型大模型 AI大模型 AI
AI大模型学习笔记--大模型应用技术架构大模型就像是大脑，就像孩子从小学习说话和认知世界一样，通过大量的数据学习，能够理解语言、识别图像、玩游戏、写作、作曲等。如果2023年是AI大模型爆发的一年，很多大厂投入到大模型的研发中，很多创业者通过AI大模型拿到了大笔融资，那对于2024年，将是AI大模型应用大爆发的一年，将有更多的普通人加入到这一浪潮中来。今天，请跟着我一起来揭开大模型应用的神秘面纱，
Onedrive精神分裂怎么办（有变更却不同步）初级代码游戏硬件和软件的使用 onedrive
Onedrive有时候会分裂，你在本地删除文件，并没有同步到云端，但是本地却显示同步成功。比如删掉了一个目录，在本地看已经删掉，onedrive显示已同步，但是别的电脑并不会同步到这个删除操作，在网页版查看或电脑版选择要同步的目录，仍然可以看到，说明没有同步到云端去。怀疑是由于onedrive对大量文件的删除做了保护，必须确认一次才会实际删除，但是由于没有做确认，又重启了电脑，onedrive丢失
PySide(PyQT)的@Slot()、@pyqtSlot()装饰器的作用深蓝海拓 pyside6系统学习 pyside6学习笔记 pyqt
以PySide为例，PyQT原理与其类似。在PySide6中，槽函数可以使用@Slot()装饰器进行修饰，也可以不使用该装饰器，它们之间存在一些区别，下面从多个方面介绍@Slot()装饰器的作用：1.类型检查和元数据当使用@Slot()装饰器时，可以显式地指定槽函数接受的参数类型。这有助于进行类型检查，并且可以提供更准确的元数据。例如：importsysfromPySide6.QtCoreimpo
2025华为OD机试真题目录【E卷+A卷+B卷+C卷+D卷】持续收录中... 耀耀zz 2025最新华为OD机试题目华为od 算法
摘要本专栏提供2025最新最全的华为OD机试真题库（E+A+B+C+D卷），包括100分和200分题型。题目包含题目描述、输入描述、用例、备注和解题思路、多种语言解法（Java/JS/Py/C/C++）。希望小伙伴们认真学习、顺利通过。声明本专栏的文章主要包括两部分：第一部分：题目描述、输入描述、用例。第二部分：解题思路、源码。第一部分信息来自互联网，不是本专栏付费内容，如果这一部分内容侵犯了原著
如何把图片或者图片地址存到 MySQL 数据库中以及如何将这些图片数据通过 JSP 显示在网页中 m0_67265654 面试学习路线阿里巴巴数据库 mysql java
如何优雅地管理图片：从MySQL数据库存储到JSP展示的全流程解析在互联网时代，一张引人入胜的图片往往能为网站带来巨大的流量。而作为开发者的我们，如何高效地管理和展示这些图片资源则成为了一项重要的技术挑战。今天，我们就一起来探讨一下，如何通过MySQL数据库存储图片（或其地址），并在JSP页面上实现美观大方的展示。一、存储策略选择图片存储方式存储图片有两种常见的方法：直接存储图片文件和存储图片路径
Hive 3.1 在 metastore 运行的 remote threads houzhizhen hive hive hadoop 数据仓库
Remotethreads是仅当Hivemetastore作为单独的服务运行是启动，请求需要开启compactor。有以下几种：1.AcidOpenTxnsCounterService统计当前open的事务数从表TXNS中统计状态为open的事务。此事务数量可以再hivemetrics中。2.AcidHouseKeeperService定期调用txnHandler.performTimeOuts(
AI 代理 x Sui：开启 Web3 自动化新时代！ Sui_Network 人工智能 web3 自动化游戏大数据
AI代理正在重塑Web3，它们通过更高的自动化、智能化和适应性，使去中心化应用（DApp）更高效。这些自主程序能够分析数据、与智能合约交互，并实时执行任务，从而提升资产管理效率、增强安全性，并提供更动态的用户体验和交互方式。随着Web3的不断发展，AI代理正成为链上流程优化的重要工具，并不断拓展Web3的可能性。从自动化DeFi策略、实时安全监测，到数据分析洞察，甚至是meme生成，AI代理的应用
工资和奖金（acwing）c/c++/java/python xinghuitunan c++c语言 java python
请你编写一个程序，给定你一个销售人员的名字，底薪以及月销售额。请你计算他的月收入是多少。已知月收入等于底薪加15%15%的月销售额。所有数据保留两位小数。输入格式输入第一行包含一个由大写字母构成的长度不超过1010的字符串，表示销售人员的名字。第二行包含一个浮点数，表示该人员的底薪。第三行包含一个浮点数，表示该人员的月销售额。输出格式输出格式为TOTAL=R$X，XX为该人员月收入。数据范围0≤底
认识pandas 才不是小emo的小杨 pandas pandas
1认识pandasPandas是一个开源的第三方Python库，从Numpy和Matplotlib的基础上构建而来，享有数据分析“三剑客之一”的盛名（NumPy、Matplotlib、Pandas）。Pandas已经成为Python数据分析的必备高级工具，它的目标是成为强大、灵活、可以支持任何编程语言的数据分析工具。1.1pandas主要特点Pandas主要包括以下几个特点：它提供了一个简单、高效
AcWing 429. 奖学金（寒假每日一题）入门组程序员朱帅数据结构笔记计算机 c++
题目描述某小学最近得到了一笔赞助，打算拿出其中一部分为学习成绩优秀的前5名学生发奖学金。期末，每个学生都有3门课的成绩:语文、数学、英语。先按总分从高到低排序，如果两个同学总分相同，再按语文成绩从高到低排序，如果两个同学总分和语文成绩都相同，那么规定学号小的同学排在前面，这样，每个学生的排序是唯一确定的。任务：先根据输入的3门课的成绩计算总分，然后按上述规则排序，最后按排名顺序输出前五名学生的学号
计算机密码学思路,密码学中加密算法的研究和实现一般路过赤旗壬计算机密码学思路
密码学是一门古老而深奥的学科,是研究计算机信息加密、解密及其变换的科学,是数学和计算机的交叉学科,也是一门新兴的学科[1]。早在四千年前,古埃及人就开始使用密码来保密传递消息。两千多年前,罗马国王JuliusCaesar(恺撒)就开始使用目前称为“恺撒密码”的密码系统。长期以来,密码学仅在很小的范围内使用,直到20世纪40年代以后才有重大突破和发展。随着计算机网络和通信技术的发展,密码学得到前所未
AI大语言模型(LLM)：电商行业的搜索革命与未来趋势搞技术的妹子人工智能语言模型智能电视
大语言模型：电商行业的搜索革命与未来趋势一、大语言模型在电商搜索中的应用1.提升搜索精准度2.改善搜索召回率3.虚拟购物助手二、大语言模型与生成性AI的结合1.生成性AI：从搜索到对话式购物体验2.提升个性化推荐三、大语言模型的未来展望1.电商与LLM的深度融合2.面临的挑战与机遇随着人工智能的快速发展，电商行业正在经历一场深刻的变革。尤其是在搜索技术方面，大语言模型（LLM）正逐渐成为提升用户体
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul