努力学习去挣钱

【C++】位图和布隆过滤器

位图和布隆过滤器

前言
正式开始
- 位图
- - 位图讲解
  - 模拟实现位图
  - 几道关于位图的题目
- 布隆过滤器
- - 概念
  - 实例
  - 布隆过滤器模拟实现
  - 误判率测试
  - 几道题

前言

本来本篇是和前面的两篇连着的，但是没写到一块，位图和布隆过滤器都是基于哈希的思想的，如果对于哈希不熟悉的同学可以看看前两篇（重点看第一篇）：
【C++】模拟实现哈希（闭散列和开散列两种方式）

【C++】模拟实现unordered_map和unordered_set

正式开始

位图

先提个问题：现在有40亿个不重复的无符号整数，无序的，给你一个无符号整数，如何判断出该树是否在这40亿个数中？

各位有思路吗？

先算算40亿个无符号整数有多大吧，一个无符号整数4Byte，40亿个4Byte，也就是160亿Byte。看着不太方便，我们把它转成G来看。

一个G多少个Byte呢？1G = 1024MB = 1024 * 1024 KB = 1024 * 1024 * 1024 B，也就是 2³⁰ B。
那么1G大概就是10亿多B，我们就按照1G为10亿B来说的话，160亿B大概就是16G（实际比16G小一点）。16个G，内存中是绝对放不下的，所以就不要想着用set/unordered_set了。

那么该用啥呢？

就是马上要讲的位图。

位图讲解

其实我前面博客中讲Linux的时候已经提到过位图了，就在讲文件的那篇博客中，磁盘上的文件存储的时候就用到了位图。

那位图是干嘛的？
接着开始的问题，如果我们用一个bit位来表示一个数（0表示数不在，1表示数在），是否可行？
先来算算，用一个bit位表示一个数的话，总共40亿个数，那就是10多就是2³⁰，40亿就是2³²,那么就需要2³²个bit位。这是多大呢？一个Byte有8个bit位，也就是2³，那么2³²个bit位就是2²⁹个Byte，1G是2³⁰B，那么2²⁹个Byte就是0.5G，也就是512MB。

这样的话，内存完全是可以存下的。

那么如何记录某一个数呢？
也很简单，看图：

这就是位图。

前面哈希中讲了直接定址法 ==》不存在哈希冲突。
但主要讲了除留余数法 ==》存在哈希冲突

而这里的的位图用的是直接定制法，是不存在哈希冲突的，只要位图开得够大每个整数数都一定会有其固定的位置，因为整数是有范围的，0 ~ 42亿多，用2³²个bit位就能存放下所有的整数。

STL库中也是给了位图的，就叫做bitset，但是先不看STL库中的，下面我们就先模拟实现一下位图。

模拟实现位图

我们可以用顺序表来实现，顺序表中可以存储整形家族的元素，具体哪一种取决于你自己。

我这里直接用char了，char一个字节更方便一点，一个字节就是8bit位，存储2³²个bit的话，再除以四就是2²⁹个char。但我们这里实现的就先不给固定大小，万一数字个数不是这么多还可以改。

写到命名空间中，方便和库中的区分：

位图其实就只需要实现3个重要的接口，set、reset、test。
set是将数设置到位图中，也就是置一操作；reset就是将数从为图中去除，也就是置零操作；test就是检测某个数是否在位图当中。

但实现这三个接口之前，我们先要设置位图要开多大的空间。

我们可以给一个非类型模版参数：

N就是有多少个数。

假如说我们这里只需要开10个数，那么就要用10bit位来表示这十个数，如果存放的是char，一个char八个Byte，那么就需要开 10 / 8 + 1个char就够了。那如果开N个数，就需要 N/8 + 1就够了。可能有同学说，这样的话如果N是8的倍数，不就浪费了8个bit了吗？没关系，8个bit才多大，就一个char而已，浪费不了多少的。

那就要在构造函数中开空间：

然后再来写set，如果想要让一个数在位图的对应位置中设置为1，怎么搞呢？

看图：

表大小为16，如果想让第12个位置变为1。

可以让12 / 8得到的就是12在第i个char中，再让12%8得到的就是12在某个char中的第j个位置。
然后我们搞一个1，让1左移j位，然后和_bits[i]相或，就能让对应数的位置置为1。

再说reset，反过来，让_bits[i] &= ~(1<

test更简单，&后的结果是否为0，为零就不存在，不为零就存在。

测试一下：

调试看看：

上面8算后的就是第二个char最低位，9是第二个char的低2位，20是第3个char的第5位，所以对应的结果就是3（8和9在同一char中）,16。

然后再来看我们最开始的问题。
用位图的话，就要开空间，40亿个数，以上面的逻辑，就会开2³² / 2³ + 1个char，也就是2²⁹ + 1
个char。

那么我们该怎么给N赋值呢？
两种方式，一种直接给-1，-1补码为全1，转成size_t就变成了2³² - 1个数。2³⁰是10多亿，乘以4就是40多亿，所以这样就是40多亿个数。还有一种是0xffffffff，也是全1。

然后我这里没有40多亿个数，就不演示怎么搞了，但我可以开一下任务管理器看看程序运行起来占了多少内存：

就是512MB。

bitset还有其他接口，但这上面的几个最重要，其他的就不模拟实现了。

几道关于位图的题目

再来几个问题：

给定100亿个整数，设计算法找到只出现一次的整数？

给两个文件，分别有100亿个整数，我们只有1G内存，如何找到两个文件交集？

位图应用变形：1个文件有100亿个int，1G内存，设计算法找到出现次数不超过2次的所有整
数

我们挨个来说。

给定100亿个整数，设计算法找到只出现一次的整数？

这里就要用位图了。但是和上面有点不一样，看题，100亿个整数，整数是有范围的：42亿多个数，题目中给100亿个数，那么就一定会有重复的数，所以说题中让我们找只出现一次的数。

我们把bitset改进一下，用两个bit位表示一个数就行了，00表示某个数没有出现，01表示某个数出现了一次，10表示某个数出现了两次以及两次以上。11就不用了。

但是用一个位图的话算起来稍微麻烦一点，我们可以用两个位图，一个表示某一个数的xx两位中的高位，一个用来表示xx两位中的低位：

如图中蓝色框位置，上面表示低位，下面表示高位（或者反过来）。

那么我们来模拟实现一下：

print_once_num就是打印一下出现一次的数。

再来看下一题：

给两个文件，分别有100亿个整数，我们只有1G内存，如何找到两个文件交集？

还是位图，用两个个512MB的位图将两个文件中给的数统计一下，然后让后让两个位图对应位置相与，得到的结果就是交集。

位图应用变形：1个文件有100亿个int，1G内存，设计算法找到出现次数不超过2次的所有整
数

这就是第一个问题的变种，用两个位表示一个数，00、01、10都有效11就表示超过两次的。不细说了。

我们再来看看STL库中的位图：

好多接口，但set、reset、test最有用。

位图优点就是非常快，而且节省空间。但是只能映射整数，这一点比较局限。

下面来说说布隆过滤器。

布隆过滤器

概念

将哈希与位图结合，即布隆过滤器。

位图可以用来查找整数在不在。
布隆过滤器还能用来查找字符串在不在。

前一篇博客中，模拟实现哈希里面就用到了字符串哈希算法，里面有BHDK方法来让字符串转换成一个下标位置。这里布隆过滤器就是用一下字符串哈希算法，然后将对应的数字转换成下标位置，对应到数组中即可。

来个例子：假如现在要记录一下几个公司的名称，比如百度、字节、美团等等。

现在再登记一个B站，登记前要判断一下之前是否登记过了，假如B站和美团计算出来的位置重复了，那么就会导致误判：

这就是布隆过滤器的一个缺点，如果原字符串没登记，但是判断出在了就会导致误判，判断出不在才是准确的。

那这样就太坑了，怎样改改不让重复呢？

完全不重复是不太可能的，但是我们可以降低重复率。
可以采用多个字符串哈希函数，从而让每个字符串映射出多个不同的位置。比如说每个字符串映射三个位置：

这样就能降低误判率，让每个值多映射几个位，理论而言，一个值映射的位越多，误判的概率越低，但也不能映射太多，映射位越多，空间消耗越多。

实例

在来两个例子吧。

失信名单

假如说你接到了一个电话，而且是诈骗电话，怎样在你还未接到电话的时候就显示出其是一个诈骗电话？

一般来说，这些失信名单/诈骗分子电话信息都是存储在数据库中的，而数据库一般都是在本地磁盘上或远端的，如果直接去数据库中找，效率太低了，我们可以提前搞一个布隆过滤器。

如果布隆过滤器中显示当前号码为诈骗电话，再到数据库中确认就行。如果显示不是，那就一定不是。

这样做就能大大提升查找效率。

注册名称

我们进一个网站注册账号，注册账号时需要让我们输入昵称，怎样快速判断当前昵称是否重复了/违规了呢？

还是布隆过滤器，但是这里可以不用判断那么仔细。

如果你当前输入的昵称过滤后显示重复了，那么就直接提示你名称重复/违规了，需要重新输入，不需要再仔细比对了，因为换个昵称还是没那么费事的。如果没有提示重复/违规，那就定了。

这样也能提高查找效率，同时也允许误判。

STL库中并未提供布隆过滤器。

但是我们还是要模拟实现一下的。

布隆过滤器模拟实现

上面也说了，同一个字符串要经过不同的哈希函数映射出不同的下标位置的，那么就需要搞多个哈希函数了，我这里就直接用上一篇文章中的了：

这里用三个哈希函数：

struct HashBKDR
{
	// BKDR
	size_t operator()(const string& key)
	{
		size_t val = 0;
		for (auto ch : key)
		{
			val *= 131;
			val += ch;
		}

		return val;
	}
};

struct HashAP
{
	// BKDR
	size_t operator()(const string& key)
	{
		size_t hash = 0;
		for (size_t i = 0; i < key.size(); i++)
		{
			if ((i & 1) == 0)
			{
				hash ^= ((hash << 7) ^ key[i] ^ (hash >> 3));
			}
			else
			{
				hash ^= (~((hash << 11) ^ key[i] ^ (hash >> 5)));
			}
		}
		return hash;
	}
};

struct HashDJB
{
	// BKDR
	size_t operator()(const string& key)
	{
		size_t hash = 5381;
		for (auto ch : key)
		{
			hash += (hash << 5) + ch;
		}

		return hash;
	}
};

然后我们还需要确定布隆过滤器要开多大的空间。因为随着插入元素的增多，空间开小了就会导致误判率提高，空间开大了就会导致浪费。

这里有一篇文章，内部就讲了关于哈希函数个数、插入元素个数以及布隆过滤器大小之间的关系，感兴趣的同学看看：详解布隆过滤器的原理，使用场景和注意事项。

我这里就直接截取其中的内容来用了：

我也在上面图中标记了，如果我们想要用3个哈希函数，那么布隆过滤器的长度就得是n的4.2倍，我就不按照4.2倍来了，直接给5倍。

框架：

注意上面得用const static才能在类内这样写，不然会报错的。因为浮点数、类对象以及字符串是不允许作为非类型模板参数的，只能是整形，而且传参时必须传常量。非类型的模板参数必须在编译期就能确认结果。

然后和位图一样，先搞set接口。

就把映射出的各个位置置为1就行了，但是要注意字符串哈希最后得到的数字可能会很大而导致超过了布隆过滤器的长度，所以要用除留余数法来使得得到的数在正确范围内。

然后就是test：

注意只有false返回的才是绝对正确的，当返回true的时候，不一定正确，可能会误判。

下面就用如下代码测试一下：

BloomFilter<10> bf;
string arr1[] = { "苹果", "西瓜", "阿里", "美团", "苹果", "字节", "西瓜", "苹果", "香蕉", "苹果", "腾讯" };

for (auto& str : arr1)
{
	bf.Set(str);
}

for (auto& str : arr1)
{
	cout << bf.Test(str) << ' ';
}
cout << endl << endl;

string arr2[] = { "苹果111", "西瓜", "阿里2222", "美团", "苹果dadcaddxadx", "字节", "西瓜sSSSX", "苹果 ", "香蕉", "苹果$", "腾讯" };

for (auto& str : arr2)
{
	cout << str << ":" << bf.Test(str) << endl;
}

结果如下：

上方并没有出现误判的情况。

误判率测试

再来写一个测试误判率的程序：

void TestBloomFilter2()
{
	srand(time(0));
	const size_t N = 1000000;
	BloomFilter<N> bf;

	std::vector<std::string> v1;
	std::string url = "https://www.cnblogs.com/-clq/archive/2012/05/31/2528153.html";

	for (size_t i = 0; i < N; ++i)
	{
		v1.push_back(url + std::to_string(1234 + i));
	}

	for (auto& str : v1)
	{
		bf.Set(str);
	}

	// 相似
	std::vector<std::string> v2;
	for (size_t i = 0; i < N; ++i)
	{
		std::string url = "http://www.cnblogs.com/-clq/archive/2021/05/31/2528153.html";
		url += std::to_string(1234 + i);
		v2.push_back(url);
	}

	size_t n2 = 0;
	for (auto& str : v2)
	{
		if (bf.Test(str))
		{
			++n2;
		}
	}
	cout << "相似字符串误判率:" << (double)n2 / (double)N << endl;

	std::vector<std::string> v3;
	for (size_t i = 0; i < N; ++i)
	{
		string url = "zhihu.com";
		url += std::to_string(rand() + i);
		v3.push_back(url);
	}

	size_t n3 = 0;
	for (auto& str : v3)
	{
		if (bf.Test(str))
		{
			++n3;
		}
	}
	cout << "不相似字符串误判率:" << (double)n3 / (double)N << endl;
}

在布隆过滤器大小是插入数据的五倍的时候：

10万个数：

100万个数：

在布隆过滤器大小是插入数据的十倍的时候：

10万个数：

100万个数：

程序挂掉了。。
调试起来发现栈溢出了：

原因是STL库中实现的bitset是用静态数组实现的，所以刚执行程序光是数组就会在栈中开非常大的空间，所以就会导致栈溢出。

想要解决的话，就得在堆中开空间。两种方法。
一种是用我们自己实现的bitset：

另一种是还用库中的bitset，但是要改成指针，同时把类中用.调用的函数改为用->调用。

可以看到，布隆过滤器越长，误判率就越低，但是效率会变慢。

再来说一下布隆过滤器的reset。
直接说了，其实布隆过滤器不支持reset，因为一个字符串reset了可能会影响到其他字符串，想要解决这个问题的话，给每一个位置多给几个位，用来做引用计数，但是这样就会导致更多的空间消耗，从而就使得布隆过滤器的优势削弱了。所以说布隆过滤器一般是不支持删除的。这里也就不讲了。

几道题

给两个文件，分别有100亿个query，我们只有1G内存，如何找到两个文件交集？分别给出
精确算法和近似算法

如何扩展BloomFilter使得它支持删除元素的操作

给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址？

与上题条件相同，如何找到top K的IP？

还是挨个来说：

给两个文件，分别有100亿个query，我们只有1G内存，如何找到两个文件交集？分别给出
精确算法和近似算法

这道题先说近似算法，就是布隆过滤器。query就是网络请求、sql语句什么的，本质上都是字符串。那么我们就可以先让一个文件中的query先翻到一个布隆过滤器中，然后让另一个文件中的query在布隆过滤器中查找。

再说精确算法。要用到哈希切分（先不说是什么意思）。
我们来假设两个条件。

假设每个query为30Byte，100亿个query就是3000亿个Byte，那么大概就是300个G。

假设两个文件名为A和B。

如果将两个文件均分为300个小文件的话，先将A中的一个小文件加载到布隆过滤器中，再从B中的每个小文件进行查找，由此可见，效率非常低下。

但是如果我们将每个字符串哈希后，再经过除留余数法（假如说%的是1000）后结果相同的字符串放到一个小文件中呢？
.
比如说A中的一大堆字符串经过哈希算法之后得到的结果是394，那么就将这些字符串全部放到A的第394号文件中。B中同理。把每一个小文件都表上各自的序号，Ai和Bi（i为从0到999的整数）。
.
经过哈希算法之后，A和B两个大文件就各自分出了1000个小文件，并且每个标号相同的AB小文件中字符串哈希后的结果都相同。
.
那么我们就能让标号相同的文件中的字符串进行对比，比如说A0和B0，两文件中字符串哈希后的结果都相同，那么相同的字符串就一定在标号相同的文件中。让对应标号的AB文件进行对比，这样查找效率一下子就上来了。

上面将对应哈希后的结果放到同一文件中，这就是哈希切分。

如何扩展BloomFilter使得它支持删除元素的操作

上面将布隆过滤器的最后已经说过了，这里就不多提了。

给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址？

这里也是要用到哈希切分。IP地址也是可以用哈希算法来得到对应位置的。

只要把IP哈希后结果相同的放到同一个小文件中就行，这样就一定能让相同的IP地址存到一个小文件中，然后再在每个小文件中统计一下出现的次数最多的就行，将挨个文件中最多的进行对比，直到找到最后一个小文件为止。

与上题条件相同，如何找到top K的IP？

还是上面的方法，不过是要用一下小堆（至于为啥是小堆就不讲了，TOPK问题，这在我前面数据结构的博客中有）。

该讲的都讲了。

到此结束。。。

查看opencv版本信息 zhanghui9020
在VS2010中编写控制台C++程序：#include#include"cv.h"usingnamespacestd;main(){cout<<CV_VERSION;}运行即可打印安装的opencv的版本信息
《剑指 Offer》专项突破版 - 面试题 56 : 二叉搜索树中两节点的值之和（详解 C++ 实现的两种方法） melonyzzZ 数据结构算法 c++开发语言数据结构面试
目录前言一、利用哈希表二、应用双指针前言题目链接：LCR056.两数之和IV-输入二叉搜索树-力扣（LeetCode）题目：给定一棵二叉搜索树和一个值k，请判断该二叉搜索树中是否存在值之和等于k的两个节点。假设二叉搜索树中节点的值均唯一。例如，在下图所示的二叉搜索树中，存在值之和等于12的两个节点（节点5和节点7），但不存在值之和为22的两个节点。分析：解决这个问题自然需要遍历二叉树中的所有节点，
咱们一起学C++ 第二百三十三篇之C++容器类与模板的探索一杯年华@编程空间咱们一起学习C++c++开发语言 spring boot struts
咱们一起学C++第二百三十三篇之C++容器类与模板的探索大家好！C++作为一门强大的编程语言，容器类和模板是其中非常重要的特性。今天咱们就一起来深入学习这两个知识点，希望能和大家一起进步，让我们在C++编程的道路上走得更远！一、容器类的重要性与实际应用场景在C++编程中，容器类扮演着至关重要的角色。我们在编写程序时，经常会遇到需要处理大量数据或者管理多个对象的情况。比如开发一个学生信息管理系统，需
堆和栈的区别凌云行者操作系统堆栈操作系统
堆和栈不同点：内存分配方式不同：栈：栈上的内存是自动分配和释放的，通常用于存储函数调用过程中的局部变量、调用参数和使用的寄存器状态等信息。堆：堆上的内存是动态分配的，程序在运行时可以根据需要分配和释放内存。在C++中可以通过new/new[]分配堆内存，使用delete/delete[]释放堆内存。在C中可以使用malloc、calloc和realloc函数分配堆内存，使用free函数释放堆内存内
【深度学习】学习率调度策略黑白交界深度学习学习深度学习
什么是学习率可以理解为模型在每一次迭代中的模型更新调整的幅度，“学习”新信息的速度。学习率定义了模型权重（参数）在梯度下降或其他优化算法中的更新步伐。较大的学习率意味着在每次参数更新时，模型会进行更大幅度的调整，而较小的学习率则意味着细致的、渐进的调整。适当的学习率可以帮助模型跳出局部最优解。当使用较大的学习率时，模型有可能跨越一些小的局部最优，从而找到全局最优解，但也有可能错过全局最优。因此，在
深入理解Java的集合框架一碗黄焖鸡三碗米饭 java
深入理解Java的集合框架Java集合框架（JavaCollectionsFramework，简称JCF）是Java语言中最常用的API之一，它为开发者提供了强大且灵活的数据结构支持。集合框架通过一系列的接口和实现类，帮助我们管理、存储和操作数据。Java集合框架包括常见的List、Set、Map等接口及其具体实现类，合理选择适当的集合类型，对于程序性能和代码可维护性至关重要。本文将深入解析Jav
【核心算法篇七】《DeepSeek异常检测：孤立森林与AutoEncoder对比》再见孙悟空_ 「2025 DeepSeek技术全景实战」算法分布式 docker 计算机视觉人工智能自然语言处理 DeepSeek
大家好，今天我们来深入探讨一下《DeepSeek异常检测：孤立森林与AutoEncoder对比》这篇技术博客。我们将从核心内容、原理、应用场景等多个方面进行详细解析，力求让大家对这两种异常检测方法有一个全面而深入的理解。一、引言在数据科学和机器学习领域，异常检测（AnomalyDetection）是一个非常重要的任务。它的目标是从数据集中识别出那些与大多数数据显著不同的异常点。这些异常点可能是由于
C++ STL容器大全 string vector stack queue list priority_queue set map pair luckyyunji C++数据结构 c++
数据结构(容器)string类Vectorvector向量->不定长数组#include定义vector方法一vectorv1;vector>v2;vector>>v3;方法二vectorv1(5,10);vector>v2(5,vector(5,10));vector>>v3(5,vector(5,vector(5,10)))尾插尾删尾插v.push_back(123);尾删v.pop_back
c++中的string、vector、list、stack、set、map等常用STL容器总结子春_贰叁 C++c++stl
文章目录string类vectorliststackqueuepriority_queue(优先级队列)deque(双端队列)setmultisetmapunordered_mapstring类string类简介：1.string类是表示字符串的字符串类2.string在底层实际是：basic_string模板类的别名，typedefbasic_stringstring3.不能操作多字节或者变长字
【c++】容器：vector、list、map 大姨妈V c++【c++从入门到精通】学习笔记
【c++】容器1.容器2.顺序容器3.向量4.双向链表5.关联容器6.映射参考：《c++从入门到精通》人民邮电出版社标准模板库STL的c++最有特色、最实用的部分之一。标准模板库包含了容器类、迭代器和算法三部分。容器：容器就是可以用于存放各种类型数据的数据结构。迭代器：迭代器可依次存取容器中的元素，在C++中称迭代器为指针，它们提供了访问容器、序列中每个元素的方法。算法：是用来操作容器中的元素的函
STL-vector,set,string,map,queue,priority_queue,stack,pair算法笔记 cloudless_sky STL c++stl
STL:standardtemplatelibrary标准模板库，封装了很多实用的容器。（一）vectorvector是一个容器。是个类。底层数据结构是数组。vector:向量，变长数组，即“长度根据需要而自动改变的数组”。使用前提：#includeusingnamespacestd;1、vector定义vectorname;以上是长度可以根据需要变化的一位数组，typename可以是任何基本类型
从C语言的角度重构数据结构系列（十三）-位运算文宇肃然数据结构常见算法原理讲解 C语言数据结构
位运算简介位运算位运算就是基于整数的二进制表示进行的运算。由于计算机内部就是以二进制来存储数据，位运算是相当快的。基本的位运算共6种，分别为按位与、按位或、按位异或、按位取反、左移和右移。运算运算符数学符号表示解释与&&、and只有两个对应位都为1时才为1或||、or只要两个对应位中有一个1时就为1异或^、xor只有两个对应位不同时才为1左移假设要将一个无符号整数乘以2。可以简单地将所有位向左边移
市面上常见的文件系统及其数据结构和目录结构概述 The god of big data 教程大Big数据Data 数据结构 java 服务器 linux 云计算 openstack
1.ext4文件系统数据结构：超级块：包含整个文件系统的元信息，如块总数、空闲块数、inode总数等。inode：每个文件或目录都有一个inode，包含文件的元数据，如文件大小、权限、时间戳等。块位图：记录哪些块已被使用，哪些块是空闲的。inode位图：记录哪些inode已被使用，哪些是空闲的。块组：文件系统被划分为多个块组，每个块组包含一组连续的块。目录项：目录文件包含目录项，每个目录项指向一个
Python学习笔记 - Python数据类型 yunfan188 #Python学习笔记 Python Python数据类型
前言在Python语言中，所有的数据类型都是类，每一个变量都是类的“实例”。没有基本数据类型的概念，所以整数、浮点数和字符串也都是类。Python有6种标准数据类型：数字、字符串、列表、元组、集合和字典，而列表、元组、集合和字典可以保存多项数据，它们每一个都是一种数据结构，因此可以称这四种为“数据结构”类型。本文我们主要介绍数字和字符串类型。一、数字类型Python数字类型有4种：整数类型、浮点数
函数式编程倡导的「不可变数据结构」如何保证性能编程
在函数式编程（FunctionalProgramming，简称FP）中，不可变数据结构（ImmutableDataStructures）是一个核心概念。与传统的可变数据结构相比，不可变数据结构不可修改，而是通过创建新的数据结构来表达数据的变更。这一特点使得函数式编程能够简化并行计算、避免副作用，进而提高程序的可靠性和可维护性。然而，不可变数据结构可能带来的性能问题，例如内存的使用、数据复制的成本等
HarmonyOS NEXT开发：通过线性容器实现数组指导「已注销」鸿蒙开发 HarmonyOS OpenHarmony 开发语言前端服务器 harmonyos 华为鸿蒙鸿蒙系统
线性容器实现能按顺序访问的数据结构，其底层主要通过数组实现，包括ArrayList、Vector、List、LinkedList、Deque、Queue、Stack七种。线性容器，充分考虑了数据访问的速度，运行时（Runtime）通过一条字节码指令就可以完成增、删、改、查等操作。ArrayListArrayList即动态数组，可用来构造全局的数组对象。当需要频繁读取集合中的元素时，推荐使用Arra
Java开发实习面试笔试题（含答案）小钊（求职中） java 面试开发语言 spring spring boot maven tomcat
在广州一家中大公司面试（BOSS标注是1000-9999人，薪资2-3k），招聘上写着Java开发，基本没有标注前端要求，但是到场知道是前后端分离人不分离。开始先让你做笔试（12道问答+4道SQL题），接着面试也是八股文之类的，没有问项目，没有做算法，现分享笔试和面试题目给大家做参考。（基础的没复习忘了不会，只会几道感觉已经寄了，最重要的是前端基本不会）一、笔试内容1.Java有哪些数据类型，什么
深度学习torch之19种优化算法（optimizer）解析 @Mr_LiuYang 论文阅读深度学习 optimizer Adam 学习率调整优化算法
提示：有谬误请指正摘要本博客详细介绍了多种常见的深度学习优化算法，包括经典的LBFGS、Rprop、Adagrad、RMSprop、Adadelta、ASGD、Adamax、Adam、AdamW、NAdam、RAdam以及SparseAdam等，通过对这些算法的公式和参数说明进行详细解析，博客旨在为机器学习工程师和研究人员提供清晰的理论指导，帮助读者选择合适的优化算法提升模型训练效率。父类定义Op
ranges::set_intersection set_union set_difference set_symmetric_difference 大树青云 C++20 C++set_union
std::ranges::set_intersection：是C++20引入的一个算法，用于计算两个已排序范围的交集。它将两个范围的交集元素复制到输出范围中。std::ranges::set_intersection用于计算两个已排序范围的交集。它将两个范围的交集元素复制到输出范围中。注意事项输入范围必须已排序。目标范围必须有足够空间存储交集结果。交集结果默认按升序排列。若元素重复，交集次数取两范
深度优先探索 ^O^凡人多烦事深度优先算法
DFS:时间复杂度：一位数组：O(n)二维数组+标记：O(n^2),有时候还可能使O(2^n),总而言之DFS的时间复杂度比较高。（个人认为）深度优先搜索算法（DFS）原理:深度优先搜索(DepthFirstSearch,DFS)是一种用于遍历或搜索树或图的算法。该方法从根节点（选择任意一个顶点作为起始节点，在无向图中适用）开始，尽可能深地沿着每条分支进行探索直到不能再前进为止；之后回退并重复这一
图数据库Neo4j面试内容整理-Neo4j的性能不务正业的猿面试 Neo4j 数据库 neo4j 面试职场和发展图数据库
Neo4j的性能是它作为图数据库的重要特性之一。Neo4j在处理图数据时，通过优化图的存储、查询和遍历等方面，提供了高效的性能，特别适合用于需要处理复杂关系和多层次连接的应用场景，如社交网络、推荐系统、知识图谱等。以下是Neo4j性能的几个关键方面：1.图数据结构的优势
C++ 中的运算符优先级 Sirius·Black C++专栏精品文章开发语言 c++
C++中的运算符优先级运算符的优先级确定表达式中项的组合。这会影响到一个表达式如何计算。某些运算符比其他运算符有更高的优先级，例如，乘除运算符具有比加减运算符更高的优先级。例如x=7+3*2，在这里，x被赋值为13，而不是20，因为运算符*具有比+更高的优先级，所以首先计算乘法3*2，然后再加上7。下表将按运算符优先级从高到低列出各个运算符，具有较高优先级的运算符出现在表格的上面，具有较低优先级的
常用的高性能计算工具有哪些这题有点难度人工智能学习
在当今数字化时代，高性能计算（HPC）已成为推动科学、工程、技术以及商业创新的核心力量。无论是模拟宇宙的起源、设计新型航空器，还是训练复杂的人工智能模型，HPC都扮演着不可或缺的角色。本文将深入探讨高性能计算的定义、其背后的强大工具，以及它们如何助力各领域的突破性发展。一、高性能计算：定义与意义高性能计算（HPC）是一种利用超级计算机或大规模集群来处理复杂计算任务的技术。它通过并行计算和优化算法，
关于滑动窗口算法--最小替换字串长度幼儿园口算大王算法 java 数据结构滑动窗口
个人觉得日常遇到的关于滑动窗口的算法题主要分两种：固定窗口大小的滑动窗口在固定窗口大小的滑动窗口问题中，窗口的大小是预先定义好的，不会改变。这种类型的问题是相对简单的，因为一旦确定了窗口的大小，就可以直接遍历数组或列表，每次移动窗口一个元素的位置。常见的问题包括：最大/最小子数组和：给定一个数组和一个固定大小的窗口，找到所有可能的窗口的最大/最小和。窗口内元素的统计：例如，统计窗口内奇数或偶数元素
只能说算法做题全凭运气幼儿园口算大王算法 java 开发语言
问题描述在一款多人游戏中，每局比赛需要多个玩家参与。如果发现两名玩家至少一起玩过两局比赛，则可以认为这两名玩家互为队友。现在你有一份玩家（通过玩家ID标识）和比赛局次（通过比赛ID标识）的历史记录表，目标是帮助某位指定玩家找到所有符合条件的队友。例如样例1，已知以下比赛历史记录：玩家ID游戏ID11121321243241425253我们需要帮助ID为1的玩家找到所有至少与其一起玩过两次比赛的队友
xml:schema详解 yippeelyl Android java
XMLSchema详解博客分类：XMLXML数据结构正则表达式Struts什么是Schema？在计算机软件中，Schema这个词在不同的应用中有不同的含义，可以翻译为：架构、结构、规则、模式等。在XML中，Schema指的是定义和描述XML文档的规则，翻译为模式。XMLSchema与DTD的比较我们看例4-3所示的XML文档。例4-3employee.xml张三26zhangsan@sunxin.
动态规划算法套路解析 xl.liu 算法动态规划
动态规划概述动态规划是一种用于解决最优化问题的算法技术，它通过将复杂的问题分解为更简单的子问题，并利用这些子问题的解来构建原始问题的解。动态规划特别适用于那些拥有最优子结构和重叠子问题特性的问题。所谓最优子结构是指一个问题的最优解可以通过其子问题的最优解组合而成；而重叠子问题则意味着在求解过程中会多次遇到相同的子问题。解题套路框架面对一个动态规划问题时，通常可以遵循以下四个步骤来进行思考与解答：定
【C++】：STL详解 —— string类 -元清- 重制C++版 c++开发语言
目录string的概念string的构造函数string的大小size()和length()empty()string的插入push_back函数insert函数string的删除pop_back函数（C++11）erase函数clear函数string的拼接+=运算符append()函数string的替换replace()函数string的查找find()函数rfind()函数string的比较
C++中的线程同步方式凌云行者 C++c++线程同步互斥锁条件变量信号量屏障原子类型
线程同步方式互斥锁概述：用于保护临界区，确保同一时间只有一个线程可以访问共享资源。常见的互斥锁有std::mutex，std::lock_guard和std::unique_lockmutex概述：用于管理多个线程对共享资源的互斥访问，防止数据竞争和并发问题基础用法示例：#include#include#includeintcnt=0;//共享变量资源std::mutexmtx;//共享变量的互斥
Winograd 算法原理推导和python程序 weixin_47696437 算法 python 人工智能
一、算法背景Winograd算法是一种用于高效计算卷积的算法，其核心思想是通过减少乘法运算的次数来提高卷积计算的效率。在传统的卷积计算中，乘法运算的开销较大，而Winograd算法通过巧妙的变换，将卷积运算转化为在变换域中的矩阵乘法，从而减少乘法的数量，虽然会引入一些额外的加法和变换操作，但整体上在计算效率上有显著提升。二、一维卷积的Winograd推导2.Winograd优化通过多项式变换减少乘
java工厂模式 3213213333332132 java 抽象工厂
工厂模式有 1、工厂方法 2、抽象工厂方法。下面我的实现是抽象工厂方法, 给所有具体的产品类定一个通用的接口。 package 工厂模式; /** * 航天飞行接口 * * @Description * @author FuJianyong * 2015-7-14下午02:42:05 */ public interface SpaceF
nginx频率限制+python测试 ronin47 nginx 频率 python
部分内容参考：http://www.abc3210.com/2013/web_04/82.shtml 首先说一下遇到这个问题是因为网站被攻击，阿里云报警，想到要限制一下访问频率，而不是限制ip（限制ip的方案稍后给出）。nginx连接资源被吃空返回状态码是502，添加本方案限制后返回599，与正常状态码区别开。步骤如下：
java线程和线程池的使用 dyy_gusi ThreadPool thread Runnable timer
java线程和线程池一、创建多线程的方式 java多线程很常见，如何使用多线程，如何创建线程，java中有两种方式，第一种是让自己的类实现Runnable接口，第二种是让自己的类继承Thread类。其实Thread类自己也是实现了Runnable接口。具体使用实例如下： 1、通过实现Runnable接口方式 1 2
Linux 171815164 linux
ubuntu kernel http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.2-unstable/ 安卓sdk代理 mirrors.neusoft.edu.cn 80 输入法和jdk sudo apt-get install fcitx su
Tomcat JDBC Connection Pool g21121 Connection
Tomcat7 抛弃了以往的DBCP 采用了新的Tomcat Jdbc Pool 作为数据库连接组件，事实上DBCP已经被Hibernate 所抛弃，因为他存在很多问题，诸如：更新缓慢，bug较多，编译问题，代码复杂等等。 Tomcat Jdbc P
敲代码的一点想法永夜-极光 java 随笔感想
入门学习java编程已经半年了,一路敲代码下来,现在也才1w+行代码量,也就菜鸟水准吧,但是在整个学习过程中,我一直在想,为什么很多培训老师,网上的文章都是要我们背一些代码?比如学习Arraylist的时候,教师就让我们先参考源代码写一遍,然
jvm指令集程序员是怎么炼成的 jvm 指令集
转自：http://blog.csdn.net/hudashi/article/details/7062675#comments 将值推送至栈顶时 const ldc push load指令 const系列该系列命令主要负责把简单的数值类型送到栈顶。(从常量池或者局部变量push到栈顶时均使用) 0x02 &nbs
Oracle字符集的查看查询和Oracle字符集的设置修改 aijuans oracle
本文主要讨论以下几个部分：如何查看查询oracle字符集、修改设置字符集以及常见的oracle utf8字符集和oracle exp 字符集问题。一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货
png在Ie6下透明度处理方法 antonyup_2006 css 浏览器 Firebug IE
由于之前到深圳现场支撑上线，当时为了解决个控件下载，我机器上的IE8老报个错，不得以把ie8卸载掉，换个Ie6,问题解决了，今天出差回来，用ie6登入另一个正在开发的系统，遇到了Png图片的问题，当然升级到ie8(ie8自带的开发人员工具调试前端页面JS之类的还是比较方便的，和FireBug一样，呵呵)，这个问题就解决了，但稍微做了下这个问题的处理。我们知道PNG是图像文件存储格式，查询资
表查询常用命令高级查询方法(二) 百合不是茶 oracle 分页查询分组查询联合查询
----------------------------------------------------分组查询 group by having --平均工资和最高工资 select avg(sal)平均工资,max(sal) from emp ; --每个部门的平均工资和最高工资
uploadify3.1版本参数使用详解 bijian1013 JavaScript uploadify3.1
使用：绑定的界面元素<input id='gallery'type='file'/>$("#gallery").uploadify({设置参数，参数如下}); 设置的属性： id: jQuery(this).attr('id'),//绑定的input的ID langFile: 'http://ww
精通Oracle10编程SQL(17)使用ORACLE系统包 bijian1013 oracle 数据库 plsql
/* *使用ORACLE系统包 */ --1.DBMS_OUTPUT --ENABLE:用于激活过程PUT,PUT_LINE,NEW_LINE,GET_LINE和GET_LINES的调用 --语法：DBMS_OUTPUT.enable(buffer_size in integer default 20000); --DISABLE:用于禁止对过程PUT,PUT_LINE,NEW
【JVM一】JVM垃圾回收日志 bit1129 垃圾回收
将JVM垃圾回收的日志记录下来，对于分析垃圾回收的运行状态，进而调整内存分配(年轻代，老年代，永久代的内存分配)等是很有意义的。JVM与垃圾回收日志相关的参数包括： -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -Xloggc -XX:+PrintGC 通
Toast使用白糖_ toast
Android中的Toast是一种简易的消息提示框，toast提示框不能被用户点击，toast会根据用户设置的显示时间后自动消失。创建Toast 两个方法创建Toast makeText(Context context, int resId, int duration) 参数：context是toast显示在
angular.identity boyitech AngularJS AngularJS API
angular.identiy 描述: 返回它第一参数的函数. 此函数多用于函数是编程. 使用方法: angular.identity(value); 参数详解: Param Type Details value * to be returned. 返回值: 传入的value 实例代码: <!DOCTYPE HTML>
java-两整数相除，求循环节 bylijinnan java
import java.util.ArrayList; import java.util.List; public class CircleDigitsInDivision { /** * 题目：求循环节，若整除则返回NULL，否则返回char*指向循环节。先写思路。函数原型：char*get_circle_digits(unsigned k,unsigned j)
Java 日期周年 Chen.H java C++c C#
/** * java日期操作(月末、周末等的日期操作) * * @author * */ public class DateUtil { /** */ /** * 取得某天相加(减)後的那一天 * * @param date * @param num *
[高考与专业]欢迎广大高中毕业生加入自动控制与计算机应用专业 comsci 计算机
不知道现在的高校还设置这个宽口径专业没有,自动控制与计算机应用专业,我就是这个专业毕业的,这个专业的课程非常多,既要学习自动控制方面的课程,也要学习计算机专业的课程,对数学也要求比较高.....如果有这个专业,欢迎大家报考...毕业出来之后,就业的途径非常广..... 以后
分层查询（Hierarchical Queries） daizj oracle 递归查询层次查询
Hierarchical Queries If a table contains hierarchical data, then you can select rows in a hierarchical order using the hierarchical query clause: hierarchical_query_clause::= start with condi
数据迁移 daysinsun 数据迁移
最近公司在重构一个医疗系统，原来的系统是两个.Net系统，现需要重构到java中。数据库分别为SQL Server和Mysql，现需要将数据库统一为Hana数据库，发现了几个问题，但最后通过努力都解决了。 1、原本通过Hana的数据迁移工具把数据是可以迁移过去的，在MySQl里面的字段为TEXT类型的到Hana里面就存储不了了，最后不得不更改为clob。 2、在数据插入的时候有些字段特别长
C语言学习二进制的表示示例 dcj3sjt126com c basic
进制的表示示例 # include <stdio.h> int main(void) { int i = 0x32C; printf("i = %d\n", i); /* printf的用法 %d表示以十进制输出 %x或%X表示以十六进制的输出 %o表示以八进制输出 */ return 0; }
NsTimer 和 UITableViewCell 之间的控制 dcj3sjt126com ios
情况是这样的: 一个UITableView, 每个Cell的内容是我自定义的 viewA viewA上面有很多的动画, 我需要添加NSTimer来做动画, 由于TableView的复用机制, 我添加的动画会不断开启, 没有停止, 动画会执行越来越多. 解决办法: 在配置cell的时候开始动画, 然后在cell结束显示的时候停止动画查找cell结束显示的代理
MySql中case when then 的使用 fanxiaolong casewhenthenend
select "主键", "项目编号", "项目名称","项目创建时间", "项目状态","部门名称","创建人" union (select pp.id as "主键", pp.project_number as &
Ehcache（01）——简介、基本操作 234390216 cache ehcache 简介 CacheManager crud
Ehcache简介目录 1 CacheManager 1.1 构造方法构建 1.2 静态方法构建 2 Cache 2.1&
最容易懂的javascript闭包学习入门 jackyrong JavaScript
http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html 闭包（closure）是Javascript语言的一个难点，也是它的特色，很多高级应用都要依靠闭包实现。下面就是我的学习笔记，对于Javascript初学者应该是很有用的。一、变量的作用域要理解闭包，首先必须理解Javascript特殊
提升网站转化率的四步优化方案 php教程分享数据结构 PHP 数据挖掘 Google 活动
网站开发完成后,我们在进行网站优化最关键的问题就是如何提高整体的转化率，这也是营销策略里最最重要的方面之一，并且也是网站综合运营实例的结果。文中分享了四大优化策略：调查、研究、优化、评估，这四大策略可以很好地帮助用户设计出高效的优化方案。 PHP开发的网站优化一个网站最关键和棘手的是，如何提高整体的转化率，这是任何营销策略里最重要的方面之一，而提升网站转化率是网站综合运营实力的结果。今天，我就分
web开发里什么是HTML5的WebSocket？ naruto1990 Web html5 浏览器 socket
当前火起来的HTML5语言里面，很多学者们都还没有完全了解这语言的效果情况，我最喜欢的Web开发技术就是正迅速变得流行的 WebSocket API。WebSocket 提供了一个受欢迎的技术，以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法，从客户端使用简单的语法有效地推动消息到服务器。让我们看一看6个HTML5教程介绍里的 WebSocket API：它可用于客户端、服
Socket初步编程——简单实现群聊 Everyday都不同 socket 网络编程初步认识
初次接触到socket网络编程，也参考了网络上众前辈的文章。尝试自己也写了一下，记录下过程吧：服务端：（接收客户端消息并把它们打印出来） public class SocketServer { private List<Socket> socketList = new ArrayList<Socket>(); public s
面试：Hashtable与HashMap的区别（结合线程） toknowme
昨天去了某钱公司面试，面试过程中被问道 Hashtable与HashMap的区别？当时就是回答了一点，Hashtable是线程安全的，HashMap是线程不安全的，说白了，就是Hashtable是的同步的，HashMap不是同步的，需要额外的处理一下。今天就动手写了一个例子，直接看代码吧 package com.learn.lesson001; import java
MVC设计模式的总结 xp9802 设计模式 mvc 框架 IOC
随着Web应用的商业逻辑包含逐渐复杂的公式分析计算、决策支持等，使客户机越来越不堪重负，因此将系统的商业分离出来。单独形成一部分，这样三层结构产生了。其中‘层’是逻辑上的划分。三层体系结构是将整个系统划分为如图2.1所示的结构[3] （1）表现层（Presentation layer）：包含表示代码、用户交互GUI、数据验证。该层用于向客户端用户提供GUI交互，它允许用户