7昂7.

C++【位图/布隆过滤器—海量数据处理】

文章目录

一、位图
- （1）位图概念介绍
- （2）简单模拟实现
- （3）位图应用
二、布隆过滤器
- （1）关于布隆过滤器概念及介绍
- （2）布隆过滤器的使用场景
- （3）模拟实现
- （4）布隆过滤器天生不支持删除reset
- （5）BF总结
三、海量数据处理
- （1）问题1/2
- （2）问题3/4
- （3）问题3
四、所有源码(含BF)

一、位图

（1）位图概念介绍

先看下面的一道题：
1.有40亿个不重复的无符号整数，无序。给一个无符号整数，如何快速判断一个数是否在这40亿个数中。
如果我们放到哈希表或红黑树中或用排序和二分查找这两种方法。
前两种方法不可行，因为40亿个整数占用大约16G的内存空间，第一要排序需要先把数放到内存，只能用文件归并排，但是不能文件中不能搞二分查找即不能用下标去访问；第二如果放到红黑树但是同样放不进去，如果放到树里面，给一棵树查找一次，但是这里是很多数据，来一个树先读2G查找再释放掉，再来一个树放进去查，不断的查，与其这样不如读的时候判断一下没必要放树里面，直接暴力查找了，还有额外的消耗表里面的结点不光有数据还是有指针。所以上俩种方法不行主要原因就是内存不够。

我们可以用一种直接定址法，我们可以最少用1字节即char标记一个数在不在，一个char数组最少消耗4G，我们还可以最少，即开比特位，比如一个字节开8个比特位，我们也可以开int的，如下图，0到7映射到第一个cha人，8到15映射到第二个char，依次映射，40亿个数，如果是一个整数去存储需要16G，现在是按位去存储，用位去标识，缩小了32倍，也可以这么说，这是40亿个整数看成40亿个比特位，除以8大概就是相当于5亿字节，需要512MB，这里东西就叫位图。
位图：它是一种直接定址法的哈希映射，用来判断整型的在不在的问题，用每一位来存放某种状态，适用于海量数据，数据无重复的场景。

（2）简单模拟实现


	template<size_t N>
	class bitset
	{
	public:
		bitset()
		{
			_b.resize(N / 8 + 1, 0);
		}
		void set(size_t x)
		{
			size_t i = x / 8;
			size_t j = x % 8;
			_b[i] |= (1 << j);

		}
		void reset(size_t x)
		{
			size_t i = x / 8;
			size_t j = x % 8;
			_b[i] &= ~(1 << j);
		}
		bool test(size_t x)
		{
			size_t i = x / 8;
			size_t j = x % 8;
			return _b[i] & (1 << j);
		}
	private:
		vector<char> _b;

	};

库里面这个函数是有的，我们是不能去按位去开数组的，我们可以用vector数组存储char类型控制char。
我们需要实现里面三个核心接口set和set以及test，set把x映射的那个比特位设置成1，reset把它设置成0，test判断在不在。
初始化构造：我们还需要空间，我们要N个比特位我们需要开N/8，但这样少开一个比特位需要加上1，然后初始都为0。
先实现set：
但是我们怎么去找到对应的比特位？
1、一个字节是8比特位，我们是算它在第几个8比特位，我们可以直接除8算出i即在第i个char数组位置，接着算在第几个8比特第几个上面，可以直接模8算出j即char位置第几个比特位。
2、然后我们把char的第j位设置为1，我们需要进行位运算，我们需要把j位设置成1，其他位不能影响需要用到或，因为或有一个特点0和任何数或还是任何数，我们还需用1进行左移j位，左移是向高位移，最后再或等，这样设置完毕。如下图

实现reset：
同样先算出i和j，想让它第j位设置为0，先左移再取反，但是不能那个影响其它位，就需要按位与等，因为1和1与还是1，0和1与还是0。
实现判断test：
同样先算出i和j，对对应的位置直接与，两种可能性，与之后除了第j位其他位都为0，如果第j位是0，那么结果就是0返回假，如果第j为不是0，那么结果是非0
值，非0值即为真不管是1还是其他非0数，都返回真。注意位运算优先级是很低的需要加括号。
我们测试一下：

那么开头那个问题就可以解决。

（3）位图应用

我们再看几个问题：
2.给100亿个整数，设计算法只出现一次的整数。
部分核心代码：

template<size_t N>
	class twobitset
	{
	public:
		void set(size_t x)
		{
			if (_b1.test(x) == false && _b2.test(x) == false)
			{
				_b2.set(x);
			}
			else if (_b1.test(x) == false && _b2.test(x) == true)
			{
				_b1.set(x);
				_b2.reset(x);
			}
		}
		void one_print()
		{
			for (size_t i = 0; i < N; ++i)
			{
				if(_b2.test(i))
				{
				     cout << i << endl;
                }
			}
		}
	public:
		bitset<N> _b1;
		bitset<N> _b2;
	};

100亿个整数不影响我们开空间，因为可能有重复的，我们可以搞2个位图。出现0次就是00，出现1就是01次，出现1次以上就是10。
直接运用刚才的两个位图，直接复用，两个位进行组合。
_b1和_b2都test一下如果都是00表示没有出现过，就把_b2设置成1即01表示出现了1次，如果是_b1为0，_b2为1就把_b1设置为为，_b2设置为0即10表示出现2次。
接着写个打印函数去找出现1次，N是个范围，只需要遍历，只需要判断_b2是真，就是出现1次，因为01，打印即可
如图：

3.给两个文件，分别有100亿个整数，我们只有1G内存，如何找到两个文件交集？
第一种：可以把其中一个文件的值，读到内存的一个位图中，再读取另一个文件，判断在不在上面位图中，在就是交集。但是找出的交集存在重复的值，还要再次去重。可以改进，每次找到交集，都将上面的位图对应的值设置为0解决重复问题。
第二种：更好的是放到两个位图中，把文件1放到位图1，把文件2放到位图2。
读取文件1的数据映射到位图1，读取文件2的数据映射到位图2，用for循环遍历范围N，如果位图1和位图2都在就是交集。
如果数据量大就选第二种方法，反之第一种。

4.位图应用变形：1个文件有100亿个int，1G内存，设计算法找到出现次数不超过2次的所有整数。
这道类似第二道，用第二道题的思想，出现0次用00表示，出现1用01表示，出现2次用10表示，出现3次以上用11表示。不超过2次的所有整数就去找01和10。

总结：位图也是一种哈希结构，效率很高速度快，O(1)，而且还节省内存。
缺点就是：只能映射整型，统计次数也有限。其他类型string，double等不能映射。下面的布隆过滤器就是解决这种问题。

二、布隆过滤器

（1）关于布隆过滤器概念及介绍

如果是大量字符串，位图是没法完成映射的，如果用哈希或红黑树，会有大量消耗，有附带消耗。我们可以用仿函数转成整型，间接映射，但是这样会有一个冲突问题，假如字符串是汉字，字符串的长度是8，会有256^8中组合，会存在多对一冲突。
而布隆过滤器的思想不是解决冲突，而是降低冲突概率，一个值映射一个位置容易误判，映射多个位置就可以降低误判率，即将一个元素用多个哈希函数映射到一个位图中，因此被映射到的位置的比特位一定为1。所以可以按照以下方式进行查找，分别计算每个哈希值对应的比特位置存储的是否为零，只要有一个为零，代表该元素一定不在哈希表中，否则可能在哈希表中。

（2）布隆过滤器的使用场景

首先要找到它的特点，它能容忍误判的场景，比如我们在注册时，快速判断昵称是否使用过。如果没注册过，会立刻给你反馈，说明是准确的；如果它注册过有两种可能性，把昵称放到这个布隆中，第一它真的被用过了，第二它没被用过，存在了误判，但是从用户使用场景上是不知道的，可以允许误判，昵称用户感知不到。
如果是昵称，10亿个用户是存在数据库里面的，数据库的数据本质在磁盘上，快速不判断是不去找磁盘的，因为磁盘IO太慢了，所以我们把昵称全部读到布隆过滤器里面，节省空间，在布隆就直接反馈昵称注册过，不在布隆就反馈没注册过，但是在是会存在误判的，有可能真没被注册过。
如果是手机号，判断不在就直接返回没注册过，不在是准确的，判断在，可能会存在误判，明明没有注册过，这时候要去数据库里面磁盘上确认一下，然后再返回这个结果，以数据库的结果为准。这个跟直接去数据库查找相比，从整体而言效率是高的。因为布隆是在内存当中时间复杂度是O(1)，把不在的都快速过滤掉，如果在的话再去找数据库，单拿在的场景多消耗了一点，整而言效率高，减少了数据库的访问。
布隆过滤器为啥叫这个名字，它是先提前做一层过滤，不在就直接走了，在的话再去数据库确认一下再返回。它的优点是快节省内存，缺点存在误判。
如下图：

大部分使用布隆过滤器的数据类型都是用字符串，如果用整型就用位图。

减少磁盘IO和网络请求，一旦一个值必定不存在，就不用进行后面的查询。BF实践当中一般都是做数据过滤，判断在不在，如果不在就不用再往后请求了，如果在继续再往后面请求，如果再次请求数据都在数据库里面，甚至数据库在远程服务器中，还要走一层网络，成本还是蛮高的。

（3）模拟实现

主要先上部分核心代码，后面有原码。

template<size_t N,class K=string,class Hash1= BKDRHash,
		class Hash2= APHash,class Hash3= DJBHash>
	class BloomFilter
	{
	public:
		void set(const K& key)
		{
			size_t len = N * _M;
			size_t hash1 = Hash1()(key) % len;
			_b.set(hash1);
			size_t hash2 = Hash2()(key) % len;
			_b.set(hash2);
			size_t hash3 = Hash3()(key) % len;
			_b.set(hash3);
		}
		bool test(const K& key)
		{
			size_t len = N * _M;
			size_t hash1 = Hash1()(key) % len;
			if (!_b.test(hash1))
				return false;

			size_t hash2 = Hash2()(key) % len;
			if (!_b.test(hash2))
				return false;

			size_t hash3= Hash3()(key) % len;

			if (!_b.test(hash3))
				return false;

			return true;
		}
	private:
		static const size_t _M = 6;
		bitset<N*_M> _b;
	};

我们在模板里面增加三个hash函数算法，可以在网上搜字符串哈希函数算法，我所取的这个三个hash函数的散列质量及效率是别人进过测试后排在前三的。在set函数里面先给一个哈希映射的第一个位置，把key转成可以去摸的整型值，摸上N，同理3个hash函数，set3个位置。
如果判断在不在，三个位置都要在才在即真，只有一个位置不在就是不在即假。
有一个关键问题：在和不在谁会存在误判？
在是不准确的，会存在误判，如果判断一个位置不在，说明至少有一个位置为0，上面说到只要有一个不在就是不在；如果判断在的话，这个位置不可能为0，三个位置都为1。比如一个字符串，本来不在，但是它映射的位置都跟别人冲突了即都被被人映射了，所以导致认为它在，即误判。

hash函数个数，代表一个值映射几个位，哈希函数越多，误判率越低，但是希函数越多，平均空间越多。
这是下面别人通过实验总结出来的公式，来降低误判率，此图链接来源于：链接。

以上的测试结果可以看出布隆过滤器的长度会直接影响误报率，布隆过滤器越长其误报率越小。哈希函数的个数也需要考虑，但治不了本。因为n插入个数和BF长度存在一个倍数，我们适当增加倍数_M，来验证一下，6是最好的。如图：

找的是不在的字符串去测试，因为本来就在测试时它肯定在，它不在的有可能能会被判断成在，这就是误判，结果是在是不准确的，因为本来不在它会判断成在。

（4）布隆过滤器天生不支持删除reset

因为会对别人造成影响以及其他影响(即使用计数法(由多个比特位控制)也非常不好，不确定删除哪个数据以及本来不在误判成在的数据，把它删了其他的又找不到了)，如下图，删除nza，会把2号位置置成0，再查找azn，查找时就不在了，有关联影响。

（5）BF总结

布隆过滤器优点：
1.增加和查询元素的时间复杂度为:O(K), (K为哈希函数的个数，一般比较小)，与数据量大小无
关
2. 哈希函数相互之间没有关系，方便硬件并行运算
3. 布隆过滤器不需要存储元素本身，在某些对保密要求比较严格的场合有很大优势
4. 在能够承受一定的误判时，布隆过滤器比其他数据结构有这很大的空间优势
5. 数据量很大时，布隆过滤器可以表示全集，其他数据结构不能
6. 使用同一组散列函数的布隆过滤器可以进行交、并、差运算
布隆过滤器缺陷
1.有误判率，即存在假阳性(False Position)，即不能准确判断元素是否在集合中(补救方法：再
建立一个白名单，存储可能会误判的数据)
2.不能获取元素本身
3.一般情况下不能从布隆过滤器中删除元素
4.如果采用计数方式删除，可能会存在计数回绕问题

三、海量数据处理

(1) 哈希切割

（1）问题1/2

1.给两个文件，分别有100亿个query，我们只有1G内存，如何找到两个文件交集？分别给出精确算法和近似算法
这里是找交集，不是整型的是字符串。
近似算法:就是之前说的，先把一个文件的数据放到BF中，再去找交集判断在不在，在就是交集，当然后面还有去重的需求。
精确算法：query本质就是一个字符串，假设单个query平均50字节，100亿个就是500G。我们可以如下图把文件A和B文件分别切成1000份（linux指令就可以切，写一个进程帮我们执行切文件的指令。），这样做还是要和每个文件找交集，所以我们可以用hash切分，用一个哈希函数计算出每个文件对应的i即文件号，然后让A0和B0，A1和B1依次找交集，只需要编号相同的小文件直接去找交集，因为一个一个的小文件就像一个桶，进入同一个桶都是冲突的值，A和B相同字符串会进去编号的相同小文件，而且我们用的是相同hash函数。

但是会有一个问题：
某些小文件不是平均切分，可能会出现冲突过多，某个Ai，Bi小文件过大，太大加载不去内存，如果换个哈希函数再切，前提还是要算出这个两个文件多大，才决定你要切多少份，更重要的问题是继续换哈希函数可能切不动，因为有大量重复，而且这里还有两种可能：
第一种可能单个文件有大量重复的query字符串
第二种可能有大量不同的query。
第一种重复的值不管用什么哈希函数都切不动，第二种大量不同的字符串肯定可以继续用哈希函数切分，主要是怎么区分，要分别处理，
解决：
我们可以这样直接使用一个unordered_set/set,依次读取文件query，插入set中
如果读取整个小文件query，都可以成功插入，那就是第一种，因为set插入key，如果有了返回false，没有继续插返回true，插入过程是不会失败的。
如果读取整个小文件query，插入过程抛异常，说明内存满了装不下，会抛bad_alloc异常，那就是第二种，要换其他哈希函数，再次分割，再求交集。

2.如何扩展BloomFilter使得它支持删除元素的操作
把每个映射的值改成引用计数，每个值由多个比特位组成，如01,10,11，分别代表1次，2次。3次，往上加，取决于用几个比特位。但其实没必要，会浪费空间，本身就不支持删除。

（2）问题3/4

3.给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址？
还是一样的，哈希切分500份，依次读取数据，Hash函数计算出i，这个ip就是第i个小文件，直接用unordered_map/map统计出现次数。
如果某个过程中，出现抛异常，则说明单个文件小文件过大，冲突太多，需要重新换哈希函数，再次哈希切分这个小文件，比如这个单个小文件10G再切个30份，AA0到AA29，再生成小文件，和处理源文件的逻辑是一样的；没有异常正常统计，统计完一个小文件，记录最大的，clear，再统计下一个文件。

（3）问题3

4.与上题条件相同，如何找到top K的IP？
找次数最多IP，可以建一个K个数的小堆，小堆每一个位置是pair，key是ip，value是次数，如果比你大我就进去。
总结：相同的IP一定进入相同小文件，读取单个小文件，就可以统计IP出现次数。

四、所有源码(含BF)

bitset.h

#pragma once
#include
#include
#include
#include
using namespace std;

namespace nza
{
	template<size_t N>
	class bitset
	{
	public:
		bitset()
		{
			_b.resize(N / 8 + 1, 0);
		}
		void set(size_t x)
		{
			size_t i = x / 8;
			size_t j = x % 8;
			_b[i] |= (1 << j);

		}
		void reset(size_t x)
		{
			size_t i = x / 8;
			size_t j = x % 8;
			_b[i] &= ~(1 << j);
		}
		bool test(size_t x)
		{
			size_t i = x / 8;
			size_t j = x % 8;
			return _b[i] & (1 << j);
		}
	private:
		vector<char> _b;

	};


	void test1()
	{
		bitset<100> bs;
		bs.set(6);
		bs.set(15);
		bs.set(66);
		cout << bs.test(6) << endl;
		cout << bs.test(7) << endl;
		cout << bs.test(66) << endl;
		cout << endl;
	}



	template<size_t N>
	class twobitset
	{
	public:
		void set(size_t x)
		{
			if (_b1.test(x) == false && _b2.test(x) == false)
			{
				_b2.set(x);
			}
			else if (_b1.test(x) == false && _b2.test(x) == true)
			{
				_b1.set(x);
				_b2.reset(x);
			}
		}
		void one_print()
		{
			for (size_t i = 0; i < N; ++i)
			{
				if(_b2.test(i))
				{
				     cout << i << endl;
                }
			}
		}
	public:
		bitset<N> _b1;
		bitset<N> _b2;
	};

	void test2()
	{
		int a[] = { 6, 22, 99, 88, 6, 4, 3, 22, 5,};
		twobitset<100> tb;
		for (auto e : a)
		{
			tb.set(e);
		}
		tb.one_print();
		cout << endl;
	}
	






	struct BKDRHash
	{
		size_t operator()(const string& s)
		{
			size_t hash = 0;
			for (auto ch : s)
			{
				hash += ch;
				hash *= 31;
			}

			return hash;
		}
	};

	struct APHash
	{
		size_t operator()(const string& s)
		{
			size_t hash = 0;
			for (long i = 0; i < s.size(); i++)
			{
				size_t ch = s[i];
				if ((i & 1) == 0)
				{
					hash ^= ((hash << 7) ^ ch ^ (hash >> 3));
				}
				else
				{
					hash ^= (~((hash << 11) ^ ch ^ (hash >> 5)));
				}
			}
			return hash;
		}
	};


	struct DJBHash
	{
		size_t operator()(const string& s)
		{
			size_t hash = 5381;
			for (auto ch : s)
			{
				hash += (hash << 5) + ch;
			}
			return hash;
		}
	};

	template<size_t N,class K=string,class Hash1= BKDRHash,
		class Hash2= APHash,class Hash3= DJBHash>
	class BloomFilter
	{
	public:
		void set(const K& key)
		{
			size_t len = N * _M;
			size_t hash1 = Hash1()(key) % len;
			_b.set(hash1);
			size_t hash2 = Hash2()(key) % len;
			_b.set(hash2);
			size_t hash3 = Hash3()(key) % len;
			_b.set(hash3);
		}
		bool test(const K& key)
		{
			size_t len = N * _M;
			size_t hash1 = Hash1()(key) % len;
			if (!_b.test(hash1))
				return false;

			size_t hash2 = Hash2()(key) % len;
			if (!_b.test(hash2))
				return false;

			size_t hash3= Hash3()(key) % len;

			if (!_b.test(hash3))
				return false;

			return true;
		}
	private:
		static const size_t _M = 6;
		bitset<N*_M> _b;
	};


	void test_BF1()
	{
		BloomFilter<100> b;
		b.set("nza");
		b.set("zan");
		b.set("qwe");
		b.set("ewq");


		cout << b.test("nza") << endl;
		cout << b.test("zan") << endl;
		cout << b.test("qwe") << endl;
		cout << b.test("ewq") << endl;
		cout << b.test("kd") << endl;
	}
	void test_BF2()
	{
		srand(time(0));
		const size_t N = 10000;
		BloomFilter<N> bf;

		std::vector<std::string> v1;
		std::string url = "https://www.education.com/-kd/2023/06/12/66666.html";

		for (size_t i = 0; i < N; ++i)
		{
			v1.push_back(url + std::to_string(i));
		}

		for (auto& str : v1)
		{
			bf.set(str);
		}
		std::vector<std::string> v2;
		for (size_t i = 0; i < N; ++i)
		{
			std::string url = "https://www.education.com/-kd/2023/06/12/66666.html";
			url += std::to_string(999999 + i);
			v2.push_back(url);
		}

		size_t n2 = 0;
		for (auto& str : v2)
		{
			if (bf.test(str))
			{
				++n2;
			}
		}
		cout << "相似字符串误判率:" << (double)n2 / (double)N << endl;

	
		

		std::vector<std::string> v3;
		for (size_t i = 0; i < N; ++i)
		{
			string url = "https://editor.csdn.net/md?articleId=131012473";
			url += std::to_string(i + rand());
			v3.push_back(url);
		}

		size_t n3 = 0;
		for (auto& str : v3)
		{
			if (bf.test(str))
			{
				++n3;
			}
		}
		cout << "不相似字符串误判率:" << (double)n3 / (double)N << endl;
	}
}

test.cpp

#include"bitset.h"

int main()
{
	nza::test1();
	nza::test2();
	nza::test_BF1();
	nza::test_BF2();
	return 0;
}

机器学习中的贝叶斯网络：如何构建高效的风险预测模型 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术文章目录机器学习中的贝叶斯网络：如何构建高效的风险预测模型1.背景介绍2.基本概念术语说明2.1马尔科夫随机场（MarkovRandomField）2.2条件随机场（ConditionalRandomField，CRF）2.3变量elimination算法2.4贝叶斯网络3.核心算法原理和具体操作步骤以及数学公式讲解3.1原理介绍1.贝叶斯网络基础2.贝叶斯网络构建风险
Spring Boot中定时任务Cron表达式的终极指南 A-Kamen spring boot 后端 java
SpringBoot中定时任务Cron表达式的终极指南一、Cron表达式基础二、SpringBoot中定时任务的实现三、Cron表达式高级用法四、调试与验证技巧五、常见问题与解决方案六、最佳实践总结定时任务是后端开发中实现周期性业务逻辑的核心技术之一。在SpringBoot生态中，结合@Scheduled注解和Quartz调度框架，开发者可以轻松实现复杂的定时任务。然而，Cron表达式作为定时任务
优化 Java 数据结构选择与使用，提升程序性能与可维护性 A-Kamen java 数据结构开发语言
引言在软件开发中，数据结构的选择是影响程序性能、内存使用以及代码可维护性的关键因素之一。Java作为一门广泛使用的编程语言，提供了丰富的内置数据结构，如数组、链表、栈、队列、树、图以及集合框架中的各种接口实现（如List,Set,Map等）。然而，面对不同的应用场景，如何合理地选择和优化数据结构，成为了一个值得深入探讨的话题。本文将介绍几种常见的Java数据结构，并探讨如何根据实际需求进行优化选择
TinyMCE插件是否支持Word图片的直接复制与web上传？ 2501_90694782 umeditor粘贴word ueditor粘贴word ueditor复制word ueditor上传word图片 ueditor导入word ueditor导入pdf ueditor导入ppt
要求：开源，免费，技术支持编辑器：TinyMCE前端：vue,vue2-cli,vue3-cli后端：java,jsp,springboot,asp.net,php,asp,.netcore,.netmvc,.netform功能：导入Word,导入Excel,导入PPT(PowerPoint),导入PDF,复制粘贴word,导入微信公众号内容,web截屏平台：Windows,macOS,Linux
『 C++ 』线程与原子操作：高效并发编程的利器锐策 C++多线程 c++开发语言
文章目录为什么使用C++线程一、`C++11`std::thread`类的简单介绍1.1函数名与功能1.2`std::thread`类的简单介绍1.3线程函数参数二、线程同步与锁2.1线程同步与锁2.2死锁演示三、原子操作3.1原子操作与线程安全3.2原子操作的优势3.3CAS操作与自旋锁3.4原子操作与普通操作的汇编对比四、共享资源的线程安全问题4.1`std::shared_ptr`的线程安全
机器臂运动控制算法工程师面试道亦无名面试算法人工智能机器学习
大厂的经验总结：一、基础概念理解请解释机器臂运动学正解和逆解的概念，并分别说明其用途。正解：已知机器臂各关节的角度（或位移），通过运动学模型计算出机器臂末端执行器在笛卡尔空间中的位置和姿态。用途在于可以根据给定的关节驱动值，预测末端的实际位置，用于运动仿真、路径验证等，比如在工业生产前模拟机器臂的动作是否能准确到达加工位置。逆解：已知机器臂末端执行器在笛卡尔空间中的期望位置和姿态，求解出各关节应处
软件测试基础知识必备之浅谈单元测试程序员阿沐软件测试软件测试单元测试
什么是单元测试？单元测试是指，对软件中的最小可测试单元在与程序其他部分相隔离的情况下进行检查和验证的工作，这里的最小可测试单元通常是指函数或者类。单元测试都是以自动化的方式执行，所以在大量回归测试的场景下更能带来高收益。单元测试代码里提供函数的使用示例，因为单元测试的具体表现形式就是对函数以各种不同输入参数组合进行调用。如何做好单元测试？1）代码的基本特征与产生错误的原因无论是开发语言还是脚本语言
Java高并发容器的内核解析：从无锁算法到分段锁的架构演进猿享天开开发语言 java
《Java高并发容器的内核解析：从无锁算法到分段锁的架构演进》本文将以JUC包核心容器为切入点，深入剖析ConcurrentHashMap在Java8中的64位Hash分段技术，解密LinkedBlockingQueue双锁队列设计的吞吐量秘密，并给出各容器在亿级流量场景下的性能压测对比与选型决策矩阵。一、BlockingQueue体系：生产者-消费者模式的工业级实现1.阻塞队列的四大行为矩阵行为
c++ Templates Guide Benny.LIU c++template
c++TemplatesGuide前言FunctionTemplatesClassTemplatesNontypeTemplateParametersTrickyBasicsUsingTemplatesinPracticeBasicTemplateTerminology前言Typeparametersareintroducedwitheitherthekeywordtypenameorthekey
C++ 各种map对比越甲八千【道阻且长C++】c++哈希算法开发语言
文章目录特点比较1.`std::map`2.`std::unordered_map`3.`std::multimap`4.`std::unordered_multimap`5.`hash_map`（SGISTL扩展）C++示例代码代码解释特点比较1.std::map底层实现：基于红黑树（一种自平衡的二叉搜索树）。元素顺序：元素按照键（key）的升序排列。键的唯一性：每个键只能出现一次，插入重复键的
【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？努力毕业的小土博^_^ AI算法题库人工智能算法计算机视觉深度学习神经网络
【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？文章目录【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？前言数据级别的多尺度模型架构上的多尺度表示FPN代码示例（PyTorch）说明其他多尺度处理方法总结欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上岸上岸上岸！upupup大多数高校
【大模型书籍PDF】从零开始大模型开发与微调：基于PyTorch与ChatGLM （推荐）_从零开始大模型开发与微调 pdf 喝不喝奶茶丫 pytorch 人工智能语言模型大模型转行大模型 AI大模型微调
今天又来给大家推荐一本大模型方面的书籍。本书使用PyTorch2.0作为学习大模型的基本框架，以ChatGLM为例详细讲解大模型的基本理论、算法、程序实现、应用实战以及微调技术，为读者揭示大模型开发技术。本书配套示例源代码、PPT课件。（书籍分享）
软考系统架构设计师考试学习和考试的知识点大纲，覆盖所有考试考点 DKPT #系统架构设计师系统架构学习
以下是软考系统架构设计师考试的知识点大纲，覆盖所有官方考点，分为基础知识、核心技术、系统设计、案例分析、论文写作五大模块，帮助系统性学习和备考：一、基础知识模块计算机组成与体系结构计算机硬件组成（CPU、内存、I/O设备）存储系统（Cache、RAID、虚拟内存）指令系统与流水线技术操作系统进程与线程管理（调度算法、死锁）内存管理（分页、分段、虚拟内存）文件系统与磁盘管理数据库系统关系数据库（SQ
单调栈详解【C/C++】ん贤算法单调栈算法 c++数据结构贪心算法
前言：了解过单调队列后，你会发现单调栈的思想其实挺简单...当然前提是要了解一下什么是栈(stack)。看待一个问题，从不同角度，也许能有不同的收获。在数学家眼中，单调栈本质上是一个严格或非严格维护的单调递增或单调递减的数学结构。其核心在于动态的维护动态递增或递减的有序关系。而对于算法工程师，他们首先关注单调栈的核心优势：O(n)的时间复杂度。在需要遍历序列，并纪录极值的情况下（如接雨水、每日温度
24远景能源-动力，10月最后一周面试！【NTAKYsW】 2301_79125642 java
大模型公司收实习啦，入局好机会，全是大佬不卷后端研发实习生简历投递请联系我，牛客会屏蔽邮箱日常实习：面向全体在校生，为符合岗位要求的同学提供为期3个月及以上的项目实践机会。公司介绍下午移动笔试，晚上联通笔试我看到好多投移动都去面试了，但是我没有面试也没有任何消息，而且智联校园上面hr也没有查看，这是怎么回事，难道是随便发的笔试吗...应该投的是什么AI研究中心联通许愿美团商分octl:一面-10.
Caffeine vs Guava Cache：性能巅峰对决，谁才是 Java 本地缓存之王？ Julian.zhou Java 开发基础技能缓存 java 算法
CaffeinevsGuavaCache：性能巅峰对决，谁才是Java本地缓存之王？导语：在Java本地缓存的战场上，Caffeine和GuavaCache是开发者最常用的两大神器。但究竟谁的性能更胜一筹？为何Caffeine被称为“GuavaCache的终结者”？本文通过算法原理、并发性能、内存管理、实战测试四大维度，彻底揭秘两者的性能差异，文末附迁移指南和选型建议！一、核心差异：算法与淘汰策略
springboot poi 后端手撕excel自定义表格。包括插入列表、跨行跨列合并 uutale java应用 spring boot excel 后端
文章目录前言一、成品展示二、引入二、RestTemplateConfig三、接收实体ReturnResponse四、WriteExcelTableController总结前言这个程序是因为我需要根据数据库返回的数据生成excel，涉及到跨行跨列合并，表格list填充。填充后调用另一个项目的上传接口，把文件转成字节流传输过去，你们在自己进行使用的时候可以把字节流转成file存到本地。这里的代码有很多
【C++】C++类梵刹古音 C++学习笔记 c++开发语言
文章目录面向对象程序设计思想类概述类的声明与定义类的实现对象的声明面向对象程序设计思想面向对象是一种符合人类思维习惯的程序设计思想。现实生活中存在各种形态不同的事物，这些事物之间存在着各种各样的联系。在程序中使用对象映射现实中的事物，利用对象之间的关系描述事物之间的联系，这种思想就是面向对象。面向过程是分析出解决问题所需要的步骤，然后用函数把这些步骤一一实现，使用的时候依次调用就可以了。面向对象不
C++回顾 day2 星夜982 C++回顾算法数据结构 c++
可以对指针进行引用，但是不存在引用的引用inta;int*p=&a;int*&rp=p;//此时rp是一个地址，要改变p的值要么*rp=XXX;//要么rp=&XXX;int&ra=a;int&&rra=ra;//这是不对的int&rra=ra;//也不能叫作引用的引用，因为rra也是a的引用可以对指针再取指针，但是不能对引用取指针inta;int&ra=a;int*p=&a;int**xp=&p
122. 买卖股票的最佳时机 II 请向我看齐 LeetCode 算法
题目分析LeetCode第122题是“买卖股票的最佳时机II”。题目描述为：给定一个数组prices，其中prices[i]是一支给定股票第i天的价格。设计一个算法来计算你所能获取的最大利润。你可以尽可能地完成更多的交易（多次买卖一支股票）。模式识别本题属于动态规划或者贪心算法的范畴。由于可以进行多次交易，且没有交易次数限制，所以可以通过比较相邻两天的价格，只要后一天价格比前一天高，就进行一次交易
二分查找算法 WH牛算法算法
目录1.二分查找算法的介绍1.1算法思路1.2算法模版1.2.1查找区间左端点1.2.1查找区间右端点2.模版题2.1数的范围2.2数的三次方根3.典题3.1机器人跳跃问题3.2分巧克力4.课后题1.二分查找算法的介绍1.1算法思路假设目标值在闭区间[l,r]中，每次将区间长度缩小一半，当l=r时，我们就找到了目标值。说人话：就是把答案所在的区间逐渐缩小，直到区间内只有答案。二分查找算法的时间复杂
Tinyflow AI 工作流编排框架 v0.0.7 发布自不量力的A同学人工智能
目前没有关于TinyflowAI工作流编排框架v0.0.7发布的相关具体信息。Tinyflow是一个轻量的AI智能体流程编排解决方案，其设计理念是“简单、灵活、无侵入性”。它基于WebComponent开发，前端支持与React、Vue等任何框架集成，后端支持Java、Node.js、Python等语言，助力传统应用快速AI转型。该框架代码库轻量，学习成本低，能轻松应对简单任务编排和复杂多模态推理
【保姆级】阿里云codeup配置Git的CI/CD步骤 CodeCaptain 阿里云 GitLab DevOps 阿里云 git ci/cd
以下是通过阿里云CodeUp的Git仓库进行CI/CD配置的详细步骤，涵盖前端（Vue3）和后端（SpringBoot）项目的自动化打包，并将前端打包结果嵌入到Nginx的Docker镜像中，以及将后端打包的JAR文件拷贝至Docker指定目录的完整流程：前提条件阿里云账号：已注册并登录阿里云CodeUp。项目代码：前端（Vue3）和后端（SpringBoot）项目代码已托管到CodeUp仓库。D
搜广推校招面经五十四 Y1nhl 搜广推面经搜索算法 python 推荐算法机器学习人工智能
美团推荐算法一、手撕Transformer的位置编码1.1.位置编码的作用Transformer模型没有显式的序列信息（如RNN的循环结构），因此需要通过位置编码（PositionalEncoding）为输入序列中的每个位置添加位置信息。位置编码的作用是：提供序列位置信息：帮助模型理解输入序列中元素的顺序。保持唯一性和连续性：确保每个位置的位置编码是唯一的，且相邻位置的位置编码是连续的。1.2.位
搜广推校招面经五十三 Y1nhl 搜广推面经 python 机器学习人工智能推荐算法搜索算法算法
小红书推荐算法一、ESMM(EntireSpaceMulti-TaskModel)ESMM（EntireSpaceMulti-TaskModel）是一种用于解决推荐系统中多任务学习问题的模型。它由阿里巴巴团队提出，主要用于处理点击率（CTR）和转化率（CVR）的联合预测问题。1.1.背景在推荐系统中，CTR和CVR是两个重要的指标：CTR（Click-ThroughRate）：用户点击广告的概率。
C++避坑指南-数组越界飞天赤狐 C++避坑指南 c++
问题场景在访问数组时没有判断数组size,导致访问的索引号超过了数组size产生访问越界，程序出现异常行为示例代码实际情况比较多,我们来展开说明下原生数组访问越界#includeusingnamespacestd;voidArrayOut(){inta[]={23,33,1,32,5,9,10};for(inti=0;ia({23,33,1,32,5,9,10});for(inti=0;iempt
EnerVerse：智元机器人提出首个机器人4D世界模型，在动作规划任务中达到SOTA水平强化学习曾小健机器人
EnerVerse：智元机器人提出首个机器人4D世界模型，在动作规划任务中达到SOTA水平PNP机器人PNP机器人2025年02月10日21:04上海本文来自：公众号智元机器人https://sites.google.com/view/enerverse，出于学术/技术分享进行转载，如有侵权，联系删文。EnerVerse的科研核心团队由智元机器人研究院的具身算法精英组成。黄思渊，作为上海交通大学与
【绝对有用】C++ 数组越界和并查集 fighting的码农(zg)-GPT C++c++算法开发语言数据结构
遇到了一个地址越界错误（heap-buffer-overflow），通常这是因为程序试图读取或写入超过分配给缓冲区的内存空间。根据AddressSanitizer的错误报告，问题出现在您的Solution::longestConsecutive函数中，位于solution.cpp文件的第17行。下面是一些调试和解决这个问题的步骤：识别问题代码：错误报告显示问题发生在Solution::longes
使用 Milvus 进行向量数据库管理与实践 qahaj milvus 数据库 python
技术背景介绍在当今的AI与机器学习应用中，处理和管理大量的嵌入向量是一个常见的需求。Milvus是一个开源向量数据库，专门用于存储、索引和管理深度神经网络以及其他机器学习模型生成的大规模嵌入向量。它的高性能和易用性使其成为处理向量数据的理想选择。核心原理解析Milvus的核心功能体现在其强大的向量索引和搜索能力。它支持多种索引算法，包括IVF、HNSW等，使其能够高效地进行大规模向量的相似性搜索操
动态数组索引越界问题 Caroline0071 C++基础知识动态数组索引越界 vector
1、在C++中，可以采用几种不同的方法创建一个某种类型T的对象的数组。3种常用的方法如下：#defineN10//数组的长度N在编译时已知Tstatic_array[10];intn=20;//数组的长度n是在运行时计算的T*dynamic_array=newT[n];std::vectorvector_array;//数组的长度可以在运行时进行修改当然，我们仍然可以使用calloc()和mall
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">