青色_忘川

【C++从0到王者】第三十八站：位图和布隆过滤器

文章目录

一、哈希桶的改进
- 1.链表与树结构的结合
- 2.扩容使用质数
二、位图
- 1.位图的概念
- 2.位图的实现
- 3.位图的其他应用
三、布隆过滤器
- 1.布隆过滤器的提出
- 2.布隆过滤器的实现
- 3.布隆过滤器的应用

一、哈希桶的改进

1.链表与树结构的结合

有时候，在极端场景下，我们的哈希桶会出现某一个桶太长了，而其他的桶却没有结点，即如下图所示

在这种情况下，我们有没有什么办法可以进行优化呢？其实是有的，当某个桶太长的时候，我们可以将这个链表转化为一颗红黑树进行存储，这样的话就会极大的优化效率

那么像这种结构我们该如何定义呢？

如下所示，我们的哈希表每一个结点存储的是结构体，这个结构体有两个变量一个是联合体类型，一个是判断当前是树结构还是链表结构，这个联合体是由两个指针构成，这样可以更好的节约空间。

当链表需要转化为树的时候，只需要将链表结点依次插入一个树中即可，就可以释放掉链表了，最后将树挂上去。

union Type
{
	HashNode* head;
	TreeNode* root;
}
struct HashDate
{
	Type ptr;
	bool isTree = false; //方式一：用布尔值判断是树结构还是链表结构
	//或使用下面的方式
	size_t bucketSize;//方式二：用结点的长度来判断是树结构还是链表结构，比如说如果长度超过8就转化为树结构，小于则退化为链表
}
vector<HashDate> _table;

2.扩容使用质数

对于这一点，其实现在并没有充足的科学依据，但是确实有人提出过这一点

那就是哈希桶的数量使用质数的话会减少冲突

但是在vs2022中并没有使用质数

如下是linux，即g++下面的，可以看到使用了质数

那么在g++中是如何实现的使用素数扩容的呢？其实是直接使用了如下所示的素数表，然后去扩容的

		size_t GetNextPrime(size_t prime)
		{
			static const int __stl_num_primes = 28;
			static const unsigned long __stl_prime_list[__stl_num_primes] =
			{
			  53,         97,         193,       389,       769,
			  1543,       3079,       6151,      12289,     24593,
			  49157,      98317,      196613,    393241,    786433,
			  1572869,    3145739,    6291469,   12582917,  25165843,
			  50331653,   100663319,  201326611, 402653189, 805306457,
			  1610612741, 3221225473, 4294967291
			};

			size_t i = 0;
			for (; i < PRIMECOUNT; ++i)
			{
				if (primeList[i] > prime)
					return primeList[i];
			}

			return primeList[i];
		}

然后我们将这两处进行修改即可

二、位图

1.位图的概念

我们先来看这样一道题

给40亿个不重复的无符号整数，没排过序。给一个无符号整数，如何快速判断一个数是否在这40亿个数中。【腾讯】

这是腾讯的一道面试题

我们能想到的思路有哪些呢？

直接暴力遍历，但是时间复杂度是O(N)
排序+二分，时间复杂度是logN
使用set，时间复杂度是logN

如上是我们最容易想到的办法，但是这些办法合理吗？可能实现吗？

其实肯定是不可以的，因为这数据量太大了，40亿的数据，相当于160亿字节

而我们知道10亿字节约为1G内存，那么这要用16G内存啊。我们一般的电脑根本跑不动的，更何况还有操作系统还要用分内存给其他软件呢。

使用set系列就更不可能了，因为就单论红黑树，一个结点，就额外需要三个指针，还有一个用来判断颜色的变量。需要消耗的内存一下子变为了80G，这几乎没有几个电脑带的动的，成本太高了

那么我们究竟该如何解决呢？

其实我们陷入了一个思维误区，误以为必须得把这40亿数据存起来才可以，其实我们可以不用存起来的。因为我们只需要判断这个数在不在就可以了。

而标记一个数在不在我们只需要一个比特位就可以搞定了。

那么如何可以只使用一个比特位呢？那我们就是使用哈希了。

我们可以直接开2的32次方个比特位的空间，每一个比特位我们都可以像数组一样给他们一个下标，这个下标就是代表了这个数，这个下标对应的比特位如果是0就代表这个数不在，如果是1就代表在就可以了。

那么为什么必须是2的32次方呢？因为题目要求的是无符号整数，它的范围最大刚好就是2的32次方

这就相当于直接定址法，这样的话我们只需要500MB就可以解决问题了。

2.位图的实现

由于没有一个数据类型只占一个比特位，所以我们只能使用其他的来模拟一个。比如下图就是使用int类型来进行模拟的，一个int代表着32个比特位

不过上面的图其实还存在一些问题，因为对应一个变量而言，而的最右边的位才是第0位，所以上图我们应该在做一些修改

这个就像在内存中的小端机器一样，也是类似于这样的存储方式，如下是当存储一个1的时候，内存就是如下的形式

根据上面的思路，位图应该是这样的框架

然后，我们先完善第一个功能置位，即将某个位置为1

如下所示，这里需要注意的是，小端机器只是机器底层内存的样子，我们不需要关注底层内存的情况，我们只需要关系对于int类型找到它表面上的第j个位就可以了。至于计算机内存底层是如何实现的，那不是我们要关心的事情

		void set(size_t x)
		{
			int i = x / 32;
			int j = x % 32;
			_a[i] |= (1 << j);
		}

然后就是将某一位置为0了，使用位运算就可以轻松解决了

		void reset(size_t x)
		{
			int i = x / 32;
			int j = x % 32;
			_a[i] &= ~(1 << j);
		}

如下是测试某一位是0还是1

		bool test(size_t x)
		{
			int i = x / 32;
			int j = x % 32;
			return _a[i] & (1 << j);
		}

最后我们加上非类型模板参数，最终的位图是这样的

namespace Sim
{
	template<size_t N>
	class bitset
	{
	public:
		bitset()
		{
			_a.resize(N / 32 + 1);
		}
		void set(size_t x)
		{
			int i = x / 32;
			int j = x % 32;
			_a[i] |= (1 << j);
		}
		void reset(size_t x)
		{
			int i = x / 32;
			int j = x % 32;
			_a[i] &= ~(1 << j);
		}
		bool test(size_t x)
		{
			int i = x / 32;
			int j = x % 32;
			return _a[i] & (1 << j);
		}
	private:
		vector<int> _a;
	};
}

使用如下测试用例

void test1()
{
	Sim::bitset<1000> bs;
	bs.set(1);
	bs.set(500);
	bs.set(1000);
	cout << bs.test(1) << endl;
	cout << bs.test(500) << endl;
	cout << bs.test(1000) << endl;
	cout << bs.test(2) << endl;

	cout << endl;


	bs.set(2);
	bs.reset(1);

	cout << bs.test(1) << endl;
	cout << bs.test(500) << endl;
	cout << bs.test(1000) << endl;
	cout << bs.test(2) << endl;

}

现在有了位图，那么我们现在回过头来看一下这道题

给40亿个不重复的无符号整数，没排过序。给一个无符号整数，如何快速判断一个数是否在这40亿个数中。【腾讯】

现在我们可以使用位图来解决这个问题了，使用位图仅仅只需要500M，注意下面代码中，由于位图开的是范围，所以我们需要开到无符号整数的最大值，我们可以使用很多种方法找到，比如UINT32_MAX就代表无符号整数最大值，-1也是可以的，因为内存中代表全1，也可以使用16进制数都是很方便的找到无符号最大值。但是要注意千万不可以直接使用INT_MAX直接乘以2，这是错误的，还需要+1的，比如对于char，有符号最大值是127，无符号最大值是255。还需要注意的是如果是使用-1的话，一定要将系统设置为32位的。因为size_t在32位和64位是不一样的

我们只需要用这500MB的内存就可以将海量数据依次放入位图中，然后我们就可以很方便的进行检验了

实际上在库里面也有位图

它的操作最常用的就是下面的这些，其实主要还是我们实现的那三个，[]运算符重载使用的并不是很多

3.位图的其他应用

给定100亿个整数，设计算法找到只出现一次的整数？

对于这道题，我们的想法还是使用位图，但是可以直接使用位图吗，好像不太行，我们似乎需要将我们原来的位图改造一下。因为只出现一次这句话，就代表了我们至少需要两个比特位来存储信息，00代表没有，01代表只存储一次，10代表存储一次以上

这样的话，我们一开将位图的数据全部设置为0，当遇到一个数据，对应的位置改为01,如果又遇到重复的数据，改为10。如果还遇到，那就不变就可以了。这样的话就完美的解决了这个场景。

但是上面的问题有一点很不爽，如果我们不想手写类似于位图容器的话，那该如何处理呢？毕竟库里面的位图就只用一个比特位。我们想用库里面的位图该如何使用呢？

我们可以使用两个位图容器去搞定，一个位图对应的只存储一个位置即可，将这两个位图给封装为一个新的容器就可以了

template<size_t N>
class twobitset
{
public:
    void set(size_t x)
    {
        if (!_bs1.test(x) && !_bs2.test(x))
        {
            _bs2.set(x);
        }
        else if (!_bs1.test(x) && _bs2.test(x))
        {
            _bs1.set(x);
            _bs2.reset(x);
        }
    }
    bool is_once(size_t x)
    {
        return !_bs1.test(x) && _bs2.test(x);
    }
private:
    bitset<N> _bs1;
    bitset<N> _bs2;
};

然后我们使用如下测试用例

void test3()
{
	int a1[] = { 1,2,3,3,4,4,4,4,4,2,3,6,3,1,5,5,8,9 };
	Sim::twobitset<10> tbs;
	for (auto e : a1)
	{
		tbs.set(e);
	}
	for (auto e : a1)
	{
		if (tbs.is_once(e))
		{
			cout << e << " ";
		}
	}
	cout << endl;
}

这个位图的方法对于寻找单身狗的题目也会有奇效

给两个文件，分别有100亿个整数，我们只有1G内存，如何找到两个文件交集？

对于这个题，我们一开始的想法可能就是，先将一个文件里面的数据使用一个位图中，然后用另外一个文件进行比较判断在不在。不过这个的问题就在于，会出现重复的数据。所以我们需要去重，那我们如果使用set去去重的话，那如何不重复的数据量太多。显然内存不够用。

所以我们的办法是使用两个位图，用两个文件分别映射到两个位图中，然后与一下。还是1的位置就是交集了

比如下面的代码就可以求出交集

void test4()
{
	int a1[] = { 1,2,3,3,4,4,4,4,4,2,3,6,3,1,5,5,8,9 };
	int a2[] = { 8,4,8,4,1,1,1,1 };
	Sim::bitset<10> bs1;
	Sim::bitset<10> bs2;

	for (auto e : a1)
	{
		bs1.set(e);
	}
	for (auto e : a2)
	{
		bs2.set(e);
	}
	for (int i = 0; i < 10; i++)
	{
		if (bs1.test(i) && bs2.test(i))
		{
			cout << i << " ";
		}
	}
	cout << endl;
}

位图应用变形：1个文件有100亿个int，1G内存，设计算法找到出现次数不超过2次的所有整数

这道题其实和问题一十分类似，可以使用两个位图去解决

00代表没有数据，01代表只出现一次，10代表出现了2次，11代表出现了两次以上

不过我们可能会在意的是int可能是负数，其实没关系，因为我们都会将他变为size_t的，最后打印的时候在强转会int就可以了

三、布隆过滤器

1.布隆过滤器的提出

上面的数据都是针对于整型的

那么当我们的数据为字符串类型呢？我们能否进行映射呢？其实也是可以的，只需要使用字符串转整型算法即可

这样的话，未来想判断这个字符串在不在就可以直接观测位图的这个位置来判断在不在

但是上面还是存在一些问题的，那就是可能有其他字符串映射的值和它一样

这个时候就存在误判了

也就是说，可能存在冲突导致误判，如果一个字符串在的话，那么它有可能是误判放进来的，但是如果一个不在的话，那么一定是精确的

那么这时候我们会发现，这个误判似乎无法消除，但是我们可以去降低这个误判率

而布隆所提出的方法就是，进行多个映射

这样的话只要有一个没有映射上去，那么就说明这个值不存在，只有对应的几个位都为1，才能说这个字符串存在，当然这也有可能会误判，但是这样使用多个映射以后，误判率降低了。只要把位图开的大一点，控制一个合理的类似于负载因子的东西，就可以极大的降低误判率。但是这个切记不可以太密集了，所以要求位图的范围要大

像上面的这种东西，我们也称为布隆过滤器

对于布隆过滤器，它的使用场景很多,比如说下面的场景

首先就是对于不需要特别精确的场景，比如说快速判断一个昵称是否被人注册过。这个时候，我们可以将数据库的全部数据放入一个布隆过滤器。我们控制好误判率当有人输入了一个昵称，虽然这个昵称其实没有被注册过，但是我们提示这个昵称注册过了，这个其实是没有任何问题的当这个昵称被注册过了，那么一定会精确的提醒注册过了

即便如果必须要精确的话，我们也可以使用布隆过滤器先检查一遍，如果某个昵称在的话，直接过滤掉即可，即显示该用户已被注册。如果不在的话，那么我们在去数据库检索一遍，返回数据库的数据。

这样的话就可以极大的降低数据库查询负载压力，从而提高效率

2.布隆过滤器的实现

如下所示是一个简单的布隆过滤器的实现，对于这个布隆过滤器，我们只考虑置位和检测这两个函数就足够了。因为如果使用复位的话可能会影响其他位。如果非要强制支持复位，那么就需要计数了，也就是说每个位还需要一个计数器，删除一个数据，就代表着这个字符串所映射的三个位的计数器都减一就可以了。而这个计数器我们一般而言最少也得需要一个char变量，这就需要消耗八个比特位了，因为我们一般都是几十亿个数据时候才使用布隆过滤器的。为了支持一个删除要多消耗八倍的空间，属实划不来。

我们本来就是为了节省空间才使用的位图，而这个删除却要额外消耗八倍的空间，这就违背了我们一开始的原则

#pragma once


namespace Sim
{
    struct BKDRHash
    {
        size_t operator()(const string& s)
        {
            size_t hash = 0;
            for (auto ch : s)
            {
                hash = hash * 131 + ch;
            }
            return hash;
        }
    };



    struct APHash
    {
        size_t operator()(const string& s)
        {
            size_t hash = 0;
            for (size_t i = 0; i < s.size(); i++)
            {
                char ch = s[i];
                if ((i & 1) == 0)
                {
                    hash ^= ((hash << 7) ^ ch ^ (hash >> 3));
                }
                else
                {
                    hash ^= (~((hash << 11) ^ ch ^ (hash >> 5)));
                }
            }
            return hash;
        }
    };
    
    struct DJBHash
    {
        size_t operator()(const string& s)
        {
            size_t hash = 5381;
            for (auto ch : s)
            {
                hash += (hash << 5) + ch;
            }
            return hash;
        }
    };




    template<size_t N,
			class K = string,
			class Hash1 = BKDRHash,
            class Hash2 = APHash,
            class Hash3 = DJBHash>
	class BloomFilter
	{
	public:
		void set(const K& key)
		{
            size_t hash1 = Hash1()(key) % N;
            _bs.set(hash1);
            size_t hash2 = Hash2()(key) % N;
            _bs.set(hash2);
            size_t hash3 = Hash3()(key) % N;
            _bs.set(hash3);
		}
        bool test(const K& key)
        {
            size_t hash1 = Hash1()(key) % N;
            if (!_bs.test(hash1))
            {
                return false;
            }
            size_t hash2 = Hash2()(key) % N;
            if (!_bs.test(hash2))
            {
                return false;
            }
            size_t hash3 = Hash3()(key) % N;
            if (!_bs.test(hash3))
            {
                return false;
            }
            return true;
        }
	private:
		std::bitset<N> _bs;
	};
};

我们使用如下代码来进行测试

void test5()
{
	Sim::BloomFilter<1000> bf;
	bf.set("孙悟空");
	bf.set("猪八戒");

	cout << bf.test("孙悟空") << endl;
	cout << bf.test("猪八戒") << endl;
	cout << bf.test("沙悟净") << endl;

}

我们可以进一步检测一下每个哈希函数算出位置

只需要在set函数中添加打印下标即可

可见此时还没有出现冲突，当如果长度为10的时候，可见容器产生冲突，但是还好，因为有三个位可以作为判断依据，一个位冲突还有其他位来帮忙检测

对于已经存在的，一定会精确的判断它存在，但是对于不存在的，有可能会产生误判，比如当宽度为5的时候，沙悟净产生了误判

在这里，哈希函数的个数也需要权衡，个数越多则布隆过滤器 bit 位置位 1 的速度越快，且布隆过滤器的效率越低；但是如果太少的话，那我们的误报率会变高。也有人计算出出了了哈希函数的个数和数组的长度与误判率的关系的图片

k 为哈希函数个数，m 为布隆过滤器长度，n 为插入的元素个数，p 为误报率

如下就是其他人计算出来的k和m最适合的值

相关文章链接如下：布隆过滤器

我们可以用下面这段代码来测试误判率

void test6()
{
	srand(time(0));
	const size_t N = 100000;
	Sim::BloomFilter<N * 5> bf;

	std::vector<std::string> v1;
	std::string url = "https://blog.csdn.net/jhdhdhehej?spm=1010.2135.3001.5343";

	for (size_t i = 0; i < N; ++i)
	{
		v1.push_back(url + std::to_string(i));
	}

	for (auto& str : v1)
	{
		bf.set(str);
	}

	// v2跟v1是相似字符串集（前缀一样），但是不一样
	std::vector<std::string> v2;
	for (size_t i = 0; i < N; ++i)
	{
		std::string urlstr = url;
		urlstr += std::to_string(9999999 + i);
		v2.push_back(urlstr);
	}

	size_t n2 = 0;
	for (auto& str : v2)
	{
		if (bf.test(str)) // 误判
		{
			++n2;
		}
	}
	cout << "相似字符串误判率:" << (double)n2 / (double)N << endl;

	// 不相似字符串集
	std::vector<std::string> v3;
	for (size_t i = 0; i < N; ++i)
	{
		string url = "zhihu.com";
		url += std::to_string(i + rand());
		v3.push_back(url);
	}

	size_t n3 = 0;
	for (auto& str : v3)
	{
		if (bf.test(str))
		{
			++n3;
		}
	}
	cout << "不相似字符串误判率:" << (double)n3 / (double)N << endl;
}

测试结果如下所示

当然我们可以控制M的大小来使得误判率降低

当M为10倍的N的时候，误判率进一步下降

3.布隆过滤器的应用

给两个文件，分别有100亿个query(查询)，我们只有1G内存，如何找到两个文件交集？分别给出精确算法和近似算法

首先对于近似算法就很简单，直接使用布隆过滤器，把其中一个文件放入布隆过滤器中，另外一个判断在不在。在就是交集，不在就不是交集。不过会存在误判

然后是对于精确算法，这就比较麻烦了，我们需要使用一个哈希切分

我们假设一共query是30byte，那么100亿query就是3000亿byte，相当于300G内存

所谓的哈希切分就是：将A和B分别切成很多个小文件，用哈希函数去计算出对应的下标，然后将该数据放入对应的小文件。

用图来描述就是这样的

最终他们就会被切分为如下所示，然后我们直接去找交集即可，因为这里我们会发现，如果是相同的数据一定会落在下标相同的小文件中。而且在切分的时候这里的内存消耗几乎没有，因为切分的策略是将大文件的数据一个一个的读入内存然后写入新的小文件中。

找交集的时候，Ai读出全部读出来放入到一个set中，然后依次读取Bi中的query，判断在不在，如果在就说明是交集。这样就可以遭到Ai和Bi的交集了，但是平均切分是300MB，然而我们这里并不是平均切分，而是哈希切分，如果一旦冲突太多了，会导致某个Ai文件太大，超过1G内存，此时又该如何处理呢？

在这里我们分为两种情况，比如说Ai有5G

4G都是相同的query，1G是冲突的（那么这时候我们可以放入set，正常执行没有任何问题）

大多数都是冲突的（那么这时候我们只能进行二次切分了）

我们最终的解决方案是这样的

先把Ai所有的query都放入set，如果set的insert报错抛异常（bad_alloc），那么说明大多数是冲突的，我们在换一个哈希函数，采用二次切分

如果没有报错抛异常，那么就说明大多数是相同的。按照正常流程找交集即可

给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址？出现次数最多的K个IP地址？

我们的思路与上一道题很相似，使用哈希切分，那么相同ip一定进入了同一个小文件，用map分别统计每个小文件中出现ip次数即可。然后我们可以使用一个堆，类似于TOP-K问题，每个小文件结束以后将前K个放入其中即可。

以及像前面的这个题目,同样可以使用哈希切分来解决，只不过使用哈希切分的话有点麻烦，不如使用位图来的方便

给两个文件，分别有100亿个整数，我们只有1G内存，如何找到两个文件交集？

你可能感兴趣的:(【C++】,c++,网络协议,开发语言)

C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
嵌入式系统LCD显示模块编程实践
本文还有配套的精品资源，点击获取简介：本文档提供了一个具有800x480分辨率的3.5英寸液晶显示模块LW350AC9001的驱动程序代码，以及嵌入式系统中使用C/C++语言进行硬件编程的实践指南。该模块的2mm厚度使其适用于空间受限的便携式设备。内容包括驱动程序源代码、硬件控制接口使用方法，以及如何在嵌入式系统中进行图形处理、电源管理与性能优化。1.嵌入式系统原理1.1嵌入式系统概念嵌入式系统是
【超硬核】JVM源码解读：Java方法main在虚拟机上解释执行 HeapDump性能社区 java 开发语言后端 jvm
本文由HeapDump性能社区首席讲师鸠摩（马智）授权整理发布第1篇-关于Java虚拟机HotSpot，开篇说的简单点开讲Java运行时，这一篇讲一些简单的内容。我们写的主类中的main()方法是如何被Java虚拟机调用到的？在Java类中的一些方法会被由C/C++编写的HotSpot虚拟机的C/C++函数调用，不过由于Java方法与C/C++函数的调用约定不同，所以并不能直接调用，需要JavaC
C++ 设计模式：抽象工厂（Abstract Factory）冀晓武 C++设计模式 c++设计模式抽象工厂模式
链接：C++设计模式链接：C++设计模式-工厂方法链接：C++设计模式-原型模式链接：C++设计模式-建造者模式抽象工厂（AbstractFactory）是一种创建型设计模式，它提供一个接口，用于创建一系列相关或相互依赖的对象，而无需指定它们的具体类。抽象工厂模式通常用于创建一组相关的产品对象，例如不同类型的机器人和它们的配件。1.问题分析在某些情况下，我们需要创建一组相关或相互依赖的对象，但我们
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
C++设计模式：简单工厂、工厂方法、抽象工厂起个别名 C++算法 c++
1.工厂模式的特点在我们现实生活中，买馒头和自己蒸馒头、去饭店点一份大盘鸡和自己养鸡，杀鸡，做大盘鸡，这是全然不同的两种体验：自己做麻烦，而且有失败的风险，需要自己承担后果。买现成的，可以忽略制作细节，方便快捷并且无风险，得到的肯定是美味的食物。对于后者，就相当于是一个加工厂，通过这个工厂我们就可以得到想要的东西，在程序设计中，这种模式就叫做工厂模式，工厂生成出的产品就是某个类的实例，也就是对象。
计算机网络技术 CZZDg 计算机网络
目录一.网络概述1.网络的概念2.网络发展是3.网络的四要素4.网络功能5.网络类型6.网络协议与标准7.网络中常见的概念8.网络拓补结构二.网络模型1.分层思想2.OSI七层模型3.TCP/IP五层模型4.数据的封装与解封装过程三.IP地址1.进制转换2.IP地址定义3.IP地址组成成分4.IP地址分类5.地址划分6、相关概念一.网络概述1.网络的概念两个主机通过传输介质和通信协议实现通信和资源
UNIX域套接字
1、UNIX域套接字的定义UNIX域套接字是进程间通信（IPC）的一种方式，不涉及网络协议栈，因此在同一台主机上的通信中，它比基于TCP/IP协议的网络套接字更快速、更高效。2、UNIX域套接字的分类字节流套接字（SOCK_STREAM）：提供面向连接的、可靠的数据传输服务。数据报套接字（SOCK_DGRAM）：提供无连接的数据传输服务，数据以独立的数据报形式传输。3、UNIX套接字与TCP/IP
【GESP】C++三级真题 luogu-B4359 [GESP202506 三级] 分糖果 CoderCodingNo GESP c++java 开发语言
GESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较简单。题目题解详见：【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoder【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoderGESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较
C++设计秘籍：为什么所有参数都需类型转换时，非成员函数才是王道？讳疾忌医丶 c++前端开发语言
当所有参数都需要类型转换时，为什么要选择非成员函数？在C++的世界里，有一个看似简单却蕴含深意的设计原则：当所有参数（包括被this指针所指的那个隐式参数）皆须进行类型转换时，请为此采用非成员函数实现。这个原则背后隐藏着C++类型系统的精妙设计，也揭示了成员函数与非成员函数在处理隐式类型转换时的本质差异。想象一下，你正在设计一个数学计算库，需要支持整数与有理数的混合运算。如果你天真地将所有操作都实
初始化列表与类型转换（C++） 2401_89195731 c++开发语言
初始化列表和构造函数体在C++中都是用于给类的成员变量赋初值区别：初始化列表是给每个成员变量定义初始化的地方，即使有成员变量没有给它显式在初始化列表初始化，它也会走初始化列表初始化时机初始化列表：在对象创建时，成员变量通过初始化列表被直接初始化，这发生在构造函数体执行之前。构造函数体内赋值：成员变量首先被默认初始化，然后在构造函数体内通过赋值语句进行赋值。性能差异初始化列表：通常更高效，因为它避免
list的一些特性（C++） 2401_89195731 c++开发语言
C++STL库中的std::list是一个带头双向循环链表，使用之前需要包头文件，它和vector的使用高度类似。构造list支持多种构造方式默认构造函数：创建一个空的列表。拷贝构造函数：从另一个相同类型的列表创建一个新的列表。范围构造函数：从一对迭代器指定的范围内复制元素到新的列表中。初始值列表构造函数：使用初始化列表（initializerlist）创建一个包含指定元素的列表。填充构造函数：创
QML与C++相互调用函数并获得返回值 cpp_learners QML c++QML qt
这篇博客主要讲解在qml端如何直接调用c++的函数并获得返回值，在c++端如何直接调用qml的函数并获得返回值；主要以map或者jsonobject、list或者jsonarray为主！其他单个类型，常见的类型，例如QString、int等，就不演示了；一通百通。目录1准备工作1.1C++端1.2QML端2qml端直接调用c++端函数3c++端直接调用qml端函数3.1调用qml的qmlFuncO
c++ 编译链接时报错找不到某个函数，如何排查? sun007700 c++chrome 开发语言
在C++开发中，链接时出现“undefinedreferenceto”错误是常见问题，以下是系统化的排查流程和解决方案：1.确认基础问题（30秒检查）#检查函数声明是否存在grep"function_name"include/*.hsrc/*.cpp#检查是否包含实现文件ls-lsrc/#确认包含实现的.cpp文件在编译列表中2.签名匹配检查（最常见问题）//头文件声明-voidprocess_d
C++函数签名
C++函数签名-CSDN博客函数签名的组成部分函数名称函数的名字（如calculate、print）。参数列表（ParameterList）参数的类型、顺序和数量。参数的名字不影响签名（如intfunc(inta)和intfunc(intb)是同一签名）。所属的类或命名空间成员函数属于特定类（如MyClass::method）。自由函数属于全局或某个命名空间。成员函数的const/volatile
C++ 标准库＜numeric＞
以下对C++标准库中头文件所提供的数值算法与工具做一次系统、深入的梳理，包括算法功能、示例代码、复杂度分析及实践建议。一、概述中定义了一组对数值序列进行累加、内积、差分、扫描等操作的算法，以及部分辅助工具（如std::iota、std::gcd/std::lcm等）。所有算法均作用于迭代器区间，符合STL风格，可与任意容器或原始数组配合使用。从C++17、20起，又陆续加入了并行友好的std::r
C++面试核心知识点全面解析：从基础到高级
掌握这些核心知识点，轻松应对90%的C++技术面试一、基础语法与关键字1.1const关键字的多种用法//1.常量变量constintMAX_SIZE=100;//2.常量指针与指针常量constint*ptr1=&var;//指向常量的指针int*constptr2=&var;//常量指针constint*constptr3=&var;//指向常量的常量指针//3.常量成员函数classMyCl
《C++性能优化指南》 linux版代码及原理解读第一章 v俊逸 C++性能优化指南性能优化 C++性能优化性能优化
概述：目录概述：性能优化的必要性：C++代码优化策略总结用好的编译器并用好编译器使用更好的算法使用更好的库减少内存分配和复制移除计算使用更好的数据结构提高并发性优化内存管理性能优化的必要性：按照当今的CPU运行速度来说，执行一条指令所需要的时间是10的-9次方的时间单位，如此快速的执行速度是否就没有性能优化的必要了呢？其实不然，性能优化与CPU的执行速度并无非常大的关系，试想一下，一段代码，如果用
《C++性能优化指南》 linux版代码及原理解读第四章 v俊逸 C++性能优化指南性能优化 C++性能优化指南性能优化
目录概述为什么字符串很麻烦字符串是动态分配的字符串赋值背后的操作如何面对字符串会进行大量复制写时复制COW（copyonwrite）尝试优化字符串避免临时字符串通过预留存储空间减少内存分配通过传递引用减少实参复制使用迭代器操作减少循环中的比较操作减少返回值的复制还没有结束，使用字符数组代替字符串再次优化字符串尝试其他的算法叠加以前的优化方式使用其他的编译器使用其他字符串的库功能丰富的字符串库使用s
c++中如何排查死锁三月微风 c++java 开发语言
排查死锁（deadlock）是多线程C++开发中的一项核心调试技能，死锁通常是因为多个线程交叉持有资源而相互等待导致程序卡死。下面详细讲讲如何排查和预防死锁：一、死锁的常见成因锁获取顺序不一致（最常见）多个互斥量之间相互等待一个线程尝试多次加锁同一个非递归互斥锁忘记释放锁条件变量使用错误（如wait时未持锁）二、排查死锁的方法✅1.日志调试法在加锁和解锁前后打日志，确认：哪些线程获取了锁哪个线程卡
c++中迭代器的本质三月微风 c++开发语言
C++迭代器的本质与实现原理迭代器是C++标准模板库(STL)的核心组件之一，它作为容器与算法之间的桥梁，提供了统一访问容器元素的方式。下面从多个维度深入解析迭代器的本质特性。一、迭代器的基本定义与分类迭代器的本质迭代器是一种行为类似指针的对象，用于遍历和操作容器中的元素。它提供了一种统一的方式来访问不同容器中的元素，而无需关心容器的具体实现细节。标准分类体系C++标准定义了5种迭代器类型，按功能
C++中的智能指针
智能指针是C++中用于自动化管理动态内存的类模板，通过封装原生指针，并利用RAII（资源获取即初始化）技术，确保内存的自动释放，从而避免内存泄漏和悬空指针问题。它是现代C++内存管理的核心工具之一。原生指针的缺陷：1.内存泄漏：忘记调用delete2.悬空指针：释放后仍访问指针3.重复释放：同一内存被多次delete智能指针的优势：1.自动释放内存，不需手动delete，超出作用域自动释放2.防止
C++中NULL等于啥奇妙之二进制嵌入式/Linux #C++编程法则 c++开发语言
文章目录**一、`NULL`的标准定义****二、常见实现方式**1.**定义为整数`0`**2.**定义为`0L`或`(void*)0`**（较少见）**三、与C语言的关键区别****四、`NULL`在C++中的问题**1.**重载函数匹配歧义**2.**模板参数推导错误****五、C++11+的替代方案：`nullptr`****六、最佳实践****七、总结**在C++中，NULL的定义与行为
C++ 性能优化指南三月微风 c++性能优化开发语言
C++性能优化指南（针对GCC编译器，面向高级工程师面试）代码优化面试常问点：如何避免不必要的对象拷贝？为什么要用引用或std::move？虚函数调用有什么性能开销？原理解释：传递对象时按值会拷贝整个对象，特别是大对象会频繁分配/释放内存，影响性能；应尽量改用引用或指针传递。C++11引入移动语义（move），允许“窃取”临时对象的资源，避免深拷贝。虚函数调用需要先通过对象的虚函数表指针（vptr
C++中的智能指针（1）：unique_ptr
一、背景普通指针是指向某块内存区域地址的变量。如果一个指针指向的是一块动态分配的内存区域，那么即使这个指针变量离开了所在的作用域，这块内存区域也不会被自动销毁。动态分配的内存不进行释放则会导致内存泄漏。如果一个指针指向的是一块已经被释放的内存区域，那么这个指针就是悬空指针。使用悬空指针会造成不可预料的后果。如果我们定义了一个指针但未初始化使其指向有效的内存区域时，这个指针就成了野指针。使用野指针访
第三章：网络安全基础——构建企业数字防线阿贾克斯的黎明网络安全 web安全安全
目录第三章：网络安全基础——构建企业数字防线3.1网络协议安全深度解析3.1.1TCP/IP协议栈安全漏洞图谱3.1.2关键安全协议剖析3.2网络攻击全景防御3.2.1OWASPTop102023最新威胁3.2.2高级持续性威胁(APT)防御3.3网络安全设备部署指南3.3.1下一代防火墙(NGFW)配置要点3.3.2IDS/IPS系统部署方案3.4企业网络架构安全设计3.4.1安全分区最佳实践3
【亲测免费】 Mamba：快速跨平台的包管理器林梦雅
Mamba：快速跨平台的包管理器项目基础介绍和主要编程语言Mamba是一个用C++重新实现的Conda包管理器。它旨在提供比传统Conda更快的包管理和依赖解析速度。Mamba的核心部分使用C++编写，以确保高效性和性能。同时，Mamba也使用了Python和其他一些辅助语言来实现其功能。项目核心功能Mamba的核心功能包括：快速依赖解析：利用libsolv库进行高效的依赖解析，这是RedHat、
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts