北海

C++ 哈希的应用【布隆过滤器】

✨个人主页： 北海
所属专栏： C++修行之路
操作环境： Visual Studio 2022 版本 17.6.5

文章目录

前言
️正文
- 1、字符串比较
- 2、布隆过滤器的概念
- 3、布隆过滤器的实现
- - 3.1、基本结构
  - 3.2、插入
  - 3.3、查找
  - 3.4、删除
  - 3.5、测试
  - 3.6、优化方案
- 4、布隆过滤器小结
- 5、海量数据面试题（哈希切割）
- - 5.1、题目一
  - 5.2、题目二
总结

前言

注册账号是进行网络冲浪的第一步操作，而拥有一个具有个性且独一无二的用户昵称是非常重要的，很多人在填写昵称时，常常会看到 此昵称已存在 的提示，系统是如何快速知道当前昵称是否存在呢？总不能挨个去遍历对比吧，这时候就需要我们本文中的主角： 布隆过滤器

️正文

1、字符串比较

常见的字符串比较方法是 按 ASCII 码值进行比较，直到两个字符串同时结束，说明两者一致

比如字符串1 abcdef 和字符串2 azbmcy
显然两个字符串不一样

这种比较方法很直接，也很可靠，但缺点也很明显：需要对字符串进行遍历
一个字符串还好，如果是几千万个字符串呢？不但需要消耗大量存储空间，查找效率也很低，此时填写个昵称，服务器都要跑一会才有反映，这是用户所无法容忍的

因此人们想出了另一个方法，利用哈希映射 的思想，计算出 哈希值，存储这个值即可，可以借此 标识字符串是否存在
在进行字符串（昵称）比较时，只需要计算出对应的 哈希值，然后看看该位置是否存在即可

哈希值 也是一个整数啊，可以利用位图进行设置，查找字符串时，本质上是在 查找哈希值是否在位图中存在

字符串有千万种组合，但字符是有限的，难免会出现误判的情况（此处的 哈希函数 为每个字符相加）

为了尽可能降低 误判率，在位图的基础之上设计出了 布隆过滤器

接下来看看什么是 布隆过滤器 吧

2、布隆过滤器的概念

这里是布隆可不是 英雄联盟中的 弗雷尔卓德之心布隆，毕竟他也不能解决字符串比较问题，他只是 召唤师峡谷 中的一个坦克，主要负责 过滤（吸收） 敌方的伤害

布隆过滤器 是由 布隆（Burton Howard Bloom） 在 1970 年提出的一种 紧凑型的、比较巧妙 的 概率型数据结构，特点是 高效地插入和查询

布隆过滤器 的核心在于通过添加 哈希函数 来 降低误判率

举个例子，如果每个人的名字都只有一个字，那么肯定存在很多重名的情况，但如果把名字字数增多，重复的情况就会大大缓解

所以 布隆过滤器 其实很简单，无非就是映射字符串时，多安排几个不一样的 哈希函数，多映射几个 比特位，只有当每个 比特位 的为 1 时，才能验证这个字符串是存在的

3、布隆过滤器的实现

3.1、基本结构

布隆过滤器 离不开位图，此时可以搬出之前实现过的 位图结构

既然需要增加 哈希函数，我们可以在模板中添加三个 哈希函数 的模板参数以及待存储的数据类型 K

namespace Yohifo
{
	template<size_t N,
			class K,
			class Hash1,
			class Hash2,
			class Hash3>
	class BloomFilter
	{
	public:
		//……

	private:
		Yohifo::bitset<N> _bits;	//位图结构
	};
}

显然，这三个 哈希函数 的选择是十分重要的，我们在这里提供三种较为优秀的 哈希函数（字符串哈希算法），分别是 BKDRHash、APHash 以及 DJBHash

函数原型如下（写成 仿函数 的形式，方便传参与调用）：

struct BKDRHash
{
    size_t operator()(const std::string& str)
    {
        size_t hash = 0;
        for (auto e : str)
        {
            hash = hash * 131 + (size_t)e;
		}
		
        return hash;
    }
};

struct APHash
{
    size_t operator()(const std::string& str)
    {
        size_t hash = 0;
        for (auto e : str)
        {
            if (((size_t)e & 1) == 0)
            {
                hash ^= ((hash << 7) ^ (size_t)e ^ (hash >> 3));
            }
            else
            {
                hash ^= (~((hash << 11) ^ (size_t)e ^ (hash >> 5)));
            }
        }

        return hash;
    }
};

struct DJBHash
{
    size_t operator()(const std::string& str)
    {
        if (str.empty())
            return 0;

        size_t hash = 5381;
        for (auto e : str)
        {
            hash += (hash << 5) + (size_t)e;
        }

        return hash;
    }
};

因为 布隆过滤器 中最常存储的数据类型是 字符串，并且三个 哈希函数 我们也已经有了，所以可以将 布隆过滤器 中模板添加上 缺省值

template<size_t N,
		class K = std::string,
		class Hash1 = BKDRHash,
		class Hash2 = APHash,
		class Hash3 = DJBHash>

如何创建一个布隆过滤器？

BloomFilter<100> bf;    //最大值为 100 的布隆过滤器

3.2、插入

插入无非就是利用三个 哈希函数 计算出三个不同的 哈希值，然后利用位图分别进行设置就好了

void set(K& key)
{
    size_t HashI1 = Hash1()(key) % N;   //% N 是为了避免计算出的哈希值过大
    _bits.set(HashI1);

    size_t HashI2 = Hash2()(key) % N;
    _bits.set(HashI2);

    size_t HashI3 = Hash3()(key) % N;
    _bits.set(HashI3);
}

注意： 布隆过滤器的插入操作是一定会成功的，因为不管是什么字符串，都可以在其对应的位置留下痕迹

3.3、查找

查找某个字符串时，需要判断它的每个 哈希值 是否都存在，如果有一个不存在，那么这个字符串必然是不存在的

 bool test(const K& key)
 {
     //过滤不存在的情况，至于是否存在，还得进一步判断
     size_t HashI1 = Hash1()(key) % N;
     if (_bits.test(HashI1) == false)
         return false;

     size_t HashI2 = Hash2()(key) % N;
     if (_bits.test(HashI2) == false)
         return false;

     size_t HashI3 = Hash3()(key) % N;
     if (_bits.test(HashI3) == false)
         return false;

     //经过层层过滤后，判断字符串可能存在
     return true;
 }

查找函数可以很好的体现过滤的特性

如何判断一个人是否存在
不能盲目去查找，而是应该根据姓名，查询身份证号、住址等个人信息，如果这些信息都没有，那么就说明这个人不存在，因为这些信息足够过滤出结果了；如果出现重名或信息重复的情况，则需要进一步判断，这就是说明 通过过滤判断 “存在” 是不准确的，但判断 “不存在” 是准确的

布隆过滤器判断 “不在” 是准确的，判断 “在” 是不准确的

比如，字符串1映射了 1、6、7 号位置，字符串2映射了 2、4、5 号位置，字符串3映射了 1、3、4 号位置，虽然这三个字符串不会相互影响，但如果此时字符串4映射的是 1、2、3 号位置，会被误断为存在，理论上 字符串存储位置越密集，误判率越高

所以对于一些敏感数据，如果要判断是否存在，不能只依靠 布隆过滤器，而是使用 布隆过滤器 + 数据库 的方式进行双重验证

当然，如果 布隆过滤器 判断字符串不存在，那么就是真的不存在，因为这是绝对准确的

布隆过滤器 能容忍误判的场景：注册时，判断昵称是否存在

3.4、删除

一般的 布隆过滤器 不支持删除，一旦进行了删除（重置），会影响其他字符串

表面上只删除了 “腾讯”，但实际上影响了 “百度”，在验证 “百度” 是否存在时，会被判断为 不存在，此时只有三个字符串，如果有更多呢？造成的影响是很大的，所以对于一般的 布隆过滤器，是不支持删除操作的

如何让布隆过滤器支持删除？
关于共用同一份资源这个问题，我们以前就已经见过了，比如 命名管道，当我们试图多次打开同一个 命名管道 时，操作系统实际上并不会打开多次，因为这样是很影响效率的，实际每打开一次 命名管道，其中的 计数器++，当关闭 命名管道 时，计数器--，直到 计数器 为 0 时，命名管道 才会被真正关闭

这不就是 引用计数 的思想吗？

我们可以给每一个 比特位 带上一个 引用计数器，用来表示当前位置存在几个映射关系，这样 布隆过滤器 就能支持删除操作了

但这未免也太本末倒置了，位图的优点是 高效且空间利用率高，如果给每一个 比特位 都挂上一个 引用计数器，会导致位图占用的内存资源膨胀，浪费很多不必要的空间，并且删除操作需求不大，没必要添加

3.5、测试

接下来测试一下 布隆过滤器 是否有用

void TestBloomFilter1()
{
    BloomFilter<100> bf;    //最大值为 100 的布隆过滤器

    bf.set("aaaaa");
    bf.set("bbbbb");
    bf.set("ccccc");
    bf.set("ddddd");
    bf.set("eeeee");

    std::cout << "bbbbb: " << bf.test("bbbbb") << std::endl;
    std::cout << "ddddd: " << bf.test("ddddd") << std::endl;

    std::cout << "============" << std::endl;

    std::cout << "aaaa: " << bf.test("aaaa") << std::endl;  //相似字符串
    std::cout << "CCCCC: " << bf.test("CCCCC") << std::endl;
    std::cout << "zzzzz: " << bf.test("zzzzz") << std::endl;    //不相似字符串
    std::cout << "wwwww: " << bf.test("wwwww") << std::endl;
}

可以正确进行判断，接下来看看设置的每个字符串的 哈希值 是多少

同时在三个 哈希值 的叠加下，误判的概率被大大降低了，尽管如此，在判断字符串存在时，仍然存在较高的 误判率，可以通过下面的程序计算 误判率

测试方法：插入约 10 w 个字符串（原生），对原字符串进行微调后插入（近似），最后插入等量的完全不相同的字符串（不同），分别看看 原生 与 近似，原生 与 不同 字符串之间的误判率

void TestBloomFilter2()
{
   //测试误判率
   //构建一组字符串 + 一组相似字符串 + 一组完全不同字符串
   //通过 test 测试误判率

   const size_t N = 100000;	//字符串数
   std::string str = "https://blog.csdn.net/weixin_61437787?spm=1000.2115.3001.5343";

   //构建原生基本的字符串
   std::vector<std::string> vsStr(N);
   for (size_t i = 0; i < N; i++)
   {
       std::string url = str + std::to_string(i);
       vsStr[i] = url;	//保存起来，后续要用
   }

   //构建相似的字符串
   std::vector<std::string> vsSimilarStr(N);
   BloomFilter<N> bfSimilarStr;
   for (size_t i = 0; i < N; i++)
   {
       std::string url = str + std::to_string(i * -1);
       vsSimilarStr[i] = url;
       bfSimilarStr.set(url);
   }

   //构建完全不一样的字符串
   str = "https://leetcode.cn/problemset/all/";
   std::vector<std::string> vsDiffStr(N);
   BloomFilter<N> bfDiffStr;
   for (size_t i = 0; i < N; i++)
   {
       std::string url = str + std::to_string(i);
       vsDiffStr[i] = url;
       bfDiffStr.set(url);
   }

   //误判率检测：原生 <---> 近似
   double missVal = 0;
   for (auto e : vsStr)
   {
       if (bfSimilarStr.test(e) == true)
           missVal++;
   }

   //误判率检测：原生 <---> 不同
   double diffVal = 0;
   for (auto e : vsStr)
   {
       if (bfDiffStr.test(e) == true)
           diffVal++;
   }

   std::cout << "原生 <---> 近似 误判率：" << missVal / N * 100 << "%" << std::endl;
   std::cout << "原生 <---> 不同 误判率：" << diffVal / N * 100 << "%" << std::endl;
}

显然，此时存在很高的误判率

3.6、优化方案

可以从两个方面进行优化：

增加哈希函数的个数（不是很推荐）
扩大布隆过滤器的长度，使数据更分散

因此我们可以控制 布隆过滤器 的长度，降低 误判率

如何理解空间扩大后，误判率会降低？

想想 地广人稀的西伯利亚 和 地狭人稠的香港，人口越稠密，找人时越有可能发生误判

那么如何选择 布隆过滤器 的长度，做到 平衡误判率与空间占用呢？

《详解布隆过滤器的原理，使用场景和注意事项》

经过计算得出，长度为 3~8 时，效果最好

实际位图的大小为 N * _len

对原来的 布隆过滤器 进行修改，结合 误判率与空间，选择较为折中的 6 作为 布隆过滤器 的长度

template<size_t N,
		class K = std::string,
		class Hash1 = BKDRHash,
		class Hash2 = APHash,
		class Hash3 = DJBHash>
class BloomFilter
{
       static const int _len = 6;   //布隆过滤器的长度
       static const int _size = N * _len; //位图的大小
public:
       void set(const K& key)
       {
           size_t HashI1 = Hash1()(key) % _size;   //% N 是为了避免计算出的哈希值过大
           _bits.set(HashI1);

           size_t HashI2 = Hash2()(key) % _size;
           _bits.set(HashI2);

           size_t HashI3 = Hash3()(key) % _size;
           _bits.set(HashI3);
       }

       bool test(const K& key)
       {
           //过滤不存在的情况，至于是否存在，还得进一步判断
           size_t HashI1 = Hash1()(key) % _size;
           if (_bits.test(HashI1) == false)
               return false;

           size_t HashI2 = Hash2()(key) % _size;
           if (_bits.test(HashI2) == false)
               return false;

           size_t HashI3 = Hash3()(key) % _size;
           if (_bits.test(HashI3) == false)
               return false;

           //经过层层过滤后，判断字符串可能存在
           return true;
       }

private:
	Yohifo::bitset<_size> _bits;	//位图结构
};

此时再来看看之前的测试：

误判率降至 5% 左右

对于 用户登录时检测昵称是否存在 这件事上，已经足够用了

如果想要最求更高的准度，可以使用 布隆过滤器 + 数据库 双重验证

4、布隆过滤器小结

总的来说，作为 哈希思想 的衍生品，布隆过滤器 实现了字符串的 快速查找与极致的空间利用，在需要判断字符串是否存在的场景中，判断 “不在”，是值得信赖的

优点：

查找效率极高，为 O(K)，其中 K 表示哈希函数的个数
哈希函数之间并没有直接关系，方便进行硬件计算
数据量很大时，布隆过滤器可以表示全集
可以利用多个布隆过滤器进行字符串的交集、并集、差集运算
在可以容忍误判率的场景中，布隆过滤器优于其他数据结构
布隆过滤器中存储的数据无法逆向复原，具有一定的安全性

缺点：

存在一定的误判性
无法对元素本身进行操作，仅能判断存在与否
一般不支持删除功能
采取计数删除的方案时，可能存在计数回绕的问题

实际应用场景：

注册时对于昵称、用户名、手机号的验证
减少磁盘 IO 或者网络请求，因为一旦一个值必定不存在的话，我们可以不用进行后续昂贵的查询请求

总之，能被 布隆过滤器 拦截（过滤）下来的数据，一定是不存在的

5、海量数据面试题（哈希切割）

5.1、题目一

给两个文件，分别有 100 亿个 query，我们只有 1 GB 内存，如何找到两个文件交集？分别给出
精确算法和近似算法

query 指 查询语句，比如 网络请求、SQL 语句等，假设一个 query 语句占 50 Byte，单个文件中的 100 亿个 query 占 500 GB 的空间，两个文件就是 1000 GB

下面来看看解法

近似解法：借助布隆过滤器，先存储其中一个文件的 query 语句，这里给每个 query 语句分配 4 比特位，100 亿个就占约 1 GB 的内存，可以存下，存储完毕后，再从另一个文件读取 query 语句，判断是否在布隆过滤器中，“在” 的就是交集。因为布隆过滤器判断 “在” 不准确，符合题目要求的近似算法

精确解法：对于这种海量数据，需要用到哈希分割，我们这里把单个文件（500 GB 数据）分割成 1000 个小文件，平均每个文件大小为 512 Mb，再将小文件读取到内存中；另一个文件也是如此，读取两个大文件中的小文件后，可以进行交集查找，再将所有小文件中的交集统计起来，就是题目所求的交集了

此时存在一个问题：如果我们是直接平均等分成 1000 个小文件的话，我们也不知道小文件中相似的 query 语句位置，是能把每个小文件都进行匹配对比，这样未免为太慢了

所以不能直接平均等分，需要使用 哈希分割 进行切分

i = HashFunc(query) % 1000

不同的 query 会得到不同的下标 i，这个下标 i 决定着这条 query 语句会被存入哪个小文件中，显然，一样的 query 语句计算出一样的下标，也就意味着它们会进入下标相同的小文件中，经过 哈希切割 后，只需要将 大文件 A 中的小文件 0 与 大文件 B 中的小文件 0 进行求交集的操作就行了，这样能大大提高效率

但是，此时存在一个 问题：如果因哈希值一致，而导致单个小文件很大呢？

此时如果小文件变成了 1GB、2GB、3GB 甚至更大，就无法被加载至内存中（算法还有消耗）

解决方法很简单：借助不同的哈希函数再分割

即使在同一个小文件中，不同的 query 语句经过不同的 哈希函数 计算后，仍可错开，怕的是 存在大量重复的 query，此时 哈希函数 就无法分割了，因为计算出的 哈希值 始终一致

所以面对小文件过大的问题，目前有两条路可选：

大多都是相同、重复的 query，无法分割，只能按照大小，放到其他小文件中
大多都是不相同的 query，可以使用哈希函数再分割

这两条路都很好走，关键在于如何选择？
小文件中实际的情况我们是无法感知的，但可以通过特殊手段得知：探测

对于大于 512 Mb 的小文件，我们可以对其进行读取，判断属于情况1、还是情况2

首先准备一个 unorder_set，目的很简单：去重
读取文件中的 query 语句，存入 unordered_set 中
如果小文件读取结束后，没有发生异常情况，说明属于情况1：大多都是相同、重复的 query 语句，把这些重复率高的数据打散，放置其他 512 Mb 的小文件中
如果小文件读取过程中，出现了一个异常，捕获结果为 bad_alloc，说明读取到的大多都是不重复的 query 语句，因为我们内存只有 1 GB，抛出的异常是 内存爆了，异常的抛出意味着这个小文件属于情况2，可以使用其他的哈希函数对其进行再分割，分成 512 Mb 的小文件

如此一来，这个文件就被解决了，核心在于：利用哈希切割将数据分为有特性的小文件、利用抛异常得知小文件的实际情况

5.2、题目二

给一个超过 100 GB大小的 log file, log 中存着 IP 地址, 设计算法找到出现次数最多的 IP 地址？

这题本质上也是在考 哈希分割，将 log file 文件中的 IP 地址看作上一题中的 query 语句，得知文件大小约为 500 GB

因为这里没有内存限制，我们可以将其分为 500 个小文件，每个小文件大小为 1 GB

这里分为小文件的目的是 让相同的 IP 分至同一个小文件中

针对较大的小文件，依然采取 其他哈希函数继续分割 或 分给其他小文件的做法

读取单个小文件时，利用 unordered_map 统计 IP 地址的出现次数，读取完毕后，遍历 unordered_map 即可得知出现次数最多的 IP 地址

与上题条件相同，如何找到 Top K 的 IP ？如何直接用 Linux 系统命令实现？

涉及 Top K 的问题都可以通过 优先级队列（堆） 解决，在第一问的基础上，构建一个大小为 K 的小堆，将高频出现的 IP 地址入堆，筛选出 Top K 个 IP 即可

至于如何利用 Linux 命令解决？

sort log_file | uniq -c | sort -nrk1,1 | head -K

解释：

sort log_file 表示对 log_file 文件进行排序
uniq -c 表示统计出其中每个 IP 的出现次数
sort -nrk1,1 表示按照每个 IP 的出现次数再进行排序
head -k 表示选择前 k 个 IP 地址显示

注意： 以上操作都需要借助管道 | 因为它们都是有关联性的

总结

以上就是本次关于 C++ 哈希的应用【布隆过滤器】的全部内容了，在本文中我们主要学习了布隆过滤器的相关知识，再一次对哈希思想有了更深层次的理解（多组映射），在简单模拟实现布隆过滤器之后，顺便解决了几道海量数据面试题，从中学到了哈希分割这一重要思想，哈希是一个被高频使用的工具，因为它实在是太香了，想要玩的更溜，还需要勤加练习

相关文章推荐

C++ 进阶知识

C++ 哈希的应用【位图】

C++【哈希表的完善及封装】

C++【哈希表的模拟实现】

C++【初识哈希】

C++【一棵红黑树封装 set 和 map】

你可能感兴趣的:(C++修行之路,c++,哈希算法,开发语言)

c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
向内而求陈陈_19b4
10月27日，阴。阅读书目:《次第花开》。作者:希阿荣博堪布，是当今藏传佛家宁玛派最伟大的上师法王，如意宝晋美彭措仁波切颇具影响力的弟子之一。多年以来，赴海内外各地弘扬佛法，以正式授课、现场开示、发表文章等多种方法指导佛学弟子修行佛法。代表作《寂静之道》、《生命这出戏》、《透过佛法看世界》自出版以来一直是佛教类书籍中的畅销书。图片发自App金句:1.佛陀说，一切痛苦的根源在于我们长期以来对自身及外
放下是一段成长的修行小莳玥
人来到这个世界上，只有两件事：生和死。一件事已经做完了，另一件你还急什么呢?是人，都有七情六欲。是心，都有喜怒哀乐，这些再正常不过了。别总抱怨自己活得累，过得辛苦。永远记住：舒坦是留给死人的。苦，才是生活；累，才是工作；变，才是命运；忍，才是历练；容，才是智慧；静，才是修养；舍，才会得到；做，才会拥有。人生，活得太清楚，才是最大的不明白。有些事，看得很清，却说不清；有些人，了解很深，却猜不透；有些
【JS】执行时长(100分) |思路参考+代码解析（C++） l939035548 JS 算法数据结构 c++
题目为了充分发挥GPU算力，需要尽可能多的将任务交给GPU执行，现在有一个任务数组，数组元素表示在这1秒内新增的任务个数且每秒都有新增任务。假设GPU最多一次执行n个任务，一次执行耗时1秒，在保证GPU不空闲情况下，最少需要多长时间执行完成。题目输入第一个参数为GPU一次最多执行的任务个数，取值范围[1,10000]第二个参数为任务数组长度，取值范围[1,10000]第三个参数为任务数组，数字范围
基于CODESYS的多轴运动控制程序框架：逻辑与运动控制分离，快速开发灵活操作 GPJnCrbBdl python 开发语言
基于codesys开发的多轴运动控制程序框架，将逻辑与运动控制分离，将单轴控制封装成功能块，对该功能块的操作包含了所有的单轴控制（归零、点动、相对定位、绝对定位、设置当前位置、伺服模式切换等等）。程序框架由主程序按照状态调用分归零模式、手动模式、自动模式、故障模式，程序状态的跳转都已完成，只需要根据不同的工艺要求完成所需的动作即可。变量的声明、地址的规划都严格按照C++的标准定义，能帮助开发者快速
C++ | Leetcode C++题解之第409题最长回文串 Ddddddd_158 经验分享 C++Leetcode 题解
题目：题解：classSolution{public:intlongestPalindrome(strings){unordered_mapcount;intans=0;for(charc:s)++count[c];for(autop:count){intv=p.second;ans+=v/2*2;if(v%2==1andans%2==0)++ans;}returnans;}};
C++菜鸟教程 - 从入门到精通第二节 DreamByte c++
一.上节课的补充(数据类型)1.前言继上节课,我们主要讲解了输入,输出和运算符,我们现在来补充一下数据类型的知识上节课遗漏了这个知识点,非常的抱歉顺便说一下,博主要上高中了,更新会慢,2-4周更新一次对了,正好赶上中秋节,小编跟大家说一句:中秋节快乐!2.int类型上节课,我们其实只用了int类型int类型,是整数类型,它们存贮的是整数,不能存小数(浮点数)定义变量的方式很简单inta;//定义一
开启你的思维成长之路希思维
图片发自App很多时候我们都羡慕别人家的孩子思维敏捷，记忆超强，脑回路清晰等，认为那些都是天生的能力，而自己要达到那样的境界几乎不可能，殊不知每个人都有一个强大的小宇宙，就看你是否找到了开启你思维小宇宙的方法。我们每个人的大脑都具有无限潜能，大部分人只开发出10-20%，还有很多潜力深埋于冰山底，而如何找到自己思维的动力呢?首先就是要了解我们神奇的大脑，从大脑神经元素，到神经回路的形成，知晓大脑思
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
2023.5.10 周三早7:38 努力逆流而上
榜样的力量前一段时间追一个《一生一世》的电视剧，脑残剧，但居中的周生辰，稳重。润玉一般的性格，坚持着10年如一日的自律习惯，养成的性格也是这样温文尔雅，虽然是剧中塑造，但我感觉现实中一定是有的，让我觉得人生就是这样的修行，自律不是强迫自己，是形成的习惯，坚持的习惯！结果五一回家，太无聊，看了韩剧的《继承者》让孩子也跟着一起看手机，昨天跑了步，但发现没有很快乐，不知道起的太晚还是怎么着，7点的大街上
C++ lambda闭包消除类成员变量 barbyQAQ c++c++java 算法
原文链接：https://blog.csdn.net/qq_51470638/article/details/142151502一、背景在面向对象编程时，常常要添加类成员变量。然而类成员一旦多了之后，也会带来干扰。拿到一个类，一看成员变量好几十个，就问你怕不怕？二、解决思路可以借助函数式编程思想，来消除一些不必要的类成员变量。三、实例举个例子：classClassA{public:...intfu
2021 CCF 非专业级别软件能力认证第一轮（CSP-J1）入门级C++语言试题（第三大题：完善程序代码） mmz1207 c++csp
最近有一段时间没更新了，在准备CSP考试，请大家见谅。（1）有n个人围成一个圈，依次标号0到n-1。从0号开始，依次0，1，0，1...交替报数，报到一的人离开，直至圈中剩最后一个人。求最后剩下的人的编号。#includeusingnamespacestd;intf[1000010];intmain(){intn;cin>>n;inti=0,cnt=0,p=0;while(cnt#includeu
《 C++ 修炼全景指南：九》打破编程瓶颈！掌握二叉搜索树的高效实现与技巧 Lenyiin C++修炼全景指南技术指南 c++算法 stl
摘要本文详细探讨了二叉搜索树（BinarySearchTree,BST）的核心概念和技术细节，包括插入、查找、删除、遍历等基本操作，并结合实际代码演示了如何实现这些功能。文章深入分析了二叉搜索树的性能优势及其时间复杂度，同时介绍了前驱、后继的查找方法等高级功能。通过自定义实现的二叉搜索树类，读者能够掌握其实际应用，此外，文章还建议进一步扩展为平衡树（如AVL树、红黑树）以优化极端情况下的性能退化。
20个新手学习c++必会的程序输出*三角形、杨辉三角等（附代码） X_StarX c++学习算法大学生开发语言数据结构
示例1:HelloWorld#includeusingnamespacestd;intmain(){coutusingnamespacestd;intmain(){inta=5;intb=10;intsum=a+b;coutusingnamespacestd;intfactorial(intn){if(nusingnamespacestd;voidprintFibonacci(intn){intt
C++八股 Petrichorzncu 八股总结 c++开发语言
这里写目录标题C++内存管理C++的构造函数，复制构造函数，和析构函数深复制与浅复制：构造函数和析构函数哪个能写成虚函数，为什么？C++数据结构内存排列结构体和类占用的内存：==虚函数和虚表的原理==虚函数虚表（Vtable）虚函数和虚表的实现细节==内存泄漏==指针的工作原理函数的传值和传址new和delete与malloc和freeC++内存区域划分C++11新特性C++常见新特性==智能指针
【2022 CCF 非专业级别软件能力认证第一轮（CSP-J1）入门级 C++语言试题及解析】汉子萌萌哒 CCF noi 算法数据结构 c++
一、单项选择题(共15题，每题2分，共计30分；每题有且仅有一个正确选项)1.以下哪种功能没有涉及C++语言的面向对象特性支持：()。A.C++中调用printf函数B.C++中调用用户定义的类成员函数C.C++中构造一个class或structD.C++中构造来源于同一基类的多个派生类题目解析【解析】正确答案:AC++基础知识，面向对象和类有关，类又涉及父类、子类、继承、派生等关系，printf
《 C++ 修炼全景指南：十》自平衡的艺术：深入了解 AVL 树的核心原理与实现 Lenyiin C++修炼全景指南技术指南 c++数据结构 stl
摘要本文深入探讨了AVL树（自平衡二叉搜索树）的概念、特点以及实现细节。我们首先介绍了AVL树的基本原理，并详细分析了其四种旋转操作，包括左旋、右旋、左右双旋和右左双旋，阐述了它们在保持树平衡中的重要作用。接着，本文从头到尾详细描述了AVL树的插入、删除和查找操作，配合完整的代码实现和详尽的注释，使读者能够全面理解这些操作的执行过程。此外，我们还提供了AVL树的遍历方法，包括中序、前序和后序遍历，
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
误落尘网中，一去三十年不会功夫的谭大侠
图片发自App图片发自App图片发自App《财富自由之路》中开篇就讲述了财富自由的目的是为了时间自由，高中觉得每个月一千块是财富自由，大学觉得每个月两千块是财富自由，毕业时觉得每个月五千是财富自由，现在感觉每个月一万都不一定自由。思来想去，货币贬值也没有这么快，还是自己欲望太大了，欲壑难填。大学有一个梦想去西藏，当时觉得两千块就能去，现在感觉有一万都不够。膨胀了啊！曾经想过时间自由了干什么，我就半
如何自学软件编程？零基础自学编程入门指南 _pangzi
前言零基础自学编程的动力是什么?在开启学习编程之路的时候必须搞清楚自己为什么要学编程?是因为工资高?还是对编程有浓厚的兴趣？还有自己有一定的编程基础想要继续提升自己？其实对于这个问题需要具体分析，如果是单纯看到程序员工资高，而自己本身并没有什么兴趣，那我不建议自学，可以选择参加培训或者不要进入编程领域不然自己学不会没有获得高薪，反而浪费了大把的时间，如果方法不对，反而会打击自信心。下面小编针对学习
c++ opencv4.3 sift匹配图像处理大大大大大牛啊图像处理 opencv实战代码讲解 opencv sift c++opencv4 特征点
c++opencv4.3sift匹配main.cppintmain(){vectorkeypoints1,keypoints2;Matimg1,img2,descriptors1,descriptors2;intnumF
《 C++ 修炼全景指南：四》揭秘 C++ List 容器背后的实现原理，带你构建自己的双向链表 Lenyiin 技术指南 C++修炼全景指南 c++list 链表 stl
本篇博客，我们将详细讲解如何从头实现一个功能齐全且强大的C++List容器，并深入到各个细节。这篇博客将包括每一步的代码实现、解释以及扩展功能的探讨，目标是让初学者也能轻松理解。一、简介1.1、背景介绍在C++中，std::list是一个基于双向链表的容器，允许高效的插入和删除操作，适用于频繁插入和删除操作的场景。与动态数组不同，list允许常数时间内的插入和删除操作，支持双向遍历。这篇文章将详细
c++ 内存处理函数 heeheeai c++开发语言
在C语言的头文件中，memcpy和memmove函数都用于复制内存块，但它们在处理内存重叠方面存在关键区别：内存重叠:memcpy函数不保证在源内存和目标内存区域重叠时能够正确复制数据。如果内存区域重叠，memcpy的行为是未定义的，可能会导致数据损坏或程序崩溃。memmove函数能够安全地处理源内存和目标内存区域重叠的情况。它会确保在复制过程中不会覆盖尚未复制的数据，从而保证数据的完整性。效率:
【c++基础概念深度理解——堆和栈的区别，并实现堆溢出和栈溢出】 XWWW668899 C++基本概念 c++c语言开发语言青少年编程
文章目录概要技术名词解释栈溢出和堆溢出小结概要学习C++语言，避免不了要好好理解一下堆（Heap）和栈（Stack），有助于更好地管理内存，以及如何写出一段程序“成功实现”堆溢出和栈溢出。技术名词解释理解东西最快的方式是根据自己目前能理解的词语去关联新的概念，不断的纠正，向正确的深度理解靠近，当无限接近的时候也就理解了想要理解的概念。我们经常说堆栈，把这两个名词放到一起。其实，堆是堆，栈是栈，两种
《我的职业是小说家》 simple梦
《我的职业是小说家》：《我的职业是小说家》是村上春树前所未有的自传性作品，历时六年完成。一个人，写作三十五年，十三部长篇小说，超过五十种语言译本。虽然拥有享誉世界的知名度，但关于村上春树，许多事情始终包裹在神秘的面纱中：他是怎样下定决心走上职业小说家之路？对他来说，人生中幸福的事是什么？究竟如何看待芥川奖与诺贝尔文学奖……小说家看似风光，却是份孤独的职业。三十五年来，村上春树在孤独中编织着美妙动人
C++常见知识掌握 nfgo c++开发语言
1.Linux软件开发、调试与维护内核与系统结构Linux内核是操作系统的核心，负责管理硬件资源，提供系统服务，它是系统软件与硬件之间的桥梁。主要组成部分包括：进程管理：内核通过调度器分配CPU时间给各个进程，实现进程的创建、调度、终止等操作。使用进程描述符（task_struct）来存储进程信息，包括状态（就绪、运行、阻塞等）、优先级、内存映射等。内存管理：包括物理内存和虚拟内存管理。通过页表映
python实现规则引擎_规则引擎python weixin_39601511 python实现规则引擎
广告关闭回望2020，你在技术之路上，有什么收获和成长么？对于未来，你有什么期待么？云+社区年度征文，各种定制好礼等你！我正在用python编写日志收集分析应用程序，我需要编写一个“规则引擎”来匹配和处理日志消息。它需要具有以下特点：正则表达式匹配消息本身消息严重性优先级的算术比较布尔运算符我设想一个例子规则可能是这样的：(message~program:messageandseverity>=h
metaRTC5.0 API编程指南(一) metaRTC metaRTC c++c语言 webrtc
概述metaRTC5.0版本API进行了重构，本篇文章将介绍webrtc传输调用流程和例子。metaRTC5.0版本提供了C++和纯C两种接口。纯C接口YangPeerConnection头文件:include/yangrtc/YangPeerConnection.htypedefstruct{void*conn;YangAVInfo*avinfo;YangStreamConfigstreamco
sublime个人设置 bawangtianzun sublime text 编辑器
如何拥有jiangly蒋老师同款编译器(sublimec++配置竞赛向）_哔哩哔哩_bilibiliSublimeText4的安装教程（新手竞赛向）-知乎(zhihu.com)创建文件自动保存为c++打开SublimeText软件。转到"Tools"（工具）>"Developer"（开发者）>"NewPlugin"（新建插件）。在打开的新文件中，粘贴以下代码：importsublimeimport
生老病死贝贝_1
生老病死是生命的必然过程，是人生的必由之路。人生在世不过几十年，所包罗的生、老、病、死是不以人的意志为转移的。我们唯一能做到的就是顺乎自然，珍惜生命，老有所乐，战胜病魔，笑对死亡。生图片发自App“生”不由己，尽管你不愿睁开眼睛，尽管你哭着喊着，但你还是被带到了这个世界，而所有围着你的人包括你的父母，就是要听见你离开母体发出的这一串串生命的哭声，他们才会笑，并且笑得那般的欣慰。是啊，这第一声哭是你
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多