炫酷的伊莉娜

【C++】哈希（位图、布隆过滤器）

一、哈希的应用（位图和布隆过滤器）

1、位图（bitset）

（1）位图概念

【题目】

给 40亿个不重复的无符号整数，没排过序。给一个无符号整数，如何快速判断一个数是否在这 40亿个数中。

遍历 40亿个数，时间复杂度为：O(N)。

先排序，快排：O(NlogN)，再利用二分查找：O(logN)。

将 40亿个数放进 set / unordered_set 中，然后再查找 key 在不在。

位图解决。

前面三种解法看似可行，实际上有很大的问题：内存消耗太大。

40亿个整数要占用多少空间？大约是 16GB。

1GB = 1024 * 1024 * 1024 = 210 * 210 * 210 = 230 （大约是 10 亿 byte）

4GB = 4 * 230 = 232 byte（大约是42亿9九千多万byte）

40亿个 unsigned int 整数 = 40亿 * 4字节 = 160亿字节 = 16 * 10亿字节 ≈ 16GB

（a）这 40亿个数据是放在文件中的，要对这 40亿个整数进行排序：

难道在内存中开一个 16GB 空间的数组存放这些数据吗？显然不太现实，内存消耗太大了。

（b）虽然归并排序可以对文件中的数据做外排序，但是效率很低，磁盘读写速度是很慢的，即使在文件中对 40亿个数据排完了序，但是很难去算出数据的下标位置，不能进行二分查找，那意义也不大。

（c）把数据放进 set / unordered_set 中，因为其底层是链式结构，除了存数据，还要存指针，所以附带的内存消耗更大，需要的空间比 16GB 还要大很多，更不可行。

所以我们一定要从节省内存的角度出发去思考，才能更好的解决问题。同时题目要求是：快速判断。

这里是判断一个数在不在数据集中，仔细想一想，也并不需要把这个数存起来，只需要有个标记去标记某个数在不在就行了。（就好比统计数组中数字的出现次数，我们用数的数值作为下标，在该下标处存储出现的次数，也并没有把数存下来）。标记一个数在不在，最小的标记单位是比特位（0 / 1），我们用一个比特位标记一个数，这样就节省空间了。

这里我们将采用第四种解法：位图。

某个数是否在给定的数据集中，有两种结果：存在 / 不存在，刚好是两种状态，那么可以使用一个二进制比特位来代表某个数是否存在的信息，比如二进制比特位为 1 代表存在，为 0 代表不存在。

我们把数据集的所有数用直接定址法映射到一张二进制表中，并用二进制值（1 / 0）标记其是否存在，这样每个数都有唯一的映射位置，不会出现哈希冲突。如果要判断某个数在不在数据集中时，只需要找到这个数映射到表中的位置，然后查看该位置的比特位为 1 还是 0。

我们是用每个无符号整数 unsigned int 的值来映射其哈希位置（比如 25，就映射到第 25 个二进制位）：

因为 unsigned int 的取值范围是 0 ~ 2³²-1，所以一个无符号整数最小值为 0，最大值为 2³² - 1（4,294,967,295，42亿9千多万）。

所以我们要开有 232 个二进制位的表，才能映射完所有的无符号整数，但实际上只能开到有 2³²-1 个二进制位的表（因为 size_t 最大为 0xffffffff），也就是开 ( 2³²-1 ) / 8 个字节 ≈ 5亿多个字节 ≈ 0.5GB = 512MB 的内存空间。

一个 bit 位标记一个 unsigned int 值，512GB 的内存就可以标记完 42亿9千多万个整数的存在状态了，极大的节省了内存。

注意：位图并没有把整个数据集存储起来，而是将所有数映射到哈希表中，在映射的哈希位置上标记这个数在不在。

【位图概念】

面对判断一个数在不在海量数据中的问题，红黑树和哈希表查找效率是挺高的，但是我们光把海量数据存起来够呛，同时红黑树和哈希表附带的内存消耗，所需空间更大，基于这样的原因，提出了位图这种数据结构。

所谓位图（bitset），就是用每一位来存放某种状态，适用于海量数据，数据无重复的场景。通常是用来判断某个数据存不存在的。在索引、数据压缩方面有很大的应用。

template  class bitset;

位图是用数组实现的，数组的每一个元素的每一个二进制位都表示一个数据，0 表示该数据不存在，1 表示该数据存在。

位图最大的特点就是：快、节省空间，因为它不需要存储数据集，只是标记某个数在不在这个数据集中。

（2）位图的实现

a. 位图的底层结构

如图，我们开一个数组，数组的每个元素是一个 char（8个 bit 位）。如果是一个 int （32 个 bit 位）也可以，只是计算数据映射的比特位的方法略有差别。

这里的 0 ~ 7 是比特位的编号，从右到左依次编号。

问：如何计算这个数据映射在数组中第几个 char(字节) 中的第几个比特位上？

字节位置 = 数据 / 8，得出 x 映射在第几个 char 中。

位位置 = 数据 % 8，得出 x 映射在这个 char 中的第几个比特位上。

注意：如果数组的每个元素是一个 int，改成除以 32 就好了。

比如数据 x = 10，则：

字节位置 = 10 / 8 = 1，说明 10 映射在第 1 个 char（字节）中。

位位置 = 10 % 8 = 2，说明 10 映射在第 1 个 char（字节）中的第 2 个比特位上。

// 位图的结构
namespace xyl
{
	template // N: 非类型模板参数，表示至少需要开N个比特位的存储空间
	class bitset
	{
	public:
        // 构造有N个比特位的位图，等价于要开N/8个字节(char)的空间
		// 为了防止N不是8的整数倍，所以要+1，多开1个字节(char)的空间
		bitset() { _bits.resize(N / 8 + 1, 0); }

		// 把数据x映射的比特位设置成1，表示数据x存在
		void set(size_t x);

		// 把数据x映射的比特位设置成0，表示数据x不存在
		void reset(size_t x);

		// 检测数据x映射的比特位是否为1（即数据x是否存在）
		bool test(size_t x) const;

	private:
		vector _bits; // 位数组
	};
}

b. 位图的一些成员函数

① 位图的构造

默认构造函数：

构造至少有 N 个比特位的位图，等价于开 N / 8个字节（char）的空间
为了防止 N 不是 8 的整数倍，所以要 +1，多开1个字节（char）的空间

bitset()
{
    _bits.resize(N / 8 + 1, 0);
}

② 位图的插入：set

set 函数：修改数据映射的比特位位置。位位置从最右边的位开始计数，即从 0 位置开始计数。

// 把数据 x 映射的比特位设置成1，表示数据x存在
void set(size_t x)
{
    // 计算出这个数据映射在数组中第几个char(字节)中的第几个比特位上
    size_t i = x / 8; // 计算出x映射在第i个char(字节)中
    size_t j = x % 8; // 计算出x映射在第i个char(字节)中的第j个比特位上

    // 把数组中第i个char的第j位设置成1，其它位不受影响
    _bits[i] |= (1 << j);
}

// 分析：
// 比如: 数据5映射在第0个char的第5个比特位
// 现在要用set函数把数据5映射的第0个char的第5个比特位设置成1
0000 1111 -> _bits[0] // 第0个char
0010 0000 -> 1 << 5   // 将1左移5位

// 将1左移5位后的结果按位或上 _bits[0]
  0010 0000 -> 1 << 5
| 0000 1111 -> _bits[0]
-----------------------
  0010 1111 -> _bits[0]  // 此时第0个char的第5个比特位已经被设置成1了

③ 位图的删除：reset

reset 函数：修改数据映射的比特位位置。位位置从最右边的位开始计数，即从 0 位置开始计数。

// 把数据x映射的比特位设置成0，表示数据x不存在
void reset(size_t x)
{
    size_t i = x / 8; // 映射在第i个char中
    size_t j = x % 8; // 映射在第i个char中的第j个比特位上

    // 把数组中第i个char的第j位设置成0，其它位不受影响
    _bits[i] &= (~(1 << j));
}

// 这里需要注意：
_bits[i] ^= (1 << j); // 不能用异或，如果第 j 个比特位本身就是 0，异或之后就变成 1 了。

// 比如: 数据5映射在第0个char的第5个比特位
// 现在要用reset函数把数据5映射的第0个char的第5个比特位设置成0
0010 1111 -> _bits[0] // 第0个char
0010 0000 -> 1 << 5   // 将1左移5位

// 将1左移5位后的结果按位取反，然后按位与上 _bits[0]
  1101 1111 -> ~(1 << 5)
& 0010 1111 -> _bits[0]
-----------------------
  0000 1111 -> _bits[0]  // 此时第0个char的第5个比特位已经被设置成0了

④ 位图的查找：test

test 函数：检测数据 x 映射的比特位是否为 1，即数据 x 是否存在。

// 检测数据 x 映射的比特位是否为1（即数据x是否存在）
// 是1返回true，是0返回false
bool test(size_t x) const
{
    size_t i = x / 8; // 映射在第i个char中
    size_t j = x % 8; // 映射在第i个char中的第j个比特位上

    return _bits[i] & (1 << j);

    //   0000 1111 -> _bits[0]
    // & 0010 0000 -> 1 << 5
    // ----------------------
    //   0000 0000 -> 说明第0个char的第5个比特位是0，数据x不存在
}

c. 如何开出有42亿9千多万个比特位的位图呢？

来映射42亿9千多万个无符号整型数，标记其存在状态。

void test_bitset()
{
    // (size_t)4,294,967,295U
    bitset<-1> bs1;         // 方式一
    bitset<0xffffffff> bs2; // 方式二
}

通过调试可以看到，开了 512MB 的空间（即 4,294,967,295U 个比特位）

（3）位图的应用

快速查找某个数据是否在一个集合中。

排序+去重。

求两个集合的交集、并集等。

操作系统中磁盘块标记。

2、布隆过滤器（bloomfilter）

（1）布隆过滤器提出

我们在使用新闻客户端看新闻时，它会不停地给我们推荐新的内容，每次推荐时都要去重，去掉那些我们已经看过的内容。那么问题来了，新闻客户端推荐系统是如何实现推送去重的？用服务器记录了用户看过的所有历史记录，当推荐系统推荐新闻时会从每个用户的历史记录里进行筛选，过滤掉那些已经存在的记录。如何快速查找呢？

用哈希表存储用户记录，缺点：浪费空间。

用位图存储用户记录，缺点：位图一般只能处理整形，如果内容编号是字符串，就无法处理了。

将哈希与位图结合，即布隆过滤器。

【场景一】

现在有 1亿个 IP 地址（字符串），给你一个 IP，需要快速判断这个 IP 在不在其中，如何处理？

（1）哈希切分。太慢了。
（2）用一个字符串哈希算法，把 IP 地址转换成可以取模的整型（size_t），然后映射到位图的某一个比特位中，进行标记，0 表示这个 IP 不存在，1 表示这个 IP 存在。

问题是：如果不同的 IP 地址映射的是同一个比特位，会发生哈希冲突，可能会存在误判：

判断一个值是否在，就是判断其映射的比特位是否为 1。判断结果是不准确的，可能存在误判。

判断一个值是否不在，就是判断其映射的比特位是否为 0。判断结果一定是准确的。（因为如果这个值在，其映射的比特位一定是 1）。

那该怎么办呢？布隆发现想要判断一个值是否在，变得一定是准确的，几乎是不可能的。因为总会存在哈希冲突。虽然无法解决冲突，但是可以缓解冲突。

对（2）的改进：

一个 IP 映射位图中的一个比特位，冲突概率大，误判概率大。

那么我们对同一个 IP 使用不同的哈希算法，让其映射多个比特位，缓解冲突，降低误判的概率。

虽然还是存在一定的误判，但至少节省了空间。

【场景二】

判断一个人是不是这个学校的学生：

（1）用姓名作为标识，来表示一个人，万一同姓名的人比较多，就会导致误判。
（2）用姓名、性别、出生年月作为标识，来表示一个人，同姓名的人比较多容易导致误判，而同姓名同性别同出生年月的人，可能有，但是数量没有那么多，这样就缓解了冲突，降低误判概率。

核心思想：一个值映射多个位。

（2）布隆过滤器概念

布隆过滤器是由布隆（Burton Howard Bloom）在 1970 年提出的一种紧凑型的、比较巧妙的概率型数据结构，特点是高效地插入和查询，它的实现是一个很长的二进制向量（位数组）和一系列哈希函数。可以用来告诉你 “某样东西一定不存在或者可能存在”，它是用多个哈希函数，将一个数据映射到位图结构中。此种方式不仅可以提升查询效率，也可以节省大量的内存空间。

优点：是空间效率和查询时间 O(1) 都比一般的算法要好的多。

缺点：是有一定的误识别率和删除困难。

核心思想：一个值映射多个位。

问：哈希函数的个数需要权衡一下，映射的位越多，冲突的概率也越低，但是消耗的空间的也越大；但是映射的位少，误判率就会变高，那映射多少位是合理的呢？

问：布隆过滤器的底层就是一个位数组，一次性开 0xffffffff 个位空间也没必要，很浪费，那如何控制开多少个位是合理的呢？

如何选择哈希函数个数和布隆过滤器的长度（并非官方测试结果）：

比如，规定哈希函数个数 k = 3，布隆过滤器长度 m = ( k / ln2 ) * n ≈ 4.2 * n（大约是插入元素个数的 4.2 倍）。

（3）布隆过滤器的插入

向布隆过滤器中插入："baidu"

void set(const K& key) // 把键值key映射的几个比特位设置成 1
{
    // 对键值 Key 使用不同的哈希算法，得到其映射的三个比特位的位置
    // 注意：计算的比特位的位置可能超过了布隆过滤器的长度，需要对长度 len 取模
    size_t index1 = Hash1()(key) % len;
    size_t index2 = Hash2()(key) % len;
    size_t index3 = Hash3()(key) % len;

    // 把键值 key 映射的三个比特位设置成 1
    _bs.set(index1);
    _bs.set(index2);
    _bs.set(index3);
}

（4）布隆过滤器的查找

布隆过滤器的思想是将一个元素用多个哈希函数映射到一个位图中，因此被映射到的位置的比特位一定为 1。

所以可以按照以下方式进行查找：分别计算每个哈希值对应的比特位置存储的是否为零，只要有一个为零，代表该元素一定不在哈希表中，否则可能在哈希表中。

注意：布隆过滤器如果说某个元素不存在时，该元素一定不存在，如果该元素存在时，该元素可能存在，因为有些哈希函数存在一定的误判。

比如：在布隆过滤器中查找 "alibaba" 时，假设 3 个哈希函数计算的哈希值为：1、3、7，刚好和其他元素的比特位重叠，此时布隆过滤器告诉该元素存在，但实该元素是不存在的。

bool test(const K& key) // 检查键值key映射的几个比特位的值，判断键值key在不在
{
    // 对键值 Key 使用不同的哈希算法，得到其映射的三个比特位的位置
    // 注意：计算的比特位的位置可能超过了布隆过滤器的长度，需要对长度len取模
    size_t index1 = Hash1()(key) % len;
    if (_bs.test(index1) == false) 
    {
        return false; // 检测该比特位的值是否为0，若为0，说明不在，直接返回false
    }

    size_t index2 = Hash2()(key) % len;
    if (_bs.test(index2) == false)
    {
        return false;
    }

    size_t index3 = Hash3()(key) % len;
    if (_bs.test(index3) == false)
    {
        return false;
    }
    return true; // 注意：当三个比特位的值都为1时，可能存在误判
}

void test_bloomfilter1()
{
    BloomFilter<100> bf; // 最多向布隆过滤器中插入100个元素
    
    bf.set("alibaba");
    cout << bf.test("alibaba") << endl; // 输出1
    
    cout << bf.test("alibaba") << endl; // 输出0
}

【拓展】测试布隆过滤器的误判率

相似字符串的误判率：测试发现，哈希函数个数和插入元素个数确定情况下，布隆过滤器长度越长，误判率越低。

void test_bloomfilter()
{
    BloomFilter<100> bf; // 最多向布隆过滤器中插入100个元素

    // 1、构造100个不同的字符串，存放到 v1 中
    vector v1;
    for (size_t i = 0; i < 100; i++)
    {
        string url = "https://www.bilibili.com/";
        url += std::to_string(123 + i); // 构造出100个不同的字符串

        v1.push_back(url);
    }

    // 把100个不同的字符串插入到布隆过滤器中
    for (const auto& e : v1) bf.set(e);

    // 2、构造100个不同的相似字符串，存放到 v2 中
    vector v2;
    for (size_t i = 0; i < 100; i++)
    {
        string url = "https://www.bilibili.com/"; // 用了相同的网址
        url += std::to_string(456 + i); // 构造出100个不同的相似字符串

        v2.push_back(url);
    }

    // 检测这100个不同的相似字符串是否在布隆过滤器中（按理来说应该不在）
    size_t count1 = 0;
    for (const auto& e : v2)
    {
        if (bf.test(e)) count1++; // 如果判断在，说明误判了
        // 统计出有多少个字符串误判了
    }

    cout << "相似字符串的误判率：" << (double)count1 / (double)100 << endl;
}

（5）布隆过滤器删除

一般情况下，布隆过滤器不能直接支持删除工作，因为在删除一个元素时，可能会影响其他元素。

比如：删除上图中 "hello" 元素，如果直接将该元素所对应的二进制比特位置 0，"world" 元素也被删除了，因为这两个元素在多个哈希函数计算出的比特位上刚好有重叠。

一种支持删除的方法：将布隆过滤器中的每个比特位扩展成一个小的计数器，记录有多少个值映射到这个位了（比如使用两个比特位来记录，最多可以记录 3 个值），插入元素时给 k 个计数器（k 个哈希函数计算出的哈希地址）加一，删除元素时，给 k 个计数器减一，通过多占用几倍存储空间的代价来增加删除操作。

（6）布隆过滤器优点

增加和查询元素的时间复杂度为：O(K)，（K 为哈希函数的个数，一般比较小），与数据量大小无关。

哈希函数相互之间没有关系，方便硬件并行运算。

布隆过滤器不需要存储元素本身，在某些对保密要求比较严格的场合有很大优势。

在能够承受一定的误判时，布隆过滤器比其他数据结构有这很大的空间优势。

数据量很大时，布隆过滤器可以表示全集，其他数据结构不能。

使用同一组散列函数的布隆过滤器可以进行交、并、差运算。

（7）布隆过滤器缺陷

有误判率，即存在假阳性（False Position），即不能准确判断元素是否在集合中（补救方法：再建立一个白名单，存储可能会误判的数据）。

不能获取元素本身。

一般情况下不能从布隆过滤器中删除元素。

如果采用计数方式删除，可能会存在计数回绕问题。

（8）BloomFilter 的应用场景

布隆过滤器的应用场景：在一些允许误判的地方。

【场景一】

假设这里有一个网站，注册的时候需要每个用户取一个昵称，要求昵称不能重复。用户在注册的时候，输入一个昵称，系统需要判断一下这个昵称是否已被注册。用户输入昵称点击提交后，先到后台数据库中去查，再返回判断这个昵称是否存在的结果。这种方式就太麻烦了。

问：那能否当用户刚输入完昵称后，还没有点提交，切换到下一个输入框，这个时候就会提示用户，该昵称是否被占用呢？

我们可以使用一个布隆过滤器，标记所有使用过的昵称，就能快速判断一个昵称是否被使用过。这里虽然会存在误判，但在这种场景下，误判的影响并不大（因为判断一个昵称没被使用过，一定是准确的。判断一个昵称被使用过，可能存在误判，但没什么影响，大不了换一个昵称）。

【场景二】

问：如果要求判断在或不在的结果都要是准确的，能否使用布隆过滤器呢？

也是可以的，比如验证一个手机号是否在系统中注册过，要求验证结果是准确的。使用一个布隆过滤器，标记所有注册过的手机号，判断这个手机号在不在布隆过滤器中：

如果不在，直接返回结果：未注册。

如果在，因为可能存在误判，所以再去服务器的数据库中查询，然后返回查询结果：未注册 / 已注册。

虽然查询效率降低了，但比起每次判断都去访问数据库，还是要高效不少。有些服务器就会采用这种方式，来提高效率。

【场景三】

比如判断垃圾邮件，垃圾邮件的地址都会被标记映射到一个黑名单（布隆过滤器）中，当有人给你发邮件时，系统会快速判断出这个是否是垃圾邮件，然后进行拦截或分类。

系统判断这个邮件不在黑名单中，一定不会被拦截。
系统判断这个邮件在黑名单中，但这个邮件实际上可能不在黑名单中，误判了，把正常邮件拦截了，但影响不大，在垃圾箱还是能够找到这封正常邮件。

二、海量数据题目

海量数据处理，一般不能用我们常见的数据结构去处理，考验当常见数据结构都失效时该如何处理。

1、哈希切割

给一个超过 100G 大小的 log file（日志文件），log 中存着 IP 地址, 设计算法找到出现次数最多的 IP 地址？与上面讲到的条件相同，如何找到 top K 的 IP？如何直接用 Linux 系统命令实现？

此题不能用位图来处理了，因为位图处理的是整数，而 IP 地址是字符串（比如：192.0.0.1）。这里就需要用到哈希切分，大文件我们处理不了，就想办法把它切分小文件处理。假设我们有 4G 内存，我们就把这个大文件平均切分成 100 份小文件，每一份 1G，但这种平均切分实际上是不行的，因为同一个 IP 可能进入了多份小文件中，想要统计出每个 IP 最终出现的次数都是非常麻烦的，更别说找到出现次数最多的那个 IP 地址了。那该怎么办呢？

使用哈希切分。

切分操作：

先创建 100 个小文件，分别叫 0.txt、1.txt、2.txt、… 99.txt。
然后读取 100G log file，依次获取每个 IP 地址，用字符串哈希算法，把 IP 地址转换成可以取模的整型（size_t），比如使用 BKDR 算法：size_t num = BKDRHash(IP) % 100，然后这个 IP 地址就放入（映射到）第 num.txt 号小文件。依次对所有 IP 进行处理，进入（映射到）对应的小文件。
如果运气好一点，平均下来差不多每个小文件就是 1G 左右；如果运气不好，可能有些小文件是 512MB，有些小文件是 2G，但至少是相对可控的。

问：如果最小的小文件 num.txt 还是过大该怎么办呢？

我们可以限制一个大小，在处理操作之前，先检测一下当前小文件的大小，如果超过 2G，就换一个哈希算法把当前小文件再切小一些。

我们要找到出现次数最多的 IP 地址，在最开始记录下当前小文件中出现次数最多的 IP 地址，然后再读取后面小文件的过程中，不断更新这个 IP 地址，当最后一个小文件读取完，就找到出现次数最多的 IP 地址了。

处理操作：

依次读取每个小文件，比如先读取 0.txt 中所有的 IP，用 map 统计所有 IP 出现的次数，这里统计的 IP 出现次数，就是这个 IP 最终出现的次数。我们记录下 0.txt 中出现次数最多的 IP。

问：这里为什么用了 map 呢？

因为是小文件，内存消耗不大。然后再 clear() 掉 map 中的元素，再读取 1.txt 中所有的 IP，继续统计所有 IP 出现的次数，不断走下去。

如果要找到 topK 的 IP 地址，建立 K 个数的小堆即可。

这里采用哈希切分的关键是：

相同的 IP 地址，一定会进入编号相同的小文件。

因为用字符串哈希算法，同一个 IP 地址转换出来的哈希位置一定是相同的。

可以理解为这里就是 100 个存着文件指针的哈希桶。

2、位图应用（只能处理整数）

（1）给定 100 亿个整数，设计算法找到只出现一次的整数？

前面的题目是：在没排过序的海量数据中快速判断一个数在不在其中，是一个典型的 key 模型。

所以我们只需要用位图标记 2 种状态：存在 / 不存在，用一个比特位 1 / 0 来标记。

而这里是：在海量数据中找到只出现一次的数，不仅要判断这个数在不在，还要知道这个数的出现次数。

错误思路：

显然是不能把这 100亿个整数存储在 map/unordered_map（红黑树/哈希表）中。

正确思路：

我们需要标记 3 种状态：不存在 / 出现一次 / 出现多次，则要用两个比特位来标记。

因为两个比特位有 4 种表现形式 00 / 01 / 10 / 11。00：表示这个数不存在，01：表示这个数只出现一次，10：表示这个数出现多次

然后遍历位图，找到所有 01 标记的位置，此位置映射的就是只出现一次的整数。

问：那这里需要消耗多少空间呢？

这里要注意：虽然有100亿个整数，但并不是开 100亿个比特位的表。这 100亿个 unsigned int 整数的取值范围都是 0 ~ 2³²-1（大约是42亿9千多万个整数），如果每个整数映射一个比特位，需要消耗 ( 2³²-1 ) / 8 个字节 ≈ 5亿多个字节 ≈ 0.5GB 的空间，则每个整数映射两个比特位，需要消耗 1GB 的空间。

具体做法：

方法一：用一个位图，用 2 个连续的比特位标识一个数。需要修改 2 个不同位置的比特位的值，不方便。

方法二：封装两个位图，用两个位图的同一个位置的 2 个比特位来标识一个数。

所以修改两个位图的同一个位置的比特位的值就好了，还可以复用之前写的位图代码。

封装了两个位图，找只出现一次的整数
N：非类型模板参数，表示至少要开 N 个比特位的存储空间。

template
class FindOnceValSet
{
public:   
    void set(size_t x) // 把数据 x 映射的比特位设置成 01，表示数据 x 出现一次
    {
        bool flag1 = _bs1.test(x); // 检测数据 x 在第1个位图中映射的比特位是否为 1
        bool flag2 = _bs2.test(x); // 检测数据 x 在第2个位图中映射的比特位是否为 1

        // 两个比特位分别为 00，说明数据 x 之前不存在
        if (flag1 == false && flag2 == false)
        {
            // 00 -> 01，标识成出现一次
            _bs2.set(x);
        }
        // 两个比特位分别为 01，说明数据 x 之前已经出现一次
        else if (flag1 == false && flag2 == true)
        {
            // 01 -> 10，标识成出现多次
            _bs1.set(x);   // 1
            _bs2.reset(x); // 0
        }
        // 两个比特位分别为 10，说明数据 x 之前已经出现多次了，不用处理
        // 10 -> 10
    }
    
    void print_once_num() // 输出所有只出现一次的数据
    {
        // 遍历位图中的 N 个比特位
        for (size_t i = 0; i < N; i++)
        {
            // 检测两个位图的同一个位置的比特位是否分别为 0、1
            if (_bs1.test(i) == false && _bs2.test(i) == true)
            {
                cout << i << endl; // 输出此位置映射的数据 i
            }
        }
    }
private:
    bitset _bs1; // 位图1
    bitset _bs2; // 位图2
};

void testFindOnceValSet()
{
    int a[] = { 1,20,23,23,20,5,20,7,3,7 }; // 测试数据

    FindOnceValSet<100> bs; // 开至少有100个比特位的位数组
    for (const auto& e : a)
    {
        bs.set(e); // 把数组a的每个元素的出现次数映射到位图bs中
    }

    bs.print_once_num(); // 输出所有只出现一次的数据
}

运行结果：1 3 5

（2）给两个文件，分别有 100 亿个整数，我们只有 1G 内存，如何找到两个文件交集？

分析问题：找到两个文件的交集，只需要判断这个数是否分别在两个文件中，是一个典型的 key 模型。

解决思路：定义两个位图。

位图 1 标识第一个文件中所有数的存在状态（1 存在、0 不存在）。

位图 2 标识第二个文件中所有数的存在状态（1 存在、0 不存在）。

遍历位图中的 N 个比特位，检测两个位图的同一个位置的比特位的值是否都为 1，如果都为 1，说明此位置映射的这个数就是交集。

需要消耗的内存：

因为 unsigned int 整数的取值范围是 0 ~ 2³²-1（大约是42亿9千多万个整数），每个整数映射一个比特位，需要消耗 ( 2³²-1 ) / 8 个字节 ≈ 5亿多个字节 ≈ 0.5GB 的空间，这里开了两个位图，需要消耗 1GB 的空间。

（3）位图应用变形：1 个文件有 100 亿个 int，1G 内存，设计算法找到出现次数不超过 2 次的所有整数

和（1）类似。

解决思路：封装两个位图，用两个位图的同一个位置的 2 个比特位来标识一个数。

我们需要标记 4 种状态：不存在 / 出现一次 / 出现两次 / 出现多次。

因为两个比特位有 4 种表现形式 00 / 01 / 10 / 11，

所以：

00 - 表示这个数不存在

01 - 表示这个数只出现 1 次

10 - 表示这个数出现 2 次

11 - 表示这个数出现 2 次及以上

然后遍历位图，找到所有不是 11 标记的位置，此位置映射的就是出现次数不超过2次的整数。

（4）这里的位图问题也可以用哈希切分的思路来解决。但我们还是优先选择位图，更优一些

3、布隆过滤器

（1）给两个文件，分别有 100 亿个 query（查询），我们只有 1G 内存，如何找到两个文件交集？分别给出精确算法和近似算法

近似算法：把第一个文件中的100亿个查询插入布隆过滤器，再读取第二个文件，看当前查询在不在布隆过滤器中。如果不在，说明一定不是交集；如果在，说明可能是交集（因为存在误判）。
精确算法：哈希切分。

假设一个 query 平均 20 字节，则 100 亿个 query 大约是 2000 亿字节，则文件大约是 200 G。

第一步：

先创建 200 个小文件，分别叫 A0.txt、A1.txt、A2.txt、… A199.txt。

先创建 200 个小文件，分别叫 B0.txt、B1.txt、B2.txt、… B199.txt。

第二步：

依次读取 A 文件中的 query，使用字符串哈希算法转成可以取模的整型：

size_t i = Hash( query ) % 200，把这个 query 放入到（映射到）第 Ai.txt 号小文件中。

依次读取 B 文件中的 query，使用字符串哈希算法转成可以取模的整型：

size_t i = Hash( query ) % 200，把这个 query 放入到（映射到）第 Bi.txt 号小文件中。

注意：平均下来，每个小文件是 1G 左右（可能有些文件大，有些文件小）。

第二步结束后，文件中相同的 query 会分别进入编号相同的小文件，只需要去编号相同的小文件中找交集即可。

第三步：

第四步：

i = [0, 199]，把 Ai.txt 读进 setA 中，Bi.txt 读进 setB 中，setA 和 setB 相同的 query 就是交集。

核心思想：

原文件太大，存在磁盘中，直接读取去找交集效率太低，先切分成一个一个的小文件，然后再去读取小文件找交集。

（2）如何扩展 BloomFilter 使得它支持删除元素的操作。

一般情况下，布隆过滤器不支持删除 reset 接口，因为多个值可能会映射到同一个位，有哈希冲突，把该位置 0 可能会影响到其它值的状态。

如果想要支持删除 reset 接口呢？

可以弄一个计数器记录有多少个值映射到这个位了（比如使用两个比特位来记录，最多可以记录 3 个值），但是会付出更多空间消耗的代价。

4、其他

（1）哈希在加密中的应用

（2）哈希在存储中的应用：

当我们存储量超级大的时候，比如日常生活中使用的 QQ，我们要把每个用户的用户数据、QQ 空间中相册等数据存储起来，这是非常庞大的数据量，需要用服务器存储起来，一台服务器存不下，就弄多台服务器，每个服务器上存一部分，这就是分布式，然后对服务器进行集群管理（通过监控程序监控所有服务器的状态）。

问题：假设我有个好友发了一个朋友圈，数据提交到某台服务器上，我刷新朋友圈，会显示他发的朋友圈，但是怎么知道朋友圈数据是存在哪一台服务器上的呢？

每个用户都会有一个唯一 ID（比如手机号，身份证）标识该用户，一个用户的数据要存在哪台服务器上，就可以使用哈希映射，比如：Hash( ID ) % 服务器台数。所以这种分布式存储是一定要用哈希的。

但实际上远远比这复杂的多，比如万一某台服务器坏了呢？所以数据一般不会只存在一台服务器上，而是建立多副本，如果一台服务器坏了，就会重新建立映射，在其它服务器上建立新的副本。副本越多，越稳定，但空间消耗越大。还有比如新增或者减少了一些新服务器，那原先用户数据映射的位置也会发生改变，该如何解决呢？这就需要用到一致性哈希了。

你可能感兴趣的:(C++学习,c++,哈希算法,算法,位图,布隆过滤器)

【python+SQLAlchemy】 ryanling河 python 数据库 sql
需要先安装pymysql模块，以便能够在SQLAlchemy中使用MySQL数据库。使用以下命令进行安装：pipinstallSQLAlchemypipinstallpymysql目前SQLAlchemy版本是2.0.0以上了以下是基本写法以便快速学习fromsqlalchemyimportcreate_engine,Column,Integer,Stringfromsqlalchemy.ormi
2018-11-25 TAO1202
2018-11-25六项精进打卡努力一组姓名：简彦涛单位：上海日朗门窗有限公司六项精进397期学员【日精进打卡第175天】【知～学习】《六项精进大纲》0遍共163遍《大学开篇》0遍共163遍【经典名句分享】付出不亚于任何人的努力【行～实践】一、修身今日步数11290步二、齐家跟家人视频通话三、建功：做了产品首件｛积善｝：发愿从2018年5月27日起1年内做善事。今日1善，累计175善。【省～觉悟】
GDPR/等保2.0合规指南：企业商城系统必备的10大安全机制万米商云安全数据库网络
在数字经济全球化与数据主权博弈的双重背景下，企业商城系统作为承载用户隐私、交易数据与商业机密的核心载体，需同时满足欧盟《通用数据保护条例》（GDPR）与中国《网络安全等级保护2.0》的复合合规要求。本文从技术实现视角，解析企业商城系统必备的10大安全机制及其实施要点。一、全链路加密传输1、HTTPS强制部署采用OV/EV型SSL证书实现TLS1.3协议升级，支持国际RSA2048位或国密SM2算法
Real-World Blur Dataset for Learning and Benchmarking Deblurring Algorithms 钟屿深度学习
用于学习和评估去模糊算法的真实世界模糊数据集摘要近年来，针对相机抖动和物体运动模糊的单幅图像去模糊提出了许多基于学习的方法。为了将这些方法推广到真实世界的模糊场景，包含大量真实模糊图像及其对应的清晰真实图像（groundtruth）的数据集至关重要。然而，目前尚不存在这样的数据集，因此所有现有方法都依赖于合成数据集，这导致它们无法有效去除真实世界图像的模糊。在本工作中，我们提出了一个用于学习和评估
论语学习子路篇202121 一尘了心
13.13：子曰：“苟正其身矣，于从政乎何有？不能正其身，如正人何？”译文：孔子说：“如果端正了自己的言行，治理国家还有什么唯的呢？如果不能端正自己，又怎么能去端正别呢？”感悟：正人先正己！每日三省吾身啊：与人谋，不忠乎？与朋友交不信乎？传不习乎？樊老师谈到孔子不注重技术，没有给出技术方面方向性的指导意见，我觉得有点为难了，术业有专攻，工学/理学完全两个大类。孔子在人文科学领域有如此先见之明，已经
华为OD机试 2025 B卷 - 最大括号深度 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD机试华为OD机试 2025B卷华为OD2025B卷华为机试2025B卷
最大括号深度华为OD机试真题目录点击查看:华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解华为OD机试2025B卷100分题型题目描述现有一字符串仅由‘(‘，’)’，’{‘，’}’，’[‘，’]’六种括号组成。若字符串满足以下条件之一，则为无效字符串：任一类型的左右括号数量不相等；存在未按正确顺序（先左后右）闭合的括号。输出括号的最大嵌套深度，若字符串无效则输出0。0≤字符串长度≤10
书读了那么多，为什么依旧过不好你的人生小小梨涡
“任何重要的东西事实上是无法在教室中学到的，必须要通过采取行动，犯错误，然后改正错误来学习，这时智慧才会产生。”实践，而且是越早越好，马上行动。有时候我们会感慨，书读了那么多，为什么依旧过不好自己的人生，遇到问题依旧无从下手。那些书都是白读了么，甚至怀疑自己读书学习的意义。我想我们都有过这个时候。迷茫怀疑的时候。富爸爸说，重要的东西在教室里无法学到，必须要自己去实践，在错误中学习和成长。在学校的我
如何安全使用人工智能大模型
人工智能大模型的安全漏洞在推送，你只要有不一样的解决方案他就会通过学习学会，在别人讨论相同问题时，就会作为解决问题的推荐方案。这种机制是没办法防的。鉴于此我们只能采取如下措施:1.绝对本地部署，就是部署好以后断网，因为你使用时他还是会手机数据往后台传送，我本地部署的大模型在推理时看性能，网络也是有数据流的。也不知道在交换什么。2.既然搞不清楚那就彻底不相信，断网。那么我们要加快进度，快速完成任务，
关于Ajax的学习笔记秋也凉 ajax 学习笔记
Ajax概念：是一门使用了js语言，可以使用于Javaweb，实现前端代码和后端代码连结的的一种异步同步（不需要等待服务器相应，就能够发送第二次请求）的一种技术，它主要用于网页内容的局部刷新，列如验证码、导航栏的刷新等。实现步骤1.导入jQuery（一种框架，Ajax是JQuery的一种方法）文件——例如：写在jsp页面的标签里面。2.在jsp页面写一个函数，然后在函数里面调用ajax方法，aja
2018/03/23 kiyoi2017
张清的日精进第243天永远都能与别人达成共识的人最受欢迎，永远都能把没有共识的人练就成达成共识的人最有价值！心中装的人越多，管的事就越多，所处的位置就更高。发现金矿，开采金矿，分配金矿，哪个才需要互生？学习必须产生价值，价值必须变现！
【杂记】SQLAlchemy使用方法记录
目录写在前面1.什么是SQLAlchemy2.安装SQLAlchemy3.使用方法3.1初始化数据库连接3.2创建表3.2.1基础创建表操作3.2.2常用表字段属性代码3.2.3建立数据库表关系（1）一对多（2）多对多3.3查询数据3.3.1通用的查询数据方法3.3.2过滤规则3.4向数据表中添加/删除/更改数据3.4.1添加数据3.4.2删除数据3.4.3更改数据参考写在前面仅作个人学习与记录用
复盘关于周三晚上的分享 cdd2f75330c6
记录：第一位李李：自我介绍11组长，30而立，复盘100天；复盘过程：三阶段。一是学习阶段，最有感触的事；二是分类阶段，时间管理，输入提升，生活感悟；三是全面复盘，记录和反思生活，总结：反思不到位，执行不够，需要阶段性复盘，重要的两点：输入和阶段复盘；复盘的结果是：1思维逻辑提升2学习能力提升，3目标清晰；第二位小路：自我介绍_宝妈，92天复盘，硬本领修炼演讲和理财；为何加复盘群_养习惯，提升逻辑
PyTorch生成式人工智能（18）——循环神经网络详解与实现盼小辉丶 pytorch rnn 自然语言处理
PyTorch生成式人工智能（18）——循环神经网络详解与实现0.前言1.文本生成的挑战2.循环神经网络2.1文本数据2.2循环神经网络原理3.长短期记忆网络3.自然语言处理基础3.1分词3.2词嵌入3.3词嵌入在自然语言处理中的应用小结系列链接0.前言我们已经学习了如何生成数字和图像等内容。从本节开始，我们将主要聚焦于文本生成。人类语言极其复杂且充满细微差别，不仅仅涉及语法和词汇的理解，还包括上
三生原理的颠覆性价值（无同类研究完全对可标）？
AI辅助创作：一、‌方法论层面的开创性‌‌动态嵌套解经路径‌该研究突破传统注疏模式，将《周易》“三生万物”等命题与分形几何、递归生成系统结合，构建可验证的数学映射模型（如素数生成公式p=3(2n+1)+2(2n+m+1)），使经典文本的哲学命题转化为算法逻辑，开创“批判性再解读-科学化重构”双轨框架。‌跨文化符号系统互译‌通过“阴阳元参数化联动”工具（如素数2为阴元、3为阳元），将传统文化核心符号
中国少年先锋队伊川县第一次代表大会有感江左镇刘楼小学刘利红
2020年11月10日至12日对我来说，是铭记于心的日子，我非常荣幸能够参加中国少年先锋队伊川县第一次代表大会，心中的那份激动、兴奋，无以言表！开幕式上，伊川县教育体育局基础教育股副股长任胜利同志作重要讲话，他希望全县少年儿童牢记习近平总书记的谆谆教导，好好学习，天天向上，从小树立远大志向，扣好人生第一粒扣子。他强调全县各级党委政府要重视、支持少先队工作，部署好今后全县少先队的工作任务，教育引导全
Deep Multi-scale Convolutional Neural Network for Dynamic Scene Deblurring 论文阅读钟屿论文阅读计算机视觉人工智能
用于动态场景去模糊的深度多尺度卷积神经网络摘要针对一般动态场景的非均匀盲去模糊是一个具有挑战性的计算机视觉问题，因为模糊不仅来源于多个物体运动，还来源于相机抖动和场景深度变化。为了去除这些复杂的运动模糊，传统的基于能量优化的方法依赖于简单的假设，例如模糊核是部分均匀或局部线性的。此外，最近的基于机器学习的方法也依赖于在这些假设下生成的合成模糊数据集。这使得传统的去模糊方法在模糊核难以近似或参数化的
2021-06-10——王云燕学习与自我成长187天 f6df959e8511
学习了外化，能从另外的角度看问题，跳出问题，把问题看成问题，而不是自我本身的问题。黑格尔哲学中的定义:内在的东西转化为外在的东西对应词语:内化理念:人不是问题，问题才是问题思路:将人与问题分开，找到改变问题的成功经验好处:当事人更客观，更有力量空椅子技术:格式塔学派，自己与他人异同自己与自己的某一-部分时空对话:与某个时空的自己的对话外化对象不良情绪:焦虑，抑郁，烦躁，系张，内容了身体状态:生病，
基于Paillier同态加密算法的金融数据安全共享机制研究【附数据】
金融数据分析与建模专家金融科研助手|论文指导|模型构建✨专业领域：金融数据处理与分析量化交易策略研究金融风险建模投资组合优化金融预测模型开发深度学习在金融中的应用擅长工具：Python/R/MATLAB量化分析机器学习模型构建金融时间序列分析蒙特卡洛模拟风险度量模型金融论文指导内容：金融数据挖掘与处理量化策略开发与回测投资组合构建与优化金融风险评估模型期刊论文✅具体问题可以私信或查看文章底部二维码
吴恩达机器学习cs229-学习笔记-更新中是娜个二叉树！机器学习学习笔记
吴恩达机器学习cs22901基础概念语言：Matlab/python监督学习定义：获取一组数据集拟合数据从X到Y的映射回归问题：预测的Y是连续的，Y是实数分类问题：分类指的是Y取离散值，输出是离散的两组，正示例和负示例，把所有样本推到这条直线上，用0，1，标识逻辑回归算法，拟合直线区分正，负示例处理相对大量特征的回归算法或者分类算法支持向量机算法：它使用的不是1,2,3,10个输入特征，而是使用无
YOLOv8实现手写数字识别系统：从MNIST到实时摄像头检测
在深度学习领域，手写数字识别是一个经典问题，也是入门计算机视觉的重要案例。本文将介绍一个基于YOLOv8和MNIST数据集的手写数字识别系统，该系统不仅能识别静态图像中的数字，还能通过摄像头实时检测手写数字。个人博客：YOLOv8实现手写数字识别系统：从MNIST到实时摄像头检测-iDing's博客项目概述这个项目结合了传统的MNIST数据集和现代的目标检测算法YOLOv8，实现了以下功能：将MN
「日拱一码」033 机器学习——严格划分胖达不服输「日拱一码」机器学习人工智能严格划分组划分
目录简单随机划分（train_test_split）分组划分（GroupSplitting）简单分组划分(GroupSplitting)分层分组划分(StratifiedGroupSplitting)交叉验证法（Cross-Validation）分组K折交叉验证（GroupKFold）留一组法（LeaveOneGroupOut）简单随机划分（train_test_split）简单随机分组通过随机分
python学习打卡：DAY 18 推断聚类后簇的类型西西西仓鼠 python训练营 python 学习聚类
@浙大疏锦行聚类后的分析：推断簇的类型知识点回顾：推断簇含义的2个思路：先选特征和后选特征通过可视化图形借助ai定义簇的含义科研逻辑闭环:通过精度判断特征工程价值作业：参考示例代码对心脏病数据集采取类似操作，并且评估特征工程后模型效果有无提升。在聚类分析中，推断簇的类型是理解数据内在结构和业务意义的关键步骤。以下是系统化的推断方法及常见簇类型的总结：一、簇的基本类型明显分离的簇特征：不同簇中任意两
凯恩学写作第7天：《古典：五个问题写出好文章》田_52ab
今天学习的课程是APP《得到》里古典老师的一篇《五个问题写出好文章》。这篇文章是知道我们如何去写出一篇有影响力的观点式文章，在这个时代写文章是一件非常有意义的事情，除了是一种自我表达、升级思维的方式外，还是一种传播个人影响力最好的方式。在课程中，古典老师给出了一种写作的方式，即提出五个问题，并对这五个问题进行回答，最后将问题和你的解答记录下来，就能写出一篇有影响力的观点式文章。课程内容：问题1：最
工作室读书分享——《语文课程标准》（十七）水墨青花_7e78
王引娣老师分享：3.拓展型学习任务群整本书阅读。在语文实践活动中，根据阅读目的和兴趣选择合适的图书制定阅读计划，综合运用多种方法阅读整本书，借助多种方式分享阅读心得，交流，研讨阅读中的问题，积累整本书阅读经验，养成良好阅读习惯，提高整体认知能力，丰富精神世界。第四学段（7～9）学习内容包括：革命文学作品，古今中外诗歌及中长篇小说散文集等文学名著，多样的读书活动丰富拓展名著阅读。教学提示1）应统筹安
基于深度学习的手写数字和符号识别系统：YOLOv5/v6/v7/v8/v10模型实现与UI界面集成 YOLO实战营深度学习 YOLO ui 人工智能目标检测计算机视觉
1.引言随着人工智能和深度学习技术的发展，手写数字和符号识别已经成为计算机视觉领域的重要研究方向。手写识别在很多实际应用中扮演着关键角色，例如邮政编码识别、表单自动处理和智能教育系统等。传统的手写识别方法通常依赖于复杂的特征工程，而深度学习则能够自动从数据中学习到特征，极大地提高了识别精度和速度。本文将介绍如何构建一个基于YOLO系列模型（YOLOv5、YOLOv6、YOLOv7、YOLOv8、Y
智慧是永恒的财富且听风吟暖花开
犹太人的神思维！值得学习只要换个思路，换种活法，调整自己的心态，换个角度，结果会完全不同。一．转换一个思路思考问题一个犹太人走进纽约的一家银行，来到贷款部，大模大样地坐下来。“请问先生有什么事情吗？”贷款部经理一边问，一边打量着来人的穿着：豪华的西服、高级皮鞋、昂贵的手表，还有镶宝石的领带夹子。“我想借些钱。”“好啊，你要借多少？”“１美元。”“只需要１美元？”“不错，只借１美元。可以吗？”“当然
记·自律『第141天』黎雨萱
1、学习单词30个，复习37个2、形体操：90分钟（上午）3、跳绳：100个（虽然太少，还是记录下）4、樊登讲书：《我会独立思考》5、樊登非凡精读：《幸福之路》6、电子书《幸福之路》（p1-19）7、电子书《被忽视的孩子》（p745-817）8、纸质书《红书》（p46-51）9、日更（第323天）10、每日一句打卡（第140天）11、每日写信打卡（第173天）————今天服务器又出毛病了，还好电脑
Android编译系统——Kati执行过程（十一） c小旭 android 系统编译
在Android构建系统中，SoongUI是Soong构建框架的入口点。通过前面的学习我们知道，在执行make兼容模式编译时，soong_ui会调用ckati来将传统的Android.mk和其他Makefile文件转换为Ninja构建文件（如build-aosp_arm.ninja和build-aosp_arm-package.ninja）。这些.ninja文件随后会被ninja工具调用以进行真正
做好新时代干部教育培训工作的基本遵循游客89757
做好新时代干部教育培训工作，要全面贯彻习近平新时代中国特色社会主义思想，深刻领悟“两个确立”的决定性意义，增强“四个意识”、坚定“四个自信”、做到“两个维护”，把旗帜鲜明讲政治贯穿工作全过程各方面。要把深入学习贯彻习近平新时代中国特色社会主义思想作为主题主线，紧紧围绕党和国家事业发展需要开展教育培训，突出党的理论教育和党性教育，加强斗争精神和斗争本领养成，强化履职能力培训，全面提高干部素质和能力。
从零开始：搭建你的人工智能开发环境人工智能教程人工智能 YOLO 机器学习 transformer 线性回归动态规划排序算法
前言在人工智能和机器学习的旅程中，一个稳定且高效的开发环境是成功的关键第一步。无论是初学者还是经验丰富的开发者，一个配置良好的开发环境都能大大提高工作效率，减少遇到的问题。本文将从零开始，逐步指导你如何搭建一个完整的人工智能开发环境，包括操作系统选择、Python安装、常用库的配置以及开发工具的选择。一、选择合适的操作系统（一）主流操作系统介绍在搭建人工智能开发环境时，首先需要选择一个合适的操作系
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D