酒中仙1225

海量数据处理

本文转自:http://www.epubit.com.cn/article/290

所谓海量数据处理，是指基于海量数据的存储、处理或操作。因为数据量太大，导致要么无法在较短时间内迅速解决，要么无法一次性装入内存。

事实上，对于时间问题，可以采用巧妙的算法搭配合适的数据结构（如布隆过滤器、散列、位图、堆、数据库、倒排索引、Trie 树）来解决；对于空间问题，可以采取分而治之的方法（如利用散列映射），把规模大的数据转化为规模小的，最终各个击破。

处理海量数据问题有很多种方法，本章介绍10种典型方法：散列分治、多层划分、MapReduce、外排序、位图、布隆过滤器、Trie树、数据库、倒排索引和simhash算法。

本章将摒弃绝大部分的细节，重点谈方法和模式论，且注重用通俗、直白的语言阐述相关问题。最后，有一点必须强调的是，本章内容是基于面试题的分析基础进行讲述的，具体实践过程中要视具体情况具体分析，且各个场景下需要考虑的细节也远比本章所描述的任何一种解决方案复杂得多。

6.1　基础知识：STL容器

先具体了解一下STL容器，它是许多解决方案的基础。

一般来说，STL容器分两种：序列式容器和关联式容器。序列式容器包括vector、list、deque、stack、queue、heap等，而关联式容器中，每笔数据或每个元素都有一个键（key）和一个值（value），即所谓的键值对。当元素被插入到关联式容器中时，容器的内部结构（可能是红黑树，也可能是散列表）便会依照其值大小，以某种特定规则将这个元素放置于适当的位置。

在C++ 11标准之前，旧标准规定标准的关联式容器分为set（集合）和map（映射）两大类，以及这两大类的衍生体multiset（多键集合）和multimap（多键映射），这些容器均基于red-black tree（红黑树）实现。此外，还有另一类非标准的关联式容器，即hashtable（散列表），以及以hashtable为底层实现机制的hash_set（散列集合）、hash_map（散列映射）、hash_multiset（散列多重集合）和hash_multimap（散列多重映射）。也就是说，set、map、multiset和multimap都内含一个红黑树，而hash_set、hash_map、hash_multiset、和hash_multimap都内含一个hashtable1，具体关系如图6-1所示。

图6-1

set、map、multiset 和multimap

set同map一样，所有元素都会根据元素的键自动排序，因为set和map两者的所有操作都只是转而调用红黑树的操作行为。不过，值得注意的是，两者都不允许任意两个元素有相同的键。

不同的是，set的元素不像map那样可以同时拥有值和键，set元素的值就是键，键就是值，而map的所有元素都是pair，同时拥有值和键，pair的第一个元素被视为键，第二个元素被视为值。

至于multiset和multimap，它们的特性及用法与set和map几乎相同，唯一的差别就是它们允许键重复，即所有的插入操作基于红黑树的insert_equal()而非insert_unique()。

hash_set、hash_map、hash_multiset和hash_multimap

hash_set和hash_map的一切操作都是基于hashtable的。不同的是，hash_set同set一样，同时拥有值和键，且值就是键，键就是值，而hash_map同map一样，每一个元素同时拥有一个值和一个键，所以其使用方式和map基本相同。另外，因为hash_set和hash_map都是基于hashtable的，而hashtable没有自动排序功能，所以hash_set和hash_map都不具备自动排序功能。

至于hash_multiset和hash_multimap，它们的特性与multiset和multimap几乎完全相同，唯一的差别就是hash_multiset和hash_multimap的底层实现机制是hashtable（区别于multiset和multimap的底层实现机制红黑树），所以它们的元素都不会被自动排序，不过都允许键重复。

综上所述，什么样的结构决定其什么样的性质，因为set、map、multiset和multimap的实现都是基于红黑树的，所以有自动排序功能，而hash_set、hash_map、hash_multiset和hash_multimap的实现都是基于hashtable的，所以不含有自动排序功能，加个前缀multi无非就是允许键重复而已，如图6-1所示。

6.2　散列分治

方法介绍

对于海量数据而言，由于无法将其一次性装进内存进行处理，不得不将其通过散列映射的方法分割成相应的小块数据，然后再针对各个小块数据通过hash_map进行统计或其他操作。

那么什么是散列映射呢？简单来说，为了方便计算机在有限的内存中处理大量数据，通过映射的方式让数据均匀分布在对应的内存位置上（例如，大数据通过取余的方式映射成小数据存放在内存中，或把大文件映射成多个小文件），而这种映射的方式通常通过散列函数进行映射，好的散列函数能让数据均匀分布而减少冲突。

问题实例

寻找Top IP

从海量日志数据中提取出某日访问百度（www.baidu.com）次数最多的那个IP。

分析：百度作为国内第一大搜索引擎，每天访问它的IP数量巨大，如果想一次性把所有IP数据装进内存处理，内存容量通常不够，故针对数据量太大、内存受限的情况，可以把大文件转化成（取模映射）小文件，从而大而化小，逐个处理。简言之，先映射，而后统计，最后排序。

解法：具体分为下述三个步骤。

（1）分而治之/散列映射。先将该日访问百度的所有IP从访问日志中提取出来，然后逐个写入一个大文件中，接着采取散列映射的方法（如hash(IP) % 1000），把整个大文件的数据映射到1000个小文件中2。

（2）hash_map统计。大文件转化成了小文件，便可以采用hash_map(ip, value)分别对1000个小文件的IP进行频率统计，找出每个小文件中出现频率最高的IP，总共1000个IP。

（3）堆/快速排序。统计出1000个频率最高的IP后，依据它们各自频率的大小进行排序（可采取堆排序），找出最终那个出现频率最高的IP，即为所求。

寻找热门查询

搜索引擎会通过日志文件把用户每次检索所使用的所有查询串都记录下来，每个查询串的长度为1～255字节。假设目前有1000万条查询记录（但是，因为这些查询串的重复度比较高，所以虽然总数是 1000 万，但如果除去重复后，查询串query不超过300万个），请统计其中最热门的10个查询串，要求使用的内存不能超过1 GB。

分析：一个查询串的重复度越高说明查询它的用户越多，也就是越热门。如果是1亿个IP求Top 10，可先%1000将IP分到1000个小文件中去，并保证一个IP只出现在一个文件中，再对每个小文件中的IP进行hash_map统计并按数量排序，最后用归并或者最小堆依次处理每个小文件中的Top 10以得到最后的结果。

但是对于本题，是否也需要先把大文件弄成小文件呢？根据题目描述，虽然有1000万个查询，但是因为重复度比较高，去除重复后，事实上只有300万个查询，每个查询为255字节，所以可以考虑把它们全部放进内存中去（假设300万个字符串没有重复，都是最大长度，那么最多占用内存3000000 × 255 = 765MB=0.765GB，所以可以将所有字符串都存放在内存中进行处理）。

考虑到本题中的数据规模比较小，能一次性装入内存，因而放弃分而治之/散列映射的步骤，直接用hash_map统计，然后排序。事实上，针对此类典型的Top k问题，采取的对策一般都是“分而治之/散列映射（如有必要）+ hash_map+堆”。

解法：

（1）hash_map统计。对这批海量数据进行预处理，用hash_map完成频率统计。具体做法是：维护一个键为query、value为该query出现次数的hash_map，即hash_map(query, value)，每次读取一个query，如果该query不在hash_map中，那么将该query放入hash_map中，并将它的value值设为1；如果该query在hash_map中，那么将该query的计数value加1即可。最终我们用hash_map在O(n)的时间复杂度内完成了所有query的频率统计。

（2）堆排序。借助堆这种数据结构，找出Top k，时间复杂度为O(n'logk)。也就是说，借助堆可以在对数级的时间内查找或调整移动。因此，维护一个k（该题目中是10）大小的最小堆，然后遍历300万个query，分别和根元素进行比较，最终的时间复杂度是O(n) + O(n'logk)，其中n为1000万，n'为300万。

关于上述过程中的第2步（堆排序），进一步讲，可以维护k个元素的最小堆，即用容量为k的最小堆存储最先遍历到的k个数，并假设它们就是最大的k个数，建堆费时O(k)，有k1 > k2 >…> kmin（设kmin为最小堆中最小元素）。继续遍历整个数列剩下的n−k个元素，每次遍历一个元素x，将其与堆顶元素进行比较，若x > kmin则更新堆（x入堆，每次调整堆费时O(log k)），否则不更新堆。这样下来，总费时O(k + (n−k)log k ) =O(nlogk)。此方法得益于在堆中查找等各项操作的时间复杂度均为O(log k)。

当然，也可以采用Trie树，结点里存该查询串出现的次数，没有出现则为0，最后用10个元素的最小堆来对出现频率进行排序。

寻找出现频率最高的100个词

有一个1 GB大小的文件，里面每一行是一个词，每个词的大小不超过16字节，内存大小限制是1 MB。请返回出现频率最高的100个词。

解法：

（1）分而治之/散列映射。按先后顺序读取文件，对于每个词x，执行hash(x)%5000，然后将该值存到5000个小文件（记为x0, x1,…, x4999）中。此时，每个小文件的大小大概是200 KB。当然，如果其中有的小文件超过了1 MB，则可以按照类似的方法继续往下分，直到分解得到的所有小文件都不超过1MB。

（2）hash_map统计。对每个小文件采用hash_map/Trie树等数据结构，统计每个小文件中出现的词及其相应的出现次数。

（3）堆排序或者归并排序。取出出现次数最多的100个词（可以用含100个结点的最小堆）后，再把100个词及相应的出现次数存入文件中，这样又得到5000个文件。最后对这5000个文件进行归并（可以用归并排序）。

寻找Top 10

有海量数据分布在100台电脑中，请想个办法高效统计出这批数据出现次数最多的Top 10。

解法一：如果同一个数据元素只出现在某一台机器中，那么可以采取以下步骤统计出现次数为Top 10的数据元素。

（1）堆排序。在每台电脑上求出Top 10，可以采用包含10个元素的堆完成。（求Top 10小用最大堆，求Top 10大用最小堆。比如，求Top 10大，首先取前10个元素调整成最小堆，假设这10个元素就是Top 10大，然后扫描后面的数据，并与堆顶元素进行比较，如果比堆顶元素大，那么用该元素替换堆顶，然后再调整为最小堆，否则不调整。最后堆中的元素就是Top 10大。）

（2）组合归并。求出每台电脑上的Top 10后，把这100台电脑上的Top 10组合起来，共1000个数据，再根据这1000个数据求出Top 10就可以了。

解法二：但是，如果同一个元素重复出现在不同的电脑中呢？举个例子，给定两台机器，第一台机器的数据及各自出现的次数为a（53）、b（52）、c（49）、d（49）、e（0）、f（0）（括号里的数字代表某个数据出现的次数），第二台机器的数据及各自出现的次数为a（0）、b（0）、c（49）、d（49）、e（51）、f（50），求所有数据中出现次数最多的Top 2。

很明显，如果先求出第一台机器的Top 2——a（53）和b（52），然后再求出第二台机器的Top 2——e（51）和f（50），最后归并a（53）、b（52）、e（51）和f（50），得出最终的Top 2——a（53）和b（52）并非实际的Top 2，因为实际的Top 2是c（49 + 49）和d（49 + 49）。

有两种方法可以解决这个问题。

遍历一遍所有数据，重新散列取模，使同一个元素只出现在单独的一台电脑中，然后采取上面所说的方法，统计每台电脑中各个元素的出现次数，找出Top 10，继而组合100台电脑上的Top 10，找出最终的Top 10。
蛮力求解，直接统计每台电脑中各个元素的出现次数，然后把同一个元素在不同机器中的出现次数相加，最终从所有数据中找出Top 10。

查询串的重新排列

有10个文件，每个文件的大小是1 GB，每个文件的每一行存放的都是用户的查询串query，每个文件的query都可能重复。请按照query的频度排序。

解法一：分为以下三个步骤。

（1）散列映射。顺序读取10个文件，按照hash(query)%10的结果将query写入另外10个文件（记为a0, a1,…,a9）中。这样，新生成的每个文件的大小约为1 GB（假设散列函数是随机的）。

（2）hash_map统计。找一台内存在2 GB左右的机器，依次用hash_map(query, query_count)来统计每个query出现的次数。注意，hash_map(query, query_count)是用来统计每个 query 的出现次数的，而不是存储它们的值，query 出现一次则query_count+1。

（3）堆排序、快速排序或者归并排序。利用快速排序、堆排序或者归并排序按照出现次数进行排序，将排好序的query和对应的query_cout输出到文件中。这样就得到了10个排好序的文件（记为b0, b1,…, b9）。最后，对这10个文件进行归并排序（内排序与外排序相结合）。

解法二：一般情况下，query的总量是有限的，只是重复的次数比较多而已，对于所有的query，可能一次性就可以加入内存。这样就可以采用Trie树、hash_map等直接统计每个query出现的次数，然后按出现次数做快速排序、堆排序或者归并排序就可以了。

解法三：与解法一类似，但在做完散列，分成多个文件后，可以交给多个文件，采用分布式架构来处理（如MapReduce），最后再进行合并。

寻找共同的URL

给定a和b两个文件，各存放50亿个URL，每个URL占64字节，内存限制是4 GB。请找出a和b文件中共同的URL。

解法：可以估计出每个文件的大小为5000000000×64=320 GB，远远大于内存限制的4 GB，所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。

（1）分而治之/散列映射。遍历文件a，对每个URL求取hash(URL)%1000，然后根据所取得的值将URL分别存储到1000个小文件中（记为 a0, a1,…, a999）。这样每个小文件大约为300 MB。遍历文件b，采取和a相同的方式将URL分别存储到1000小文件中（记为b0, b1,…, b999）。这样处理后，所有可能相同的URL都在对应的小文件中（a0对应b0, a1对应b1,…, a999对应b999），不对应的小文件不可能有相同的URL。然后只要求出1000对小文件中相同的URL即可。

（2）hash_set统计。求每对小文件中相同的URL时，可以把其中一个小文件的URL存储到hash_set中，然后遍历另一个小文件的每个URL，看其是否在刚才构建的hash_set中，如果在，就是共同的URL，保存到文件里就可以了。

举一反三

寻找最大的100个数

从100万个数中找出最大的100个数。

提示：

选取前100个元素并排序，记为序列L。然后依次扫描剩余的元素x，与排好序的100个元素中最小的元素比较，如果比这个最小的元素大，就把这个最小的元素删除，利用插入排序的思想将x插入到序列L中。依次循环，直到扫描完所有的元素。复杂度为O(108×100)。也可以利用快速排序的思想，每次分割之后只考虑比主元大的一部分，直到比主元大的一部分比100多的时候，采用传统排序算法排序，取前100个。复杂度为O(108× 100)。此外，还可以用一个含100个元素的最小堆来完成，复杂度为O(108× log100)。

统计10个出现次数最多的词

一个文本文件有上亿行甚至10亿行，每行中存放一个词，要求统计出其中出现次数最多的前10个词。

解法一：如果文件比较大，无法一次性读入内存，可以采用散列取模的方法，将大文件分解为多个小文件，对单个小文件利用hash_map统计出每个小文件中10个出现次数最多的词，然后再进行归并处理，找出最终的10个出现次数最多的词。

解法二：通过散列取模将大文件分解为多个小文件后，除了可以用hash_map统计出每个小文件中10个出现次数的词，也可以用Trie树统计每个词出现的次数，最终同样找出出现次数最多的前10个词（可用堆来实现）。

寻找出现次数最多的数

怎样在海量数据中找出重复次数最多的一个？

提示：

先做散列，然后求模，映射为小文件，求出每个小文件中重复次数最多的一个数，并记录重复次数，最后找出上一步求出的数据中重复次数最多的一个，即是所求。

统计出现次数最多的前n个数据

有上千万或上亿个数据（有重复），统计其中出现次数最多的前n个数据。

提示：

上千万或上亿个数据在现在的机器的内存中应该能存下，所以考虑采用hash_map、搜索二叉树、红黑树等来进行次数统计，然后取出前n个出现次数最多的数据，这一步可以用堆完成。

1000万个字符串的去重

有1000万个字符串，其中有些字符串是重复的，请把重复的字符串全部去掉，保留没有重复的字符串。

提示：

本题用Trie树比较合适，hash_map也行。当然，也可以先散列成小文件分开处理再综合。

6.3　多层划分

方法介绍

多层划分法本质上还是遵循分而治之的思想。因为元素范围很大，不能利用直接寻址表，所以通过多次划分，逐步确定范围，然后在一个可以接受的范围内进行查找。

问题实例

寻找不重复的数

在2.5亿个整数中找出不重复的整数的个数。注意，内存空间不足以容纳这2.5亿个整数。

分析：类似于鸽巢原理，因为整数个数为232，所以，可以将这232个数划分为28个区域（比如，用一个文件代表一个区域），然后将数据分到不同的区域，最后不同的区域再利用位图进行统计就可以直接解决了。也就是说，只要有足够的内存空间，就可以很方便地解决。

寻找中位数

找出5亿个int型数的中位数。

分析：首先将这5亿个int型数划分为216个区域，然后读取数据统计落到各个区域里的数的个数，根据统计结果就可以判断中位数落到哪个区域，并知道这个区域中的第几大数刚好是中位数。然后，第二次扫描只统计落在这个区域中的那些数就可以了。

实际上，如果不是int型而是int64型，经过3次这样的划分即可降低到能够接受的程度。也就是说，可以先将5亿个int64型数划分为224个区域，确定每个数是其所在区域的第几大数，然后再将该区域分成220个子区域，确定是子区域的第几大数，最后当子区域里的数的个数只有220个时，就可以利用直接寻址表进行统计。

6.4　MapReduce

方法介绍

MapReduce是一种计算模型，简单地说就是将大批量的工作或数据分解执行（称之为Map），然后再将结果合并成最终结果（称之为Reduce）。这样做的好处是，可以在任务被分解后通过大量机器进行分布式并行计算，减少整个操作的时间。可以说，MapReduce的原理就是一个归并排序，它的适用范围为数据量大而数据种类少以致可以放入内存的场景。MapReduce模式的主要思想是将要执行的问题（如程序）自动拆分成Map和Reduce的方式，其流程如图6-2所示。

图6-2

在数据被分割后，通过Map函数将数据映射到不同的区块，分配给计算机集群处理，以达到分布式计算的效果，再通过Reduce函数的程序将结果汇总，从而输出需要的结果。

MapReduce 借鉴了函数式程序设计语言的设计思想，其软件实现是指定一个Map函数，把键值对映射成新的键值对，形成一系列中间结果构成的键值对，然后把它们传给 Reduce 函数，把具有相同中间形式的键值对合并在一起。Map 函数和Reduce函数具有一定的关联性。

问题实例

寻找n2个数的中数

一共有n台机器，每台机器上有n个数，每台机器最多存O(n)个数并对它们进行操作。如何找到n2个数的中数（median）？

6.5　外排序

方法介绍

顾名思义，所谓外排序就是在内存外面的排序。当要处理的数据量很大而不能一次性装入内存时，只能将数据放在读写较慢的外存储器（通常是硬盘）上。

外排序通常采用的是一种“排序-归并”的策略。在排序阶段，先读入能放在内存中的数据，将其排序后输出到一个临时文件，依次进行，将待排序数据组织为多个有序的临时文件，而后在归并阶段将这些临时文件组合为一个大的有序文件，即为排序结果。

举个例子。假定现在有一个含有20个数据{5, 11, 0, 18, 4, 14, 9, 7, 6, 8, 12, 17, 16, 13, 19, 10, 2, 1, 3, 15}的文件A，但使用的是一次只能装4个数据的内存，所以可以每趟对4个数据进行排序，即5路归并，具体方法如下述步骤所示。

首先把“大”文件A分割为a1、a2、a3、a4、a5这5个小文件，每个小文件包含4个数据：

a1文件的内容为{5, 11, 0, 18}；
a2文件的内容为{4, 14, 9, 7}；
a3文件的内容为{6, 8, 12, 17}；
a4文件的内容为{16, 13, 19, 10}；
a5文件的内容为{2, 1, 3, 15}。

然后依次对5个小文件进行排序：

a1文件完成排序后的内容为{0, 5, 11, 18}；
a2文件完成排序后的内容为{4, 7, 9, 14}；
a3文件完成排序后的内容为{6, 8, 12, 17}；
a4文件完成排序后的内容为{10, 13, 16, 19}；
a5文件完成排序后的内容为{1, 2, 3, 15}。

最终进行多路归并，完成整个排序。最后，整个大文件A文件完成排序后变为{0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19}。

问题实例

给107个数据的磁盘文件排序

给定一个文件，里面最多含有n个不重复的正整数（也就是说可能含有少于n个不重复的正整数），且其中每个数都小于等于n（n = 107）。请输出一个按从小到大升序排列的包含所有输入整数的列表。假设最多有大约1 MB的内存空间可用，但磁盘空间足够。要求运行时间在5分钟以内，10秒为最佳结果。

解法一：位图方案

你可能会想到把磁盘文件进行归并排序，但题目假设只有1 MB的内存空间可用，所以归并排序这种方法不行。

熟悉位图的人可能会想到用位图来表示这个文件集合3。比如，用一个20位长的字符串来表示一个所有元素都小于20的简单的非负整数集合，如集合{1, 2, 3, 5, 8, 13}，在字符串中将集合中各个数对应的位置置为1，没有对应的数的位置置为0，用字符串表示为01110100100001000000。

针对本题的107个数据的磁盘文件排序问题，可以这么考虑：由于每个7位十进制整数表示一个小于1000万的整数，所以可以使用一个具有1000万个位的字符串来表示这个文件，当且仅当整数i在文件中存在时，字符串中的第i位置为1。

采取这个位图的方案是因为考虑到本问题的特殊性：

输入数据限制在相对较小的范围内；
数据没有重复；
其中的每条记录都是单一的整数，没有任何其他与之关联的数据。

所以，此问题用位图的方案可以分为以下三步进行解决。

（1）将所有的位都初始化为0。

（2）通过读入文件中的每个整数来建立集合，将每个整数对应的位都置为1。

（3）检验每一位，如果该位为1，就输出对应的整数。

经过以上三步后，就产生了一个有序的输出文件。令n为位图向量中的位数（本例中为10 000 000），伪代码表示如下：

// 磁盘文件排序位图方案的伪代码 
// 第一步：将所有的位都初始化为0  
for i ={0,....n}　　  
　　 bit[i]=0;  
// 第二步：通过读入文件中的每个整数来建立集合，将每个整数对应的位都置为1
for each i in the input file　　 
　　 bit[i]=1;  
// 第三步：检验每一位，如果该位为1，就输出对应的整数  
for i={0...n}　　  
　　 if bit[i]==1　　　　
　　　　 write i on the output file

上述的位图方案共需要扫描输入数据两次，具体执行步骤如下。

（1）第一次只处理1～5 000 000的数据，这些数都是小于5 000 000的。对这些数进行位图排序，只需要约5 000 000/8=625 000字节，即0.625 MB，排序后输出。

（2）第二次扫描输入文件时，只处理5 000 001～10 000 000的数据，也只需要0.625 MB（可以使用第一次处理申请的内存）。因此，这种位图的方法总共只需要0.625 MB。

但是，很快我们就意识到，用位图方案的话，需要约1.2 MB（若每条记录是8位的正整数，则空间消耗约等于107/(102410248)≈ 192 MB）的空间，而现在只有1 MB的可用存储空间，所以严格来说，用位图方法还是不行4。那么究竟该如何处理呢？

解法二：多路归并

诚然，在面对本题时，通过计算分析出可以用上述解法一这样的位图法解决。但实际上，很多时候我们都面临着这样一个问题：文件太大，无法一次性放入内存中计算处理。这时候应该怎么办呢？分而治之，大而化小，也就是把整个大文件分为若干大小的几块，然后分别对每一块进行排序，最后完成整个过程的排序。k趟算法可以在O(kn)的时间开销内和O(n/k)的空间开销内完成对最多n个小于n的无重复正整数的排序。比如，可分为2块（k=2时，一趟反正占用的内存只有1.25/2 MB），即1～5 000 000和5 000 001～10 000 000。先遍历一趟，排序处理1～5 000 000的整数（用5 000 000/8=625 000字节的存储空间来排序1～5 000 000的整数），然后再第二趟，对5 000 001～1 000 000的整数进行排序处理。

解法总结

本节中位图和多路归并两种方案的时间复杂度及空间复杂度的比较如表6-1所示。

表6-1

方法	时间复杂度	空间复杂度
位图	O(n)	0.625 MB
多路归并	O(nlogn)	1 MB

多路归并的时间复杂度为O(k × n/k × log n/k) = O(nlogn)5。但严格来说，还要加上读写磁盘的时间，而此算法的绝大部分时间也正是浪费在读写磁盘的步骤上。

6.6　位图

方法介绍

什么是位图

所谓位图，就是用一个位（bit）来标记某个元素对应的值，而键就是该元素。由于采用了位为单位来存储数据，因此可以大大节省存储空间。

位图通过使用位数组来表示某些元素是否存在，可进行数据的快速查找、判重、删除。

来看一个具体的例子。假设我们要对0～7中的5个元素（4, 7, 2, 5, 3）进行排序（假设这些元素没有重复），此时就可以采用位图的方法来达到排序的目的。因为要表示8个数，所以只需要8位，由于8位等于1字节，所以开辟1字节的空间，并将这个空间的所有位都置为0，如图6-3所示。

图6-3

然后遍历这5个元素。因为待排序序列的第一个元素是4，所以把4对应的位重置为1（可以这样操作：p + (i/8) | (001 << (i % 8)) 。当然，这里的操作涉及big-endian和little-endian6的情况，这里默认为big-endian），又由于是从0开始计数的，所以把第5位重置为1，如图6-4所示。

图6-4

然后再处理待排序序列的第二个元素7，将第8个位重置为1。接着再处理待排序序列的第三个元素2，一直到处理完所有的元素。将相应的位置为1后，这时候内存的位的状态如图6-5所示。

现在遍历一遍这个位区域，将某位是1的位的编号（2, 3, 4, 5, 7）输出，这样就达到了排序的目的。

图6-5

问题实例

电话号码的统计

已知某个文件内包含一些电话号码，每个号码为8位数字，统计不同号码的个数。8位数字最多组成99 999 999个号码，大概需要99兆位，大概十几兆字节的内存即可。

2.5亿个整数的去重

在2.5亿个整数中找出不重复的整数。注意，内存不足以容纳这2.5亿个整数。

分析：采用2位图（每个数分配2位，00表示不存在，01表示出现一次，10表示出现多次，11无意义），共需内存232 × 2=1 GB内存，可以接受。然后扫描这2.5亿个整数，查看位图中相对应的位，如果是00就变为01，如果是01就变为10，如果是10就保持不变。扫描完之后，查看位图，把对应位是01的整数输出即可。也可以先划分成小文件，然后在小文件中找出不重复的整数，并排序，最后归并，归并的同时去除重复的数。

整数的快速查询

给定40亿个不重复的没排过序的unsigned int型整数，然后再给定一个数，如何快速判断这个数是否在这40亿个整数当中？

分析：可以用位图的方法，申请512 MB的内存，一个位代表一个unsigned int型的值。读入40亿个数，设置相应的位，读入要查询的数，查看相应位是否为1，如果为1表示存在，如果为0表示不存在。

6.7　布隆过滤器

方法介绍

我们经常会遇到这样的问题：判断一个元素是否在一个集合中。常见的做法是用散列表实现集合，然后遇到一个新的元素时，在散列表中查找：如果能找到则意味着存在于集合中，反之不存在。但是散列表有一个弊端，它耗费的空间太大。本节来看一种新的方法，即布隆过滤器（Bloom filter）。

布隆过滤器是一种空间效率很高的随机数据结构，它可以看成是对位图的扩展。其结构是长度为n（如何计算最优n，后面会给出）的位数组，初始化为全0。当一个元素被加入集合中时，通过k个散列函数将这个元素映射成一个位数组中的k个点，并将这k个点全部置为1。

在检索一个元素是否在一个集合中时，我们只要看看这个元素被映射成位阵列的k个点是不是都是1，就能大致判断出集合中有没有那个元素：如果这k个点中有任何一个点为0，则被检索元素在集合中一定不存在；如果这k个点都是1，则被检索元素很可能在集合中。

但是，布隆过滤器也有它的缺点或不足，即它有一定的误判率——在判断一个元素是否属于某个集合时，有可能会把不属于这个集合的元素误判为属于这个集合。因此，它不适合那些“零误判”的应用场合。而在能容忍低误判率的应用场合下，布隆过滤器通过极少的误判换取了存储空间的极大节省。

集合表示和元素查询

下面我们来具体看看布隆过滤器是如何用位数组表示集合的。如图6-6所示，初始状态时，布隆过滤器是一个包含m位的位数组，每一位都置为0。

图6-6

对于S={x1, x2,…, xn}这样一个n个元素的集合，布隆过滤器使用k个互相独立的散列函数分别将集合S={x1, x2,…,xn}中的每个元素映射到{1,…, m}的范围中。对于任意一个元素x，第i个散列函数映射的位置hi(x)就会被置为1（1≤i≤k）。

注意，如果一个位置多次被置为1，那么只有第一次会起作用，后面几次将没有任何效果。在图6-7中，k=3且有两个散列函数选中同一个位置（从左边数第五位，即第二个1处）。

图6-7

于此，在判断y是否属于图6-6所示的集合S={x1, x2, …, xn}时，对y应用k次散列函数，如果所有hi(y)的位置都是1（1≤i≤k），那么就认为y是集合S={x1, x2, …, xn}中的元素，否则就认为y不是集合中的元素。

例如，图6-8中的y1可以确定不是集合S={x1, x2, …, xn}中的元素，因为y1有两处指向了0位，而y2可能属于这个集合，也可能刚好是一个误判。

图6-8

误判率估计

前面已经提到，布隆过滤器在判断一个元素是否属于它表示的集合时会有一定的误判率（false positive rate），下面就来估计一下这个误判率的大小。

为了简化模型，假设kn < m且各个散列函数是完全随机的。每插入一个新元素第一个散列函数就会把过滤器中的某个位置为1，因此任意一个位被置成1的概率为1/m，反之，它没被置为1（依然是0）的概率为1−1/m。如果这个元素的k个散列函数都没有把某个位置为1，即在做完k次散列后，某个位还是0（意味着k次散列都没有选中它）的概率就是(1−1/m)k。如果插入第二个元素，某个位依然没有被置为1的概率为(1−1/m)2k，所以如果插入n个元素都还没有把某个位置为1的概率为(1−1/m)kn。

也就是说，当集合S = {x1, x2, …, xn}中的所有元素都被k个散列函数映射到m位的位数组中时，这个位数组中某一位还是0的概率是

$p' = \left( {1 - \frac{1}{m}} \right)^{kn}\approx e^{ - kn/m}$

为了简化运算，可以令 $p = e^{\frac{{ - kn}}{m}}$ ，则有

$\mathop {\lim }\limits_{x \to \infty } \left( {1 - \frac{1}{x}} \right)^{ - x}= e$

如果令 $\rho$ 为位数组中0的比例，则 $\rho$ 的数学期望 $E(\rho ) = p'$ 。

在 $\rho$ 已知的情况下，误判率为

$(1 - \rho )^k\approx (1 - p')^k\approx (1 - p)^k$

$1 - \rho$ 为位数组中1的比例， $(1 - \rho )^k$ 表示k次散列都刚好选中1的区域，即误判率。上式中的第二步近似在前面已经提到了，现在来看第一步近似。p'只是 $\rho$ 的数学期望，在实际中 $\rho$ 的值有可能偏离它的数学期望值。M. Mitzenmacher已经证明，位数组中0的比例非常集中地分布在它的数学期望值的附近。因此，第一步近似得以成立。分别将p和p'代入上式中，得

$f' = (1 - p')^k= \left( {1 - \left( {1 - \frac{1}{m}} \right)^{kn} } \right)^k$

$f = (1 - p)^k= (1 - e^{ - kn/m} )^k$

与p'和f ' 相比，使用p 和f 通常在分析中更为方便。

最优的散列函数个数

既然布隆过滤器要靠多个散列函数将集合映射到位数组中，那么应该选择几个散列函数才能使元素查询时的误判率降到最低呢？这里有两个互斥的理由：如果散列函数的个数多，那么在对一个不属于集合的元素进行查询时得到0的概率就大；但是，如果散列函数的个数少，那么位数组中的0就多。为了得到最优的散列函数个数，我们需要根据上一节中的误判率公式进行计算。

先用p 和f 进行计算。注意到f = exp(k ln(1−ekn/m))，我们令g = k ln(1−ekn/m)，只要让g取到最小，f 自然也取到最小。由于p = e−kn/m，可以将g写成

$g =- \frac{m}{n}\ln (p)\ln (1 - p)$

根据对称性法则可以很容易看出：当p = 1/2，也就是k = (m/n)ln2≈0.693m/n时，g取得最小值。在这种情况下，最小误判率f等于(1/2)k≈(0.6185)m/n。另外，注意到p是位数组中某一位仍是0的概率，所以p = 1/2对应着位数组中0和1各一半。换句话说，要想保持误判率低，最好让位数组有一半还空着。

需要强调的一点是，p = 1/2时误判率最小这个结果并不依赖于近似值p和f。同样，对于f' = exp(kln(1−(1−1/m)kn))，g' = k ln(1−(1−1/m)kn)，p' = (1−1/m)kn，可以将g'写成

$g' = \frac{1}{{n\ln (1 - 1/m)}}\ln (p')\ln (1 - p')$

同样，根据对称性法则可以得到当p' = 1/2时，g'取得最小值。

位数组的大小

下面来看看在不超过一定误判率的情况下，布隆过滤器至少需要多少位才能表示全集中任意n个元素的集合。假设全集中共有u个元素，允许的最大误判率为є，下面来求位数组的位数m。

假设X为全集中任取n个元素的集合，F(X)是表示X的位数组。那么，对于集合X中任意一个元素x，在s = F(X)中查询x都能得到肯定的结果，即s能够接受x。显然，由于布隆过滤器引入了误判，s能够接受的不仅仅是X中的元素，它还能够接受є(u−n)个误判。因此，对于一个确定的位数组来说，它能够接受总共n +є (u−n)个元素。在n+є (u−n)个元素中，s真正表示的只有其中n个，所以一个确定的位数组可以表示 $C_{n +\in (u - n)}^n$ 个集合。m位的位数组共有2m个不同的组合，进而可以推出，m位的位数组可以表示 $2^m C_{n +\in (u - n)}^n$ 个集合。全集中n个元素的集合总共有个，因此要让m位的位数组能够表示所有n个元素的集合，必须有

$2^m C_{n +\in (u - n)}^n\geqslant C_u^n$

即

$m \geqslant \log _2 \frac{{C_u^n }}{{C_{n +\in (u - n)}^n }} \approx \log _2 \frac{{C_u^n }}{{C_{ \in u}^n }} \geqslant \log _2\in ^{ - n}= n\log _2 (1/ \in )$

上式中的近似前提是n和єu相比很小，这也是实际情况中常常发生的。根据上式，我们得出结论：在误判率不大于є的情况下，m至少要等于n log2(1/є)才能表示任意n个元素的集合。

上一节中我们曾算出当k = m/n ln2时误判率f最小，这时f = (1/2)k= (1/2)mln2 / n。现在令f ≤є，可以推出

$m \geqslant n\frac{{\log _2 (1/ \in )}}{{\ln 2}} = n\log _2 e\log _2 (1/ \in )$

这个结果比前面算得的下界n log2(1/)大了log2≈1.44倍。这说明，在散列函数的个数取到最优时，要让误判率不超过є，m至少需要取到最小值的1.44倍。

布隆过滤器可以用来实现数据字典，进行数据的判重或者集合求交集。

问题实例

寻找通过URL

给定A和B两个文件，各存放50亿条URL，每条URL占用64字节，内存限制是4 GB，请找出A和B两个文件中共同的URL。

分析：如果允许有一定的误判率，可以使用布隆过滤器，4 GB内存大概可以表示340亿位。将其中一个文件中的URL使用布隆过滤器映射到这340亿位，然后挨个读取另外一个文件中的URL，检查这两个URL是否相同，如果是，那么该URL应该是共同的URL。如果是3个乃至n个文件呢？读者可以继续独立思考。

垃圾邮件过滤

用过电子邮箱的朋友都知道，经常会收到各种垃圾邮件，可能是广告，可能是病毒，所以邮件提供商每天都需要过滤数以几十亿计的垃圾邮件，请想一个办法过滤这些垃圾邮件。

分析：比较直观的想法是把常见的垃圾邮件地址存到一个巨大的集合中，然后遇到某个新邮件就将它的地址和集合中的全部垃圾邮件地址一一进行比较，如果有元素与之匹配，则判定新邮件为垃圾邮件。

虽然本节开始部分提到集合可以用散列表实现，但它太占空间。例如，存储1亿个电子邮件地址就需要1.6 GB内存，存储几十亿个电子邮件地址就需要上百GB的内存，虽然现在有的机器内存达到了上百GB，但终究是少数。

事实上，如果允许一定的误判率的话，可以使用布隆过滤器。解决了存储的问题后，可以利用贝叶斯分类鉴别一份邮件是否为垃圾邮件，减少误判率。

6.8　Trie树

方法介绍

什么是Trie树

Trie树，即字典树，又称单词查找树或键树，是一种树形结构，常用于统计和排序大量字符串等场景中（但不仅限于字符串），且经常被搜索引擎用于文本词频统计。它的优点是最大限度地减少无谓的字符串比较，查询效率比较高。

Trie树的核心思想是以空间换时间，利用字符串的公共前缀来降低查询时间的开销，以达到提高效率的目的。

它有以下三个基本性质。

（1）根结点不包含字符，除根结点外每一个结点都只包含一个字符。

（2）从根结点到某一结点的路径上经过的字符连接起来，即为该结点对应的字符串。

（3）每个结点的所有子结点包含的字符都不相同。

Trie树的构建

先来看一个问题：假如现在给定10万个长度不超过10个字母的单词，对于每一个单词，要判断它出没出现过，如果出现了，求第一次出现在第几个位置。这个问题该怎么解决呢？

如果采取最笨拙的方法，对每一个单词都去查找它前面的单词中是否有它，那么这个算法的复杂度就是O(n2)。显然对于10万的范围难以接受。

换个思路想：假设要查询的单词是abcd，那么在它前面的单词中，以b，c，d，f之类开头的显然就不必考虑了，而只要找以a开头的单词中是否存在abcd就可以了。同样，在以a开头的单词中，只要考虑以b作为第二个字母的，一次次缩小范围和提高针对性，这样一个树的模型就渐渐清晰了。

因此，如果现在有b、abc、abd、bcd、abcd、efg和hii这6个单词，可以构建一棵图6-9所示的Trie树。

如图6-9所示，从根结点遍历到每一个结点的路径就是一个单词，如果某个结点被标记为红色（如图中加黑点的节点），就表示这个单词存在，否则不存在。那么，对于一个单词，只要顺着它从根结点走到对应的结点，再看这个结点是否被标记为红色就可以知道它是否出现过了。把这个结点标记为红色，就相当于插入了这个单词。这样一来，查询和插入可以一起完成，所用时间仅仅为单词长度（在这个例子中，便是10）。这就是一棵Trie树。

图6-9

我们可以看到，Trie树每一层的结点数是26i级别的。所以，为了节省空间，还可以用动态链表，或者用数组来模拟动态，而空间的花费不会超过单词数乘以单词长度。

查询

Trie 树是简单且实用的数据结构，通常用于实现字典查询。我们做即时响应用户输入的Ajax搜索框时，就是以Trie树为基础数据结构的。本质上，Trie树是一棵存储多个字符串的树。相邻结点间的边代表一个字符，这样树的每条分支代表一个子串，而树的叶结点则代表完整的字符串。和普通树不同的地方是，相同的字符串前缀共享同一条分支。

下面再举一个例子。给出一组单词inn、int、ate、age、adv、ant，可以得到图6-10所示的Trie树。

可以看出以下几条。

每条边对应一个字母。
每个结点对应一项前缀。叶结点对应最长前缀，即单词本身。
单词inn与单词int有共同的前缀"in"，所以它们共享左边的一条分支（根结点→i→in）。同理，ate、age、adv和ant共享前缀"a"，所以它们共享从根结点到结点a的边。

图6-10

查询操纵非常简单。例如，要查找int，顺着路径i→ in→int就找到了。

搭建Trie的基本算法也很简单，无非是逐一把每个单词的每个字母插入Trie树。插入前先看前缀是否存在：如果存在，就共享，否则创建对应的结点和边。例如，要插入单词add，就有下面几步。

（1）考察前缀"a"，发现边a已经存在。于是顺着边a走到结点a。

（2）考察剩下的字符串"dd"的前缀"d"，发现从结点a出发，已经有边d存在。于是顺着边d走到结点ad。

（3）考察最后一个字符"d"，这次从结点ad出发没有边d了，于是创建结点ad的子结点add，并把边ad→add标记为d。

问题实例

10个频繁出现的词

在一个文本文件中大约有1万行，每行1个词，要求统计出其中出现次数最频繁的10个词。

分析：用Trie树统计每个词出现的次数，时间复杂度是O(nl)（l表示单词的平均长度），最终找出出现最频繁的前10个词（可用堆来实现，时间复杂度是O(nlog10)。

寻找热门查询

搜索引擎会通过日志文件把用户每次检索使用的所有查询串都记录下来，每个查询串的长度为1～255字节。假设目前有1000万条记录（因为查询串的重复度比较高，虽然总数是1000万，但是如果去除重复，不超过300万个）。请统计最热门的10个查询串，要求使用的内存不能超过1 GB。（一个查询串的重复度越高，说明查询它的用户越多，也就越热门。）

分析：可以利用Trie树，观察关键字在该查询串出现的次数，若没有出现则为0。最后用10个元素的最小堆来对出现频率进行排序。

6.9　数据库

方法介绍

当遇到大数据量的增、删、改、查时，一般把数据装进数据库中，利用数据库的设计和实现方法对海量数据的增、删、改、查进行处理。而数据库索引的建立则对查询速度起着至关重要的作用。

散列索引实际上就是通过一定的散列算法，对需要索引的键进行散列运算，然后将得到的散列值存入散列表中。检索时，根据散列表中的散列值逆散列运算，反馈原键。散列索引在MySQL中使用并不多，目前在Memory和NDB Cluster存储引擎中使用。

第3章中介绍了B树、B+树等索引。事实上，InnoDB存储引擎的B树索引使用的存储结构就是B+树。B+树在B树的基础上做了很小的改造，在每一个叶结点上除了存放索引键的相关信息外，还存储了指向与该叶结点相邻的后一个叶结点的指针，此举是为了加快检索多个相邻叶结点的效率。换言之，B+树的叶结点中除了跟B树一样包含了键的信息之外，还包含了指向相邻叶结点的指针，因此，叶结点之间就有了联系并有序了。B*树则更进一步，增加了兄弟结点之间的指针。

由此可见，无处不透露着数据结构与算法思想，数据库也不例外，尤其是涉及数据库性能优化时更是如此。

问题实例

索引的选择

我们知道，散列索引的效率比B树高很多，但是为什么常见的数据库中一般都不用散列索引而使用B树索引呢？你能说出几个原因？

6.10　倒排索引

方法介绍

倒排索引（inverted index）是一种索引方法，用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射，常用于搜索引擎和关键字查询等问题中。

以英文为例，下面是要被索引的文本：

T0 = "it is what it is"  
T1 = "what is it"  
T2 = "it is a banana"

我们就能得到下面的倒排索引：

"a":　　　{2}
"banana": {2}
"is":　　 {0, 1, 2}
"it":　　 {0, 1, 2}
"what":　 {0, 1}

检索的条件"what"、"is"和"it"将对应集合的交集。

正向索引开发出来用于存储每个文档的单词的列表。正向索引的查询能够满足每个文档有序、频繁的全文查询和每个单词在校验文档中验证这样的查询。在正向索引中，文档占据了中心位置，每个文档指向了一个它所包含的索引项的序列，也就是说，文档指向了它包含的那些单词。而反向索引则是单词指向了包含它的文档，在倒排索引中，很容易看到这个反向的关系。

问题实例

文档检索系统

请设计一个文档检索系统，用于查询哪些文件包含了某个单词，比如常见的学术论文的关键字搜索。

提示

建立倒排索引。

6.11　simhash算法

方法介绍

问题背景

如果某一天面试官问你如何设计一个比较两篇文档相似度的算法？你可能会这么回答：

一种方案是先将两篇文章分别进行分词，得到一系列特征向量，然后计算特征向量之间的距离（比如计算它们之间的欧氏距离、汉明距离或者夹角余弦等），从而通过距离的大小来判断两篇文章的相似度；
另外一种方案是利用传统的散列，通过散列的方式为每一个文档生成一个信息指纹7。

下面来分析一下这两种方法。

对于上述第一种方案而言，若只是比较两篇文章的相似度还好，如果是海量数据（有着数以百万甚至亿万个文档），要求计算这些文档间的相似度，你还是去一一计算任意两个文档之间的距离或夹角余弦就不现实了。而第二种方案中所说的传统散列方式（如MD5），其设计的目的是为了让整个分布尽可能地均匀，但是，如果输入内容出现哪怕轻微的变化，散列值就会发生很大的变化。举个例子，假设有以下三段文本：

the cat sat on the mat
the cat sat on a mat
we all scream for ice cream

使用传统散列可能会得到如下结果：

irb(main):006:0> p1 = 'the cat sat on the mat' 
irb(main):007:0> p1.hash => 415542861 
irb(main):005:0> p2 = 'the cat sat on a mat' 
irb(main):007:0> p2.hash => 668720516 
irb(main):007:0> p3 = 'we all scream for ice cream' 
irb(main):007:0> p3.hash => 767429688

理想的散列函数需要对几乎相同的输入内容产生相同或者相近的散列值。换言之，散列值的相似程度要能直接反映输入内容的相似程度，故MD5等传统散列方法也无法满足我们的需求。

simhash问世

2002年，来自普林斯顿大学的Moses Charikar提出了simhash算法，随后Google将它发扬光大，专门用来解决亿万级的网页去重任务，并把应用的结果以论文的形式发表在www07会议上。Google在“Detecting near-duplicates for web crawling”这篇论文中展示了simhash算法中随机超平面的一个极其巧妙的实现，位差异的期望正好等于原姶向量的余弦。

simhash作为局部敏感散列（locality sensitive hash）的一种，其主要思想是降维，将高维的特征向量映射成低维的特征向量，通过两个向量的汉明距离来判定文章是否重复或者高度近似。在信息论中，两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数。也就是说，它就是将一个字符串变换成另外一个字符串需要替换的字符个数。例如，1011101与1001001之间的汉明距离是2。所以，我们常说的字符串编辑距离是一般形式的汉明距离。

因此，通过比较多个文档的simhash值的汉明距离，可以获取它们的相似度。

simhash算法的流程

简单说来，simhash算法分为5个步骤：分词、散列、加权、合并和降维。具体过程如下所述。

（1）分词。给定一段语句，进行分词，得到有效的特征向量，然后为每一个特征向量设置1～5这5个级别的权（如果是给定一个文本，那么特征向量可以是文本中的词，其权可以是这个词出现的次数）。例如，给定一段语句：“CSDN博客结构之法算法之道的作者July。”分词后为：“CSDN/博客/结构/之/法/算法/之/道/的/作者/July。”然后为每个特征向量赋予权值：CSDN(4)/博客(5)/结构(3)/之(1)/法(2)/算法(3)/之(1)/道(2)/的(1)/作者(5)/July(5)。其中括号里的数字代表这个单词在整条语句中的重要程度，数字越大代表越重要。

（2）散列。通过散列函数计算各个特征向量的散列值，散列值为二进制数0和1组成的n位签名。比如“CSDN”的散列值hash(CSDN)为[1 0 0 10 1]，“博客”的散列值hash（博客）为[1 0 1 0 1 1]。就这样，字符串就变成了一系列数字。

（3）加权。在散列值的基础上，给所有特征向量加权，即W = hash×weight，且遇到1则让散列值和权值正相乘，遇到0则让散列值和权值负相乘。例如，给“CSDN”的散列值“1 0 0 1 0 1”加权得到W(CSDN) = [1 0 0 1 0 1] × 4 = [4 −4 −4 4 −4 4]，给“博客”的散列值[1 0 1 0 1 1]加权得到W（博客）=[1 0 1 0 1 1] × 5 = [5 −5 5 −5 5 5]，其余特征向量的操作与此类似。

（4）合并。将上述各个特征向量的加权结果累加，变成只有一个序列串。仅拿前两个特征向量举例，例如“CSDN”的[4 −4 −4 4 −4 4]和“博客”的[5 −5 5 −5 5 5]进行累加，得到[4+5 (−4)+(−5) (−4)+5 4+(−5) (−4)+5 4+5]，得到[9 −9 1 −1 1 9]。

（5）降维。如果加权的n位签名的累加结果大于0则置1，否则置0，从而得到该语句的simhash值。例如，把上面计算出来的[9 −9 1 −1 1 9]降维，得到的01串为“1 0 1 0 1 1”，从而形成“CSDN博客”这个短语的simhash签名。最后便可以根据不同语句的simhash的汉明距离来判断它们的相似度。

整个流程如图6-11所示。

图6-11

simhash的应用

得到了每篇文档的simhash签名值后，只要计算两个签名的汉明距离即可判断它们之间的相似度。根据经验值，对于64位的simhash值，汉明距离在3以内的可认为相似度比较高。

先解释一下汉明距离的求法。异或运算时，只有在两个做比较的位不同时其结果是1，否则结果为0。两个二进制数“异或”后得到1的个数即为汉明距离的大小。举个例子。上面计算到的“CSDN博客”的simhash签名值为“1 0 1 0 1 1”，假定我们计算出另外一个短语的签名值为“1 0 1 0 0 0”，那么根据异或规则，可以计算出这两个签名的汉明距离为2，从而判定这两个短语的相似度是比较高的。

换言之，现在问题转换为：对于64位的simhash值，我们只要找到汉明距离在3以内的所有签名，即可找出所有相似的短语。

但关键是，如何将其扩展到海量数据呢？例如，如何在海量的样本库中查询与其汉明距离在3以内的记录呢？一种方案是查找待查询文本的64位simhash码的所有3位以内变化的组合，此方案大约需要4万多次的查询；另一种方案是预生成库中所有样本simhash码的3位变化以内的组合，此方案则大约需要占据4万多倍的原始空间。这两种方案，要么时间复杂度高，要么空间复杂度高，能否有一种方案可以达到时间复杂度和空间复杂度的较佳平衡呢？

答案是肯定的。我们可以把64位的二进制simhash签名均分成4块，每块16位。根据鸽巢原理（也称抽屉原理），如果两个签名的汉明距离在3以内，它们必有一块完全相同，如图6-12所示。

图6-12

然后把分成的4块中的每块分别作为前16位来进行查找，建倒排索引。具体如图6-13所示。

图6-13

因此，如果样本库中存有234（差不多10亿）个的simhash签名，则每个表返回234−16= 262 144个候选结果，大大降低了汉明距离的计算成本。

举个例子。假设数据是均匀分布的，16位的数据产生的象限为216个，则平均每个象限分布的文档数则为234/216 = 234−16=262 144，4个块返回的总结果数为4×262144（大概100万）。这样，原本需要比较10亿次，经过索引后大概只需要处理100万次。

问题实例

网页的存储

搜索引擎的网页爬虫每天会下载网上的诸多网页。为了防止一个网页被爬虫重复下载，一般会把已经下载好的网页存到一个巨大的散列表中，然后下载一个新网页时，从散列表中查找，判断是否已经下载过这个新的网页，避免重复下载。

但网页是以什么样的形式存储在散列表中的呢？如果以字符串的形式存储的话，可能大部分URL会很长。例如，百度上搜“结构之法”，对应的链接是http://www.baidu.com/s?wd=%E7%BB%93%E6%9E%84%E4%B9%8B%E6%B3%95&rsv_bp=0&tn=baidu&rsv_spt=3&ie=utf-8&rsv_sug3=3&rsv_sug4=53&rsv_sug1=2&rsv_sug2=0&inputT=1423&rsv_sug=1，这个链接比较长（100个字符以上）。

如何解决这个因以字符串形式存储网址而导致的内存空间浪费的问题呢？

分析：为每一个网页分配一个随机数，这个随机数可以看成是这个网页的信息指纹。好比每一个人都有不同的指纹一样，只要产生随机数的算法足够好，那么每一个网页的信息指纹也几乎都是独一无二的。由于这个信息指纹可以采用固定的128位（即16字节）的整数空间，所以网页可以用信息指纹的形式（取代字符串的形式）存储于散列表中，这样不但节省存储空间，而且利于查找。

网页重复的判定

搜索引擎每天会检索大量网页，但有些网站的网页是从其他网站转载的（如一些推荐类新闻阅读工具）。如何从亿万级别的网页中迅速判定某个网页跟另一个网页是重复的是搜索引擎要解决的问题。那么，如何判断重复网页呢？

分析：给定两个网页，首先不可能也没必要将其中一个网页跟另一个网页进行一行一行内容的对比。事实上，可以提取出这两个网页的关键特征词，然后对比这些特征词是否相同。简而言之，就是抽取网页特征，然后对比网页特征。但是，很多时候，程序并不能智能而准确地判断到底哪些词是关键特征词，故这种方法仍有诸多不足。不过，应用本节的思路，可以计算两个网页的simhash指纹，然后对比它们的simhash指纹。

举一反三

视频网站的反重复

国内不少视频网站都喜欢采取UCG的形式让用户上传视频，但某一个视频被多个用户重复上传的情况屡屡发生。如何判定某个用户上传的视频是重复视频呢？

分析：提取视频的关键帧，然后在视频库中查找匹配已有视频的关键帧，看是否存在同样关键帧的视频，如果已经存在，则当前视频不入库，否则入库。这种提取视频关键帧的方法跟提取网页信息指纹的方法的原理一致。

网盘网站的秒传

用过网盘的人可能知道，把一个文件上传到某些网盘上时，经常会遇到刚点击上传，一两秒之后便显示上传成功的“秒传”现象。网盘上传速度如此之快，其背后的原理是什么呢？

分析：类似于视频库的查重，网盘也需要处理某用户上传的文件是否在网盘库中已经存在。当用户上传某个文件时，系统计算出此文件的指纹，然后到后台的文件库中查找是否已经存在相同的文件。如果文件库中已经存在相同的文件，则把当前用户要上传的文件名迅速链接到已有文件所在的位置。这样，就不必占用带宽再上传一遍，使用户明明上传的是一个很大的文件，但瞬间就显示文件已上传成功的有趣现象。

本章习题

1．寻找Top 10的热词

有100万个关键字，长度小于等于50字节。用高效的算法找出Top 10的热词，要求对内存的占用不超过1 MB。

提示

先把100万个关键字散列映射到小文件，根据题意，106× 50 B = 50 × 106B = 50 MB，而内存只有1 MB，故干脆用一个散列函数%50将其分解成50个小文件，然后针对每个小文件依次运用hash_map(key, value)完成每个key的value次数统计，后用堆找出每个小文件中value次数最大的Top 10。最后依次对每两个小文件的Top 10进行归并，得到最终的Top 10。

值得注意的是，如果散列映射后导致分布不均的话，有的小文件可能会超过1 MB，所以为保险起见，可以根据数据范围分解成50～500或更多的小文件。

2．寻找最大的1000个数

有1亿个整数，请找出其中最大的1000个，要求时间越短越好，空间占用越少越好。

3．寻找中位数

在一个大小为10 GB的文件中有一堆整数，乱序排列，要求找出中位数。内存限制为2 GB。

4．寻找重复出现的数

在10亿个int型整数中，如何找出重复出现的数。

5．寻找相似的句子

有2 GB的一个文本文件，文件中每行存储的是一个句子，单词之间是用空格隔开的。请问：输入一个句子，如何找到和它最相似的前10个句子？

提示

可用倒排文档。

6．寻找最热门的视频

某家视频网站每天有上亿的视频被观看。现在公司请研发人员找出最热门的视频。该问题的输入可以简化为一个字符串文件，每一行都表示一个视频ID，然后要找出出现次数最多的前100个视频ID，将其输出，同时输出该视频的出现次数。

（1）假设每天的视频播放次数为3亿次，被观看的视频数量为100万个，每个视频ID的长度为20字节，限定使用的内存为1 GB。请简述做法，再写代码。

（2）假设每个月的视频播放次数为100亿次，被观看的视频数量为1亿，每个视频ID的长度为20字节，一台机器被限定使用的内存为1 GB。

提示

万变不离其宗，分而治之、散列映射+散列统计+堆、快速或者归并排序。

7．文章的反抄袭

一个社区网站每天成千上万的人在上面写博客。如何让程序自动快速判定某篇文章是抄袭另一篇文章是网站负责人比较头疼的问题。如果把这个问题交给你，你会怎么解决呢？

提示

可以抽取文章的特征词，计算特征词集合的信息指纹，然后比对这些信息指纹，最后根据文章发表时间的先后顺序，判断出文章是原创还是抄袭。

8．判断字符串的存在

单机5 GB的内存的前提下，假设有200 TB的磁盘数据（都为字符串），然后给定一个字符串，判断在这200 TB数据里是否有这个字符串，怎么做？如果查询次数非常多，怎么预处理？

提示

如果数据量是200 GB且允许少许误差的话，可以考虑用布隆过滤器，但是本题数据量是200 TB，所以得另寻良策。具体解法请读者思考。

9．大文件的切分

现在有一个大文件，文件里面的每一行都有一个组标识（组很多，但是每个组的数据量很小），现在要求把这个大文件分成10个小文件，并要求同一个组的必须在一个文件里，且切分之后，要求这10个小文件的数据量尽可能均衡。

10．统计单词频率

尽量高效地统计一篇英文文章里出现的所有英文单词（总单词数目），按照在文章中首次出现的顺序打印输出该单词和它的出现次数。

11．寻找出现频率高的词

在一个1 GB的文件里每行一个词，词的大小不超过16字节，内存限制大小是1 MB。返回出现频数最高的100个词。

12．统计频率最高的词

假设一个文本有1万行，每行一个词，统计出现频率最高的前10个词（词的平均长度为len），并分析时间复杂度。

13．出现次数最多的QQ号

假设服务器内存是1 GB，有一个2 GB的文件，文件中每行存着一个QQ号（5～10位数），如何最快找出出现次数最多的QQ号。

14．统计平均在线的QQ数

有一个日志文件，里面记录的格式为：

QQ号　　 时间　　　　　 flag
123456　 14：00：00　　 0 
123457　 14：00：01　　 1

其中flag=0表示登录，flag=1表示退出。请统计一天平均在线的QQ数。

15．判断相同URL的存在

给定一个URL指向的页面，页面里面有另一个URL。最终页面的URL指向之前出现过的URL或该页面不存在其他链接，这两种情形都定义为null。这样构成一个单链表。给出两条这样的单链表，判断里面是否存在相同的URL。URL以亿计，不允许使用散列。

16．1000万个字符串去重

有1000万个字符串，其中有些是重复的，需要把重复的全部去掉，保留没有重复的字符串。怎么设计和实现？

17．十度好友

在人人好友里，A和B是好友，B和C是好友，如果A和C不是好友，那么C是A的二度好友。在一个有10万人的数据库里，如何在时间O(n)里找到某个人的十度好友？

18．查询两个记录的交集

有海量记录，记录形式为：TERMID URLNOCOUNT urlno1 urlno2,…, urlnon。请问怎么考虑资源和时间这两个因素，实现快速查询任意两条记录的交集、并集等，设计相关的数据结构和算法。

19．寻找数组的交集

两个整数数组各存有100亿条数据，已排好序，保存在磁盘上，内存限制是10 GB。如何取得交集？时间和空间效率分别是多少？如果其中一个数组只有100条数据，如何优化算法取得交集？

20．IP地址的转换

现有一个200 MB的文本文件，里面记录着IP地址和对应的地域信息。例如：

202.100.83.56 北京 北京大学
202.100.83.120 北京 人民大学
202.100.83.134 北京 中国青年政治学院
211.93.120.45 长春 长春大学
211.93.120.129 吉林 吉林大学
211.93.120.200 长春 长春KTV

现有6亿个IP地址，请编写程序，实现读取IP地址，输出该IP地址对应的城市的功能，要求有较好的时间复杂度和空间复杂度。

你可能感兴趣的:(闲谈胡侃)

四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
准备胡珊珊乐平九小
尊敬的各位领导、各位同仁们：大家上午好！我是来自乐平九小的胡珊珊。今天很高兴能有机会给大家做“智慧作业”应用培训。说到“智慧作业”我感触颇多，我是在智慧作业中成长起来的，我也时常以自己是一名“智慧作业人”自居。早在2020年疫情期间，学校电教处周光杰主任在学校群里发出智慧作业抢题通知，我看了有些心动，一节微课相当于一次省级公开课，这对于我们普通老师是多么难得的机会啊。但想归想，我也不会用软件啊，再
言为爱之声胡国霞青少年超效注意力
图片发自App焦点工作坊1期连续分享491天胡国霞20190302周六雨《言为爱声》今晚是我们七彩阳光心理咨询中心2019年的第一次公益课，由卷霞来主持，高朋满座，有老朋友，也有新朋友。李老师从身份谈起，平时父母都会给孩子一个什么样的身份，是积极的，还是消极的。我回想一下自己，我是一个追求完美的人，每看到某人身上有一项超人的技能，我都会想儿子要学会了该多好，能文能武、能弹会唱、能写能画，该多好。要
黄丽红日精进98/105 做自己小太阳
感恩感恩今日份的拍照ing感恩今日份电视重新可以看感恩妹妹帮忙晾衣服感恩在路上的自己感恩我的朋友们和家人见1.今日份看了胡歌的一个节目，2010年的，10年之前，他的真实和有爱感动了我，不愧是我喜欢的胡歌2.今日份每日一练终于自己开始了调整后计划，流行病也开始复习，一切在路上3.妆容精致心情没好，在家注意收拾自己，画个淡妆最起码要精神面貌佳，回村后的我已经很像大妈了！！！感1.自己也是一个温暖的人
在陌生场合如何用闲谈打破冷场小小雁儿
你有没有发生过这种情况？当谈话的对象是陌生人，或是不怎么熟悉的人，或是沉默寡言的人时，不知道如何开口聊天，谈话很容易陷入冷场，气氛也可能变僵……如果你在一个商务场合，肯定也不希望自己一个人傻站着，只能和手机发生点互动。每个人都渴望在人群中被他人关注，都渴望被搭讪。面对这些局面，怎样让自己快速进入状态，开始一次有趣的闲谈呢？在这里我介绍两种心理暗示法:心理暗示法一：“我是主人”。如果参加一场宴会，你
【读书摘录·小窗幽记】世间最美读书声云儿读书吧
图片源自网络1、松声，涧声，山禽声，夜虫声，鹤声，琴声，棋子落声，雨滴阶声，雪洒窗声，煎茶声，皆声之至清，而读书声为最。2、好读书非求身后之名，但异见异闻，心之所愿。是以孜孜搜讨，欲罢不能，岂为声名劳七尺也。3、人生斯世，不能读尽天下秘书灵笈。有目而昧，有口而哑，有耳而聋，而面上三斗俗尘，何时扫去？4、春夜宜苦吟，宜焚香读书，宜与老僧说法，以销艳思。夏夜宜闲谈，宜临水枯坐，宜听松声冷韵，以涤烦襟。
六实小幼儿园观察日记-幼儿的创造能力 - 草稿雀跃_1f3b
观察日期：2020年6月18日观察地点：小班教室观察对象：周宇萱、胡依依记录教师：小二班孙蕊观察实录：在今天的区域活动中，我发现了我们班的孩子都非常有创造能力。幼儿在这个年纪有这种的创造和想象能力是非常重要的。我也感到非常的开心。在今天让孩子去选区域，不同的孩子去了不同的区域，也证明不同的孩子之间有着不同的性格爱好。比如，我们班的的周宇萱，他在娃娃家可以利用一些蔬菜玩具，可以发挥自己的想象力，利用
焦点学习分享第34天 3ab85c045972
好智慧父母课二期胡素敏（2021.1.1）我们没有选择的机会。新的一年就这样开始了！一切都这么美好！俩孩子难得都在家在享受温暖的被窝儿。那是属于宝贝们久违的幸福时光。感恩我最爱的亲人、感恩我认识的人，和认识我的人。一切美好都将伴随着幸福的人。新的一年对一些微笑，多一些幸福！2021年注定是美好的，是收获的，也更是自己不断成长、不断扩容的开始。
元宵节活动湘子_5b16
2019-2-19号深圳新东方烹饪学校组织了一场非常有意义的元宵节活动～即每人发30块代金券，用于购买其它班级元宵节展出的食品。听起来好诱人啊，我们可以买中餐班的泡椒凤爪，烧烤，火锅，东北夹馍饼，西餐的西式烩饭，BBQ烤全翅，三明治，法式烤土豆，香煎墨鱼丸，炸鸡米花，海草寿丝，鱼仔酱寿丝，西点班的小点心，奶茶，饼干，蛋糕，居然还有北京的冰糖胡芦…看到这么多花样多，品种多，又美味的东西，怎能不叫人垂
为何马皇后送给刘伯温“一梨两枣”后刘伯温就告老还乡了？薛白袍
传说大明王朝建立以后，一次，马皇后送刘伯温一梨两枣，劝他早早离开朝廷这是非之地。这又是一个用民间故事的方式来琢磨皇帝家的事情，就好像两个老农在地头猜测皇帝家每天都吃好吃的，天天烙饼卷鸡蛋一样。关键是马皇后劝刘伯温早早离的主意，也没起到什么作用，刘伯温告老还乡，回到青田老家。没过多久就因为胡惟庸告他想把自己的墓地建在风水宝地，老朱没说啥，刘伯温心生惶恐，赶紧回到京城，在朱元璋的眼皮子底下待到病重，才
人的欲望天高海阔_2a59
今天我早晨8点就来到了静雅山庄，觉得太早了会影响到老师，我在外面路边坐了一会，当时心里很想去那个绿色的房间，哪怕十分钟，让我能有一种心灵上的安宁，终于在八点半，我走到门前，按响门铃，马上胡老师就来开门了，我有点歉疚的说我来早了，胡老师说刚刚好。我发现不管自己的心情多糟糕，听胡老师说完话，就有一种登泰山君临天下的感觉，所有的事都是那么微不足道。我说了我今天焦虑的原因，和胡老师交流，这时高姐来了，她很
平平无奇的逃命小天才carry全场，李春来凭啥全剧血条最长？娱史通鉴
如果问我，最近印象最深刻的角色是哪个？我一定会说——李春来！刚刚收官的《龙岭迷窟》以豆瓣8.3分的高口碑持续发酵，如果你跟上潮流看了这部剧，一定会知道这个胆小的农民是谁。本来是冲着《鬼吹灯》系列的好口碑点开了这部剧，却万万没想到，竟然被一个在原著里出场几章就领盒饭的农民圈了粉；也万万没想到，胡明饰演的李春来成了新一届快乐源泉。作为胆小贪财的农民，李春来的出场就诠释了他的“怂”，以马大胆为首的古蓝十
历经靳东、阮经天，胡八一的大旗被潘粤明扛起，摸金宇宙即将成形生如稗草
鬼吹灯系列网剧「龙岭迷窟」你最近看了没有？这段时间一直在热播的「鬼吹灯之龙岭迷窟」而这一次，潘粤明抗起了胡八一的大旗。其实“企鹅”自从签下了“鬼吹灯”全部8本的版权之后，这应该是第4部上映的鬼吹灯系列网剧了，而这4部上映的鬼吹灯网剧却有不同的主角，比如当年的「精绝古城」，第1次出演胡八一的是靳东，当时的「精绝古城」有口碑有播放量，但是为什么现在的胡八一却成了潘粤明？客观来讲，大部分的中国人都有先入
演员胡歌的小人物情怀：观《南方车站的聚会》有感心安家
是什么让演员胡歌一改以往正义的英雄形象，堕落成为亡命徒，通缉犯呢？新电影《南方车站的聚会》：胡歌以主演身份登场，饰演仓皇逃命的罪犯周泽农，一个彻头彻尾的小人物形象，得知自己被举报抓捕后会有30万的悬赏金，便想方设法给老婆传递消息，希望5年未见的老婆去主动举报自己，给家人争取最后的活命钱，真的是一笔拿命换钱的交易。正是这个亡命之徒心中对家人仅存的一丝善念，打动了胡歌的内心，因为胡歌和周泽农一样，总在
《输出力》——输出实操1 根本不酷璇
一、少量输入之后，立即输出二、“诵《诗》三百，授之以政，不达；使于四方，不能专对；虽多，亦奚以为？”三、将经典语录自然融入闲谈中。在透露自己学识的时候，不要刻意炫技，一定要不漏声色的。今天读到34页
约练收获（177）胡晓会
胡晓会河南漯河网络初级九期学员2019.8.9坚持分享第541天一、约练收获（177）今天是电话咨询，两个小时。来访者是听了微课后私下约的。要感恩刘老师！实地咨询和老师们的约练是有一些不同。来访者不明白咱们的咨询架构，不会那么配合。这次咨询做得比较好的方面是：倾听来访者，听出来他的困惑、不容易、做出的努力、学习的坚持、智慧地陪伴孩子；能适时的肯定和赞美；技术的痕迹不多，顺着来访者的需要一步步推进，
《官场之手眼通天》秦峰胡佳芸（完结篇）全文免费阅读【笔趣阁】海边书楼
《官场之手眼通天》秦峰胡佳芸（完结篇）全文免费阅读【笔趣阁】主角：秦峰胡佳芸简介：做官要有两颗心，一颗是责任心，一颗是良心。且看秦峰一个最偏远乡镇的基层公务员，带着这两颗心怎么在尔虞我诈的权力游戏里一步步走向权力的巅峰。可关注微信公众号【寒风书楼】去回个书号【283】，即可免费阅读【官场之手眼通天】全文！第9章你在等我吗？“听说过，那天我正好路过。”“你看到了没有去救人？”“没有。”秦峰不是个喜欢
2021.12.21 科技新闻 | 生活很慢，世界很快【豌豆姑娘整理】豌豆壳外
2021.12.21科技新闻|生活很慢，世界很快【豌豆姑娘整理】1、薇娅偷逃税重罚13.41亿元，社交直播均被F号风暴中的雪梨：F号关店，买地建楼暂停，融资上市搁浅，直播公司已就地解散今年缴税110亿美元，马斯克或将成为美国史上最大纳税人2、胡润2021全球独角兽榜：字节跳动以2.25万亿估值跃升榜首（蚂蚁第二，SpaceX第三）TikTok计划在美国推出外卖餐厅，专做网红美食3、商汤重启招股，将
《长安三万里》观后感晨晨知否
随着《长安三万里》的热播，身边的朋友都去看了，也告诉我去看一看。于是我带着孩子一起去看了。一、故事内容：我首先的一个疑惑就是为什么叫《长安三万里》这个名字呢？带着这个疑惑，走进影院观看。影片的开头是高适带领队伍攻打吐蕃人。然后遇到程公公，便开始讲述和李白的相遇，相知。高适和李白的出身不同。高适的爷爷高侃是唐朝的名将，随着家族的落破，高适想被别人举荐也没人帮助。而李白出身商股之家更是别人不愿举荐。两
《都市不俗人》：之245 有情人终成眷属古韵撷趣
上篇说到，周红在家中为胡姣过生日，虽然说，只是周红爱人周小乐做的几道家常菜，但亲切的感觉却是显而易见的……席中，周红如曾明所料，主动谈及了，胡姣国庆节后一上班就提交上去的《关于加強公司财务部力量》的建议书……周小乐听到爱人周红叙述，公司领导层的反应后，立马意识到，胡姣有升职的可能……周红也很高兴地回应说：12月初的公司职代会后，财务部的基本框架就会定下来……胡姣主动给周红盛了一碗汤，同时真诚地说：
西晋极简编年史江吴童
泰始元年（265年）司马昭去世，其子司马炎继晋王之位。司马炎篡魏，建立晋朝。司马炎泰始三年（267年）司马炎颁布《泰始律》（即《晋律》）。泰始四年（268年）吴主·孙皓出东关，吴将·施绩入江夏，万彧寇襄阳。吴交州刺史·刘俊及修则、顾容前后三度进攻交趾，为交趾太守·杨稷破之。泰始五年（269年）晋将·羊祜镇守襄阳。羊祜泰始六年（270年）鲜卑·秃发树机能叛，秦州刺史·胡烈兵败被杀。泰始七年（271年
《高中第一天》作者：胡毓夏维也纳冰咖啡
2020年8月30日今天是我高中开学的第一天。没有上课，只是教官和老师轮番来了几次说话罢了。不过这也是一种和初中生活不一样的体验。想当初，在初中跟或者是小学的时候，我在看一些关于描写高中生活的小说。不禁对高中生活充满了各种美好的幻想与憧憬——时至今日，我也成为了一名真正的高中生。如今的我也才发现，小说之所以是小说，就是因为他不符合大部分人的生活，实际。是作者虚构出来的另一个世界，他们的课业压力自然
胡文基说写 ychwl
我喜欢演讲演讲对很多人来说，都是一件很可怕的事情，因为演讲时面对着那么多的观众，他们会十分的紧张害怕。我在小学低年级的时候也是很害怕演讲的。那时候的我在上课时，一点也不积极，只是安安静静地坐在座位上一声不吭。那时候老师说，我们这些人就是一群观众。其实那时候我很羡慕那些天天举手回答问题的人，但是我有时候就纳闷：为什么他们就敢举手回答问题呢？难道他们不害羞吗？有时候我也尝试着举手回答问题，但手刚一举起
字字戳心却能宽慰人心十分Lucky
下面的这段文字是我转自“胡小林”公众号的文章，篇幅不长，但字字戳心，可谓醍醐灌顶，一字未改，只为保存、提醒自己……你要相信，这个世上没有过不去的坎，没有熬不过的难，总有一天，会得到满意的答案！做人，不要去怪任何人，好的人给你快乐，坏的人让你成长，关心你的人给你温暖，伤害你的人给你经历。感恩所有的遇见，一切都是最好的安排。怪别人，抱怨别人，只会增加自己的怨气，让自己心累。不如看淡点，换个角度思考，想
炸胡范范语
【范范写日记第365篇】炸胡2021.7.2周五多云范范感恩日记第2篇我正在参加日记星球感恩日记21天幸福营(第9期)，这是我的第二篇感恩日记。爱出者爱返，福往者福来，欢迎大家和我一起开启传递爱和感恩的能量21天！我万分荣幸并深深地感恩，这几天有充裕的时间陪伴你，看到了你狡黠多变的一面。天气热，白天除了午睡就没给女儿穿纸尿裤了。她现在懂得尿急的时候就说“shishi（嘘嘘）”，这样我们就知道要给她
参松养心胶囊(转) 三闲居士a
参松养心胶囊胡洋上海三甲医院呼吸内科副主任医师参松养心胶囊是一种中成药，其主要成分为桑寄生、山茱萸、酸枣仁、龙骨、人参、土鳌虫、甘松、黄连、独活、丹参、赤芍。其临床上主要作用为治疗心律失常。参松养心胶囊治疗由于冠心病、心肌炎、风心病、高心病等心脏病引起的室性早搏显著优于慢心律，治疗由于劳累过度、酗酒、情绪激动等引起的功能性早搏效果显著，治疗阵发性房颤效果与心律平相当。目前公认的心律失常治疗药物，仍
武侠小说节选：扇动江湖：上官帮主飘云千里
刘水和慕容再兴虽然一起跟随赵元侃去过北疆，但是交谈得不多，因此并不熟悉。当时刘水因为和高艳媚本来就相熟而玲珑伶俐和良辰美景也本来就认识，加上高继忠是高艳媚的哥哥，所以这些人和刘水自然很快熟悉了。慕容再兴一则年龄远大过了刘水等人，二则他有心事，因此和别人交谈不多。此刻在勾栏院遇到刘水，慕容再兴也有些惊讶，便问道：“刘兄弟是什么时候回到京城的？美景姑娘的伤势是否痊愈？”刘水说道：“多谢挂怀，舍妹已经痊
孟母堂横穿中国考古中国表里山河第18天——— 乔女士
Hello大家好，今天是2022年8月18日又是一个美好的一天，今天是我来到孟母堂的第18天。今天早上依旧是6:30起来，起床到了3号集合，然后大家就去值值完了以后又开始了每日的晨练，今天晨练过后先吃了饭，然后大家集合，胡老师带我们去做了核酸，做完核酸以后，我们回孟母堂，见到了李老师和他的儿子，我们回去收拾了一下，李老师就开始了今天的语文课，今天的语文课就是了解苏轼，了解苏轼上了一节生动形象的课，
2018-04-24 家禾三生
《不归山》第一部离乡1.嗨！好吗？心情怎样？有没有出去走走？我这里坐标与你刚好有个180度角。北极在北，西海岸在西，绵延4千公里的洛基山脉最美的山峰在窗外。山峰之顶挂着万亿年常驻的冰川，冰川下的雪线，每年都像不堪一击的败军节节后退。尽管天气在变暖，但仍然能时时感觉到寒气的流动，哪怕是在最炎热的夏季。我叫胡家禾，名字挺士。是当年父母按农村家谱替我交的作业，自打到了北美，我自然有了一个英文名。不过因为
『读书•觉察•冥想‖第二百九十天』《生命之书—365天的静心冥想》作者：[印度]克里希那穆提著胡因梦译景熙惟
《生命之书-365天的静心冥想》十月十七日心智的更新我认为不断地努力想变成什么，便是脑子受损和退化的主因。你看我们老化的速度有多快，不但是那些六十岁以上的人，连年轻人都开始老化了。这里指的是心智上的退化。很少有人能够让心保持年轻，我指的年轻并不是有玩乐的兴致，而是一个不受染着的心——不被生活中的意外和事件所扭曲，不因为生活中的奋斗与挣扎而变得疲惫不堪。显然我们必须拥有一颗年轻的心，因为老旧的心已经
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe

海量数据处理

6.1 基础知识：STL容器

set、map、multiset 和multimap

hash_set、hash_map、hash_multiset和hash_multimap

6.2 散列分治

方法介绍

问题实例

寻找Top IP

寻找热门查询

寻找出现频率最高的100个词

寻找Top 10

查询串的重新排列

寻找共同的URL

举一反三

寻找最大的100个数

统计10个出现次数最多的词

寻找出现次数最多的数

统计出现次数最多的前n个数据

1000万个字符串的去重

6.3 多层划分

方法介绍

问题实例

寻找不重复的数

寻找中位数

6.4 MapReduce

方法介绍

问题实例

寻找n2个数的中数

6.5 外排序

方法介绍

问题实例

给107个数据的磁盘文件排序

解法一：位图方案

解法二：多路归并

解法总结

6.6 位图

方法介绍

什么是位图

问题实例

电话号码的统计

2.5亿个整数的去重

整数的快速查询

6.7 布隆过滤器

方法介绍

集合表示和元素查询

误判率估计

最优的散列函数个数

位数组的大小

问题实例

寻找通过URL

垃圾邮件过滤

6.8 Trie树

方法介绍

什么是Trie树

Trie树的构建

查询

问题实例

10个频繁出现的词

寻找热门查询

6.9 数据库

方法介绍

问题实例

索引的选择

6.10 倒排索引

方法介绍

问题实例

文档检索系统

6.11 simhash算法

方法介绍

问题背景

simhash问世

simhash算法的流程

simhash的应用

问题实例

网页的存储

网页重复的判定

举一反三

视频网站的反重复

网盘网站的秒传

本章习题

6.1　基础知识：STL容器

6.2　散列分治

6.3　多层划分

6.4　MapReduce

6.5　外排序

6.6　位图

6.7　布隆过滤器

6.8　Trie树

6.9　数据库

6.10　倒排索引

6.11　simhash算法