KiteRunner24

面试指导：海量数据处理面试题攻略

海量数据
第一部分：从set/map谈到hashtable/hash_map/hash_set
- set/map/multiset/multimap
- hash_set/hash_map/hash_multiset/hash_multimap
第二部分：处理海量数据问题的六把钥匙
- 钥匙一：分而治之/Hash映射 + Hash统计 + 堆/快速/归并排序
  - 1、海量日志数据，提取出某日访问百度次数最多的那个IP
  - 2、寻找热门查询，300万个查询字符串中统计最热门的10个查询
  - 3、有一个1G大小的文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M，返回频数最高的100个词。
  - 4、海量数据分布在100台计算机中，想办法高效统计出这批数据的TOP 10。
  - 5、有10个文件，每个文件1G，每个文件的每一行存放的都是用户的查询串，每个文件的查询串都有可能重复。现在，要求你按照查询串的频度进行排序。
  - 6、给定a和b两个文件，各存放50亿个URL，每个URL各占64字节，内存限制是4G，那么，如何从a和b文件中找出共同的URL？
  - 7、如何在海量数据中找出重复次数最多的那个数据？
  - 8、对于上千万或上亿数据（有重复），统计其中出现次数最多的前N个数据。
  - 9、一个文本文件，大约有一万行，每行一个词，要求统计出其中频度最高的前10个词，请给出思想以及时间复杂度分析。
  - 10、1000万字符串，其中有些是重复的，现需要把重复的全部去掉，保留没有重复的字符串。请问怎么设计和实现？
  - 11、对于一个文本文件，其行数为10亿级别，无法一次读入内存，请找出前10个经常出现的词。
  - 12、从100万个数中找出最大的100个数。
- 钥匙二：多层划分
  - 13、从2.5亿个整数找出不重复的整数的个数，内存空间不足以容纳这2.5亿个整数。
  - 14、在5亿个int整数中找出它们的中位数。
- 钥匙三：布隆滤波器/位图
  - 布隆滤波器
  - 位图
  - 15、给你a和b两个文件，各存放50亿条URL，每条URL占用64字节，内存限制是4G，请找出a、b文件共同的URL。
  - 16、在2.5亿个整数中找出不重复的整数，注，内存不足以容纳这2.5亿个整数。
  - 17、给40亿个不重复的unsigned int的整数，没排过序的，然后再给一个数，如何快速判断这个数是否在那40亿个数当中？
- 钥匙四：Trie树/数据库/倒排索引
  - Trie树
  - 数据库索引
  - 倒排索引(Inverted index)
- 钥匙五：外排序
- 钥匙六：分布式处理之MapReduce
后记

海量数据

所谓海量数据处理，无非就是基于海量数据上的存储、处理和操作。

何谓海量？就是数据量太大，所以导致要么是无法在短时间内迅速解决，要么是数据量太大，导致无法一次性装载入内存。

那解决方法呢？

针对时间，我们可以采用巧妙的算法搭配合适的数据结构，例如Bloom Filter、HashMap、BitMap、堆、数据库或倒排索引、Trie树；针对空间，无非就是一个办法，即大而化小，各个击破，缩小规模，逐个解决。

至于所谓的单机和集群问题，通俗点来讲，单机就是处理装载数据的机器有限（只要考虑CPU、内存、硬盘的数据交互），而集群中则有多台机器，适合分布式处理和并行计算（更多考虑节点和节点间的数据交互）。

处理海量数据问题的方法，无非就是：

分而治之/Hash映射+Hash统计+堆/快速/归并排序
双层桶划分
布隆滤波器/位图
Trie字典树/数据库/倒排索引
外排序
分布式处理之Hadoop及MapReduce

下面，我们将内容安排如下：

在本文的第一部分，我们将从set/map谈到hashtable/hash_map/hash_set，简要介绍下set/map/multimap/multiset，以及hash_set/hash_map/hash_multiset/hash_multimap的区别。在本文的第二部分，则针对上述那6种方法模式结合对应的海量数据处理面试题进行分别具体阐述。

第一部分：从set/map谈到hashtable/hash_map/hash_set

一般来说，STL容器分为两种：

序列式容器（vector/list/deque/stack/queue/heap）
关联式容器（set/map）

关联式容器分为set（集合）和map（映射表）两大类，以及这两大类的衍生体multiset（多键集合）和multimap（多键映射表），这些容器均以RB-Tree红黑树完成。关联式容器还包括第三类关联式容器，如hashtable以及以hashtable为底层机制完成的hash_set/hash_map/hash_multimap/hash_multiset。

也就是说，set/map/multiset/multimap都内含一个RB-Tree，而hashset/hashmap/hash_multiset/hash_multimap都内含一个hashtable。

所谓关联式容器，类似于关联式数据库，每笔数据或每个元素都有一个键（key）和一个值（value），即所谓的key-value键值对。当元素被插入到关联式容器时，容器内部结构便依照其键大小，以某种特定规则将这个元素放置于适当位置。

set/map/multiset/multimap

set，同map一样，所有元素都会根据元素的键自动被排序。因为set/map两者的所有各种操作，都只是转而调用RB-tree的操作行为，不过，值得注意的是，两者都不允许两个元素有相同的键值。

set的元素不像map那样可以同时拥有值value和键key，set元素的键就是值，值就是键，而map的所有元素都是pair，同时拥有值value和键key，pair的第一个元素被视为键，第二个元素被视为值。

至于multiset/multimap，它们的特性及用法和set/map完全相同，唯一的差别就在于它们允许键重复，即所有的插入操作基于RB-tree的insert_equal()而非insert_unique()。

hash_set/hash_map/hash_multiset/hash_multimap

hash_set/hash_map，两者的一切操作都是基于hashtable之上。不同的是，hash_set同set一样，同时拥有值和键，且值就是键，键就是值，而hash_map同map一样，每一个元素同时拥有一个值value和一个键key，所以其使用方式，和上面的map基本相同。但由于hash_set/hash_map都是基于hashtable之上，所以不具备自动排序功能。为什么呢？因为hashtable没有自动排序功能。

至于hash_multiset/hash_multimap的特性与上面的multiset/multimap完全相同，唯一的差别就是它们hash_multiset/hash_multimap的底层实现机制是hashtable（而multiset/multimap，上面说了，底层实现机制是RB-tree），所以它们的元素都不会被自动排序，不过也都允许键值重复。

所以，综上，说白了，什么样的结构决定其什么样的性质，因为set/map/multiset/multimap都是基于RB-tree之上，所以有自动排序功能，而hash_set/hash_map/hash_multiset/hash_multimap都是基于hashtable之上，所以不含有自动排序功能，至于加个前缀multi_无非就是允许键值重复而已。

第二部分：处理海量数据问题的六把钥匙

钥匙一：分而治之/Hash映射 + Hash统计 + 堆/快速/归并排序

1、海量日志数据，提取出某日访问百度次数最多的那个IP

既然是海量数据处理，那么可想而知，给我们的数据那一定是海量的。针对这个数据的海量，我们应该如何着手呢？

是的，无非就是分而治之/Hash映射 + Hash统计 +堆/快速/归并排序，说白了，就是先映射，后统计，最后排序。

Step1：分而治之/Hash映射

针对数据太大，内存受限，采用将大文件取模映射成小文件，即16字方针：大而化小，各个击破，缩小规模，逐个解决。

Step2：Hash统计

当大文件转化成为小文件，那么我们便可以采用常规的hash_map(ip, value)来进行频率统计。

Step3：堆/快速/归并排序

统计完了之后，便可以进行排序（可采用堆排序），得到访问次数最多的IP地址。

具体而论，过程如下：

首先从这一天访问百度的日志的IP提取出来，逐个写入到一个大文件中。可以采用映射的方法，比如%1000，把整个大文件映射为1000个小文件，然后再找出每个小文件中出现频率最大的IP（可以采用hash_map对那1000个文件中的所有IP进行频率统计，然后依次找出各个文件中频率最大的那个IP）以及相应的频率，然后再在这1000个最大的IP中，找出频率最大的IP，即为所求。

注意几个问题：

Hash取模是一种等价映射，不会存在同一个元素分散到不同小文件中的情况，即这里采用的mod1000算法，那么相同的IP在hash取模后，只可能落在同一文件中，不可能被分散的。因为如果两个IP相等，那么经过Hash(IP)之后的哈希值是相同的，将此哈希值取模，必定仍然相等。
那到底什么是hash映射呢？简单来说，就是为了便于计算机在有限的内存中处理大数据，从而通过一种映射散列的方式让数据均匀分布在对应的内存位置（如大数据通过取余的方式映射成小树存放在内存中，或大文件映射成多个小文件），而这个映射散列方式便是我们通常所说的hash函数，设计的好的hash函数能让数据均匀分布而减少冲突。尽管数据映射到了另外一些不同的位置，但数据还是原来的数据，只是代替和表示这些原始数据的形式发生了变化而已。

2、寻找热门查询，300万个查询字符串中统计最热门的10个查询

搜索引擎会通过日志文件把用户每次检索使用的所有查询串都记录下来，每个查询串的长度为1-255字节。假设目前有1000万个记录（虽然总数1000万，但是去重后，不超过300万。一个查询串的重复度越高，说明查询它的用户越多，也就是越热门），请你统计出最热门的10个查询串，要求使用的内存不能超过1G。

解决方案：

虽然有1000万个查询串，但是由于重复度比较高，事实上只有300万的查询串，每个查询串为255字节，总共3M * 255B = 0.75G，因此我们可以考虑把它们都放进内存中去，而现在只是需要一个合适的数据结构，在这里，我们优先选择Hashtable。

因此，我们放弃分而治之/Hash映射的步骤，直接进入Hash统计，然后再排序。故，针对此类典型的TOP_K问题，采取的策略往往是HashMap + 堆排序。具体如下所示：

hash_map统计：对海量数据进行数据预处理。具体为维护一个键为查询串，值为查询串出现次数的hashtable，即hash_map(query, count)，每次读取一个查询串，如果该查询串不在table中，则插入(query, 1)；如果该查询串在table中，则将其计数加一。最终，我们在O(N)的时间复杂度内用哈希表完成了数据统计。
堆排序：借助堆这个数据结构，找出TOP K，时间复杂度为N*logK。具体为维护一个K大小的小根堆，然后遍历300万的查询串，分别和根元素进行对比。所以，我们最终的时间复杂度为：O(N) + N’ * logK（N为1000万，N‘为300万）。

当然，也可以使用trie树来实现。

3、有一个1G大小的文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M，返回频数最高的100个词。

由上面的两个例题，分而治之+Hash统计+堆/快速排序这个套路，我们已经开始有了屡试不爽的感觉。

对于此题，又是文件很大，又是内存受限，怎么办？无非还是：

分而治之/Hash映射：顺序读文件中，对于每个词x，取hash(x)%5000，然后按照该值存到5000个小文件（记为x0,x1,…x4999）中，这样每个文件大概是200k左右。如果其中有的文件超过了1M大小，还可以按照类似的方法继续往下分，直到分解得到的小文件的大小都不超过1M。
hash_map统计：对每个小文件，采用trie树/hash_map等统计每个文件中出现的词以及相应的频率。
堆/快速/归并排序：取出出现频率最大的100个词（可以用含100个结点的最小堆）后，再把100个词及相应的频率存入文件，这样又得到了5000个文件。最后就是把这5000个文件进行归并（类似于归并排序）的过程了。

4、海量数据分布在100台计算机中，想办法高效统计出这批数据的TOP 10。

情况一：如果每个数据元素只出现一次，而且只出现在某一台机器中，那么可以采取以下步骤统计出现次数TOP 10的数据元素：

堆排序：在每台机器上求出TOP 10，可以采用包含10个元素的堆来完成TOP 10搜索过程（TOP10小，用最大堆，TOP10大，用最小堆。比如求TOP10大，我们首先取前10个元素调整成最小堆，如果发现，然后扫描后面的数据，并与堆顶元素比较，如果比堆顶元素大，那么用该元素替换堆顶，然后再调整为最小堆，最后堆中的元素就是TOP10大）。
求出每台机器上的TOP 10后，然后把这100台机器上的TOP 10组合起来，共1000个数据，然后再利用上面类似的方法求出TOP 10即可。

情况二：如果同一个元素重复出现在不同的机器中，比如2台机器求TOP 2，第一台：50/50/49/49/0/0，第二台：0/0/49/49/50/50，此时有两种方法可以尝试求解出现次数的TOP 2。

遍历一遍所有数据，重新Hash取模，使得同一个元素只出现在一台机器上，然后采用上面所说的方法，统计每台机器中每个元素的出现次数，找出TOP 10，继而组合100台机器上的TOP 10，找出最终的TOP 10。
暴力求解，直接统计每台机器中各个元素的出现次数，然后把同一个元素在不同机器中的出现次数相加，最终从所有数据中找出TOP 10。

5、有10个文件，每个文件1G，每个文件的每一行存放的都是用户的查询串，每个文件的查询串都有可能重复。现在，要求你按照查询串的频度进行排序。

方案一：

Hash映射：顺序读取10个文件，按照hash(query)%10的结果将query写入到另外10个文件（记为a0, a1, …, a9）中，这样新生成的每个文件的大小大约也1G（假设hash函数是随机的）。
Hash统计：用一台内存为2G左右的机器，依次对用hash_map(query, query_count)来统计每个query出现的次数。其中，hash_map(query, query_count)是用来统计每个query的出现次数，而不是存储它们的值，出现一次，则count ++。
堆/快速/归并排序：利用快速/堆/归并排序按照出现的次数进行排序，将排序好的query和对应的query_count输出到文件中，这样就得到10个排好序的文件（记为b0, b1, …, b10）。最后，对这10个文件进行归并排序（内排序与外排序相结合）。

方案二：

一般query的总量是有限的，只是重复的次数比较多而已，可能对于所有的query，一次性就可以加入到内存了。这样，我们就可以采用trie树/hash_map等直接来统计每个query出现的次数，然后按出现次数做快速/堆/归并排序就可以了。

方案三：

与方案一类似，但是在做完hash，并分成多个文件后，可以交给多个文件来处理，采用分布式的架构来处理（比如MapReduce），最后再进行合并。

6、给定a和b两个文件，各存放50亿个URL，每个URL各占64字节，内存限制是4G，那么，如何从a和b文件中找出共同的URL？

我们可以估计每个文件的大小为5G*64=320G，远远大于内存限制的4G，因此不可能将其完全加载到内存中处理，我们可以考虑采取分而治之的方法。

具体过程如下：

分而治之/Hash映射：遍历文件a，对每个url求取hash(url)%1000，然后根据所取得的值将url分别存储到1000个小文件（记为a0, a1, …, a999）中，这样每个小文件的大小约300M。然后，遍历文件b，采取和a相同的方式将url分别存储到1000个小文件（记为b0, b1, …, b999）中。这样处理后，所有可能相同的url都在对应的小文件（a0 vs b0, a1 vs b1, …, a999 vs b999）中，不对应的小文件不可能有相同的URL，然后我们只要求出1000对小文件中相同的url即可。
Hash统计：求每对小文件中相同的url时，可以把其中一个小文件的url存储到hash_set中，然后遍历另一个小文件的每个url，看其是否在刚才构建的hash_set中，如果是，那么就是共同的url，存到文件里面就可以了。

7、如何在海量数据中找出重复次数最多的那个数据？

具体方案如下：

首先利用Hash映射算法将海量数据求模映射到不同的小文件中，然后分别求出每个小文件中重复次数最多的一个，并记录重复次数。最后，找出前面求出的数据中重复次数最多的一个即为所求。

8、对于上千万或上亿数据（有重复），统计其中出现次数最多的前N个数据。

具体方案如下：

对于上千万或者上亿数据，如果机器的内存能够存下，则直接使用内存处理；如果机器内存存不下，则可以使用Hash映射将数据映射到不同的文件中。然后使用hash_map/搜索二叉树/红黑树等数据结构进行数据的次数统计，然后使用堆排序取出前N个出现次数最多的数据即可。

9、一个文本文件，大约有一万行，每行一个词，要求统计出其中频度最高的前10个词，请给出思想以及时间复杂度分析。

方案一：

如果文件比较大，无法一次性读入内存，可以采用hash取模的方法，将大文件分解为多个小文件，对于单个小文件利用hash_map统计出每个小文件中10个最常出现的词，然后再进行归并处理，找出最终的10个最常出现的词。

方案二：

通过Hash取模将大文件分解为多个小文件后，除了可以用hash_map统计出每个小文件中10个最常出现的词，也可以用trie树统计每个词出现的次数，时间复杂度是O(n*le)（le表示单词的平准长度），最终同样找出出现最频繁的前10个词（可用堆来实现），时间复杂度是O(n*lg10)。

10、1000万字符串，其中有些是重复的，现需要把重复的全部去掉，保留没有重复的字符串。请问怎么设计和实现？

方案一：

这题用trie树比较合适，hash_map也行。

方案二：

1000w的数据规模插入操作完全不现实，以前试过在STL下100w元素插入set中已经慢得不能忍受，觉得基于hash的实现不会比红黑树好太多，使用vector+sort+unique都要可行许多，建议还是先hash成小文件分开处理再综合。

方案三：

考虑使用布尔滤波器和位图实现。

11、对于一个文本文件，其行数为10亿级别，无法一次读入内存，请找出前10个经常出现的词。

具体方案如下：

首先根据Hash求模，将文件分解为多个小文件。然后对于多个小文件，利用上面的方法求出每个文件中10个最常出现的词，然后再进行归并处理，找出最终的10个最常出现的词。

12、从100万个数中找出最大的100个数。

方案一：

采用局部淘汰法。选取前100个元素，并排序，记为序列L。然后一次扫描剩余的元素x，与排好序的100个元素中最小的元素比，如果比这个最小的要大，那么把这个最小的元素删除，并把x利用插入排序的思想，插入到序列L中。依次循环，直到扫描了所有的元素。其时间复杂度为O(100w*100)。

方案二：

采用快速排序的思想，每次分割之后只考虑比轴大的一部分，直到比轴大的一部分在比100多的时候，采用传统排序算法排序，取前100个。其时间复杂度为O(100w*100)。

方案三：

在前面的题中，我们已经提到了，用一个含100个元素的最小堆完成。其时间复杂度为O(100w*lg100)。

钥匙二：多层划分

多层划分——其实本质上还是分而治之的思想，重在分的技巧上。

适用范围：第k大，中位数，不重复或重复的数字。

基本原理及要点：因为元素范围很大，不能利用直接寻址表，所以通过多次划分，逐步确定范围，然后最后在一个可以接受的范围内进行。

13、从2.5亿个整数找出不重复的整数的个数，内存空间不足以容纳这2.5亿个整数。

方案一：

使用Hash映射的方法，将2.5亿个整数拆分成多个小文件，然后使用hash_map统计取出每个小文件中不重复的数，最后合并即可。

方案二：

采用2-bitmap（每个数分配2个bit，00表示不存在，01表示出现一次，10表示出现多次，11无意义）进行统计，共需内存2^32 * 2bit = 1GB内存，还可以接受。然后扫描这2.5亿个整数，查看2-bitmap中相应位对，如果是00则置为01，如果是01则置为10，其余保持不变。扫描完毕后，查看2-bitmap，将对应位对是01的整数输出即可。

14、在5亿个int整数中找出它们的中位数。

将int数域划分为2^16个区域，然后遍历读取数据，统计落到各个区域中的数的个数，然后根据统计结果，可以判断中位数落在哪个区域。同时，我们可以知道这个区域中第几大数是中位数，第二次扫描时，我们只需统计落在该区域内的那些数就可以了。

钥匙三：布隆滤波器/位图

布隆滤波器

参见：布隆滤波器一文

适用范围：可以用来实现数据字典，进行数据的判重，或者集合求交集。

基本原理及要点：对于原理来说很简单，位数组+k个独立hash函数。将hash函数对应的值的位数组置1，查找时如果发现所有hash函数对应位都是1说明存在，很明显这个过程并不保证查找的结果是100%正确的。同时也不支持删除一个已经插入的关键字，因为该关键字对应的位会牵动到其他的关键字。所以一个简单的改进就是Counting Bloom filter，用一个counter数组代替位数组，就可以支持删除了。

位图

参见：位图一文

基本原理及要点：使用bit数组来表示某些元素是否存在，比如8位电话号码

扩展：Bloom filter可以看做是对bit-map的扩展

15、给你a和b两个文件，各存放50亿条URL，每条URL占用64字节，内存限制是4G，请找出a、b文件共同的URL。

根据这个问题我们来计算下内存的占用，4G=2^32大概是40亿*8大概是340亿，n=50亿，如果按出错率0.01算需要的大概是650亿个bit。现在可用的是340亿，相差并不多，这样可能会使出错率上升些。另外如果这些urlip是一一对应的，就可以转换成ip，则大大简单了。

同时，上文的第6题：给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？如果允许有一定的错误率，可以使用Bloom filter，4G内存大概可以表示340亿bit。将其中一个文件中的url使用Bloom filter映射为这340亿bit，然后挨个读取另外一个文件的url，检查是否与Bloom filter，如果是，那么该url应该是共同的url（注意会有一定的错误率）。

16、在2.5亿个整数中找出不重复的整数，注，内存不足以容纳这2.5亿个整数。

参加题13，理解bitmap的使用方法。

17、给40亿个不重复的unsigned int的整数，没排过序的，然后再给一个数，如何快速判断这个数是否在那40亿个数当中？

方案：用位图/Bitmap的方法，申请512M的内存，一个bit位代表一个unsigned int值。读入40亿个数，设置相应的bit位，读入要查询的数，查看相应bit位是否为1，为1表示存在，为0表示不存在。

钥匙四：Trie树/数据库/倒排索引

Trie树

适用范围：数据量大，重复多，但是数据种类小可以放入内存

基本原理及要点：实现方式，节点孩子的表示方式

扩展：压缩实现

问题实例：

寻找热门查询：查询串的重复度比较高，虽然总数是1千万，但如果除去重复后，不超过3百万个，每个不超过255字节。
有10个文件，每个文件1G，每个文件的每一行都存放的是用户的query，每个文件的query都可能重复。要你按照query的频度排序。1000万字符串，其中有些是相同的(重复),需要把重复的全部去掉，保留没有重复的字符串。请问怎么设计和实现？
一个文本文件，大约有一万行，每行一个词，要求统计出其中最频繁出现的前10个词。其解决方法是：用trie树统计每个词出现的次数，时间复杂度是O(n*le)（le表示单词的平准长度），然后是找出出现最频繁的前10个词。

数据库索引

适用范围：大数据量的增删改查

基本原理及要点：利用数据的设计实现方法，对海量数据的增删改查进行处理。

关于数据库索引及其优化，更多可参见此文：http://www.cnblogs.com/pkuoliver/archive/2011/08/17/mass-data-topic-7-index-and-optimize.html

关于MySQL索引背后的数据结构及算法原理，这里还有一篇很好的文章：http://blog.codinglabs.org/articles/theory-of-mysql-index.html

关于B 树、B+ 树、B* 树及R 树，本blog内有篇绝佳文章：http://blog.csdn.net/v_JULY_v/article/details/6530142

倒排索引(Inverted index)

适用范围：搜索引擎，关键字查询

基本原理及要点：为何叫倒排索引？一种索引方法，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射

以英文为例，下面是要被索引的文本：

    T0 = "it is what it is"
    T1 = "what is it"
    T2 = "it is a banana"

我们就能得到下面的反向文件索引：

    "a": {2}
    "banana": {2}
    "is": {0, 1, 2}
    "it": {0, 1, 2}
    "what":  {0, 1}

检索的条件”what”,”is”和”it”将对应集合的交集。

正向索引开发出来用来存储每个文档的单词的列表。正向索引的查询往往满足每个文档有序频繁的全文查询和每个单词在校验文档中的验证这样的查询。在正向索引中，文档占据了中心的位置，每个文档指向了一个它所包含的索引项的序列。也就是说文档指向了它包含的那些单词，而反向索引则是单词指向了包含它的文档，很容易看到这个反向的关系。

钥匙五：外排序

适用范围：大数据的排序，去重

基本原理及要点：外排序的归并方法，置换选择败者树原理，最优归并树

问题实例：有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16个字节，内存限制大小是1M。返回频数最高的100个词。这个数据具有很明显的特点，词的大小为16个字节，但是内存只有1M做hash明显不够，所以可以用来排序。内存可以当输入缓冲区使用。

钥匙六：分布式处理之MapReduce

MapReduce是一种计算模型，简单的说就是将大批量的工作（数据）分解（MAP）执行，然后再将结果合并成最终结果（REDUCE）。这样做的好处是可以在任务被分解后，可以通过大量机器进行并行计算，减少整个操作的时间。但如果你要我再通俗点介绍，那么，说白了，Mapreduce的原理就是一个归并排序。

适用范围：数据量大，但是数据种类小可以放入内存

基本原理及要点：将数据交给不同的机器去处理，数据划分，结果归约。

问题实例：

海量数据分布在100台电脑中，想个办法高效统计出这批数据的TOP10。
一共有N个机器，每个机器上有N个数。每个机器最多存O(N)个数并对它们操作。如何找到N^2个数的中数(median)？

后记

经过上面这么多海量数据处理面试题的轰炸，我们依然可以看出这类问题是有一定的解决方案/模式的，所以，不必将其神化。

你可能感兴趣的:(算法与数据结构)

设计模式之迭代器模式缘来是庄设计模式设计模式迭代器模式 java
目录定义结构适用场景使用示例定义迭代器模式将集合对象的遍历行为抽象为独立的迭代器对象，通过统一的接口（如hasNext()、next()）实现元素访问，使客户端无需关心底层数据结构。本质是分离集合的迭代逻辑与业务逻辑，实现‌遍历算法与数据结构的解耦‌，提升代码复用性和扩展性。结构适用场景1）‌隐藏复杂数据结构。当集合内部采用树、图等复杂结构时，迭代器封装遍历细节，简化客户端调用‌。2）‌统一遍历接
C语言程序设计--算法与数据结构之建立初堆（大根堆）越太算法与数据结构数据结构程序设计算法 c语言
此代码可以正常运行，下附有运行区//算法8.8建初堆#include#include#defineMAXSIZE20//顺序表的最大长度typedefstruct{intkey;char*otherinfo;}ElemType;//顺序表的存储结构typedefstruct{ElemType*r;//存储空间的基地址intlength;//顺序表长度}SqList;//顺序表类型//用算法8.7筛
刷题巩固-----DAY6（最长上升子序列和）一颗铜豌豆刷题巩固算法 c++
题目链接活动-AcWing本课程系统讲解常用算法与数据结构的应用方式与技巧。https://www.acwing.com/problem/content/1018/这道题是最后一道刷的lis题，下周开始刷背包九讲这道题的题目虽然有最长上升子序列，但是却不是用最长上升子序列的办法来做的，因为要求从一个上升子序列的和最大，感觉更像01背包的做法解题代码为#includeusingnamespacest
Python性能优化指南：让你的代码提速10倍的实用技巧天天进步2015 python python
Python以其简洁易用著称，但在性能方面常被诟病。其实，通过一些实用的优化技巧，你的Python代码性能完全可以提升数倍甚至十倍。本文将结合实际经验，系统介绍Python性能优化的常见思路与方法，并给出具体案例，助你写出高效的Python程序。1.算法与数据结构优化优先选择合适的数据结构：如查找用set/dict，顺序存储用list。避免不必要的嵌套循环，能用集合操作、字典映射解决的，绝不用暴力
008 【入门】算法和数据结构简介要天天开心啊算法专栏算法数据结构
算法与数据结构系统概览|[算法]-[基础]-[通用]一、算法分类与应用1.硬计算类算法|[算法]-[中级]-[通用]特点应用场景复杂度特征-精确求解问题-可能带来较高计算复杂度-大厂笔试/面试-ACM竞赛-所有程序员岗位必考⏱️通常为O(n)~O(n²)//[示例]快速排序算法-分治思想核心实现publicvoidquickSort(int[]arr,intleft,intright){if(le
《python算法与数据结构2000讲》0639. 解码方法 II IT狂飙 python 算法数据结构
《python算法与数据结构2000讲》0639.解码方法II标签：字符串、动态规划难度：困难题目大意描述：给定一个包含数字和字符'*'的字符串s。该字符串已经按照下面的映射关系进行了编码：A映射为1。B映射为2。…Z映射为26。除了上述映射方法，字符串s中可能包含字符'*'，可以表示1~9的任一数字（不包括0）。例如字符串"1*"可以表示为"11"、"12"、…、"18"、"19"中的任何一个编
理工科C语言编程上机实践指南君子心理
本文还有配套的精品资源，点击获取简介：这份笔记为理工科学生提供了一份关于C语言上机实践的重要参考资料，详尽记录了课后习题答案与解析，帮助学生巩固理论知识并提升编程技能。涵盖基础语法、函数、指针、数组与字符串、结构体与联合体、内存管理、预处理、文件操作、错误处理、算法与数据结构等关键知识点。通过运行和调试C源程序，学习者可加深对语言的理解并解决学习中的难题。1.基础语法掌握1.1C语言概述C语言是一
算法入门：深入理解哈希表（C++实现详解） Jay_515 哈希算法算法 C++
哈希表是算法世界中高效查找的魔法师，能以接近O(1)的时间复杂度完成数据检索。本文将带你从零开始掌握这一核心数据结构！一、为什么需要哈希表？在算法与数据结构中，我们经常遇到快速查找的需求。数组查找需要O(n)时间，二分查找需要O(logn)，而哈希表能在平均O(1)时间复杂度内完成查找操作，这种效率提升在数据处理中至关重要。应用场景数据库索引缓存系统（如Redis）编译器符号表拼写检查器数据去重二
如何高效的学习算法与数据结构叶子爱分享学习
说到了数据结构，那么我们就不得不提算法，通过算法来学习数据机构是非常有效的算法的学习是有技巧的，因为已知的算法种类有限，将上图列出的几种算法系统的学习一遍，基本就会降低难度。此外，不得不说，理论不结合实践只是空中楼阁，除了理论学习外，平时可以多刷题，练习算法知识。我们推荐的刷题方法是，不要想着“大而全”的每天去把每种题刷一遍，这样频繁的切换思路，容易抓不到重点。简而言之，很多人平时不会用算法和数据
ChatGPT引领的AI面试攻略系列：AI全栈工程师篇梦想的理由深度学习 chatgpt 人工智能面试
系列文章目录AI全栈工程师（本文）文章目录系列文章目录一、前言二、面试题1.基础理论与数据处理2.机器学习3.深度学习4.大模型与迁移学习5.计算机视觉6.自然语言处理（NLP）7.多模态学习8.AI生成内容（AIGC）9.编程语言与工具10.模型评估与优化11.系统部署与维护12.其他前沿技术13.算法与数据结构14.软件工程15.项目管理与团队协作16.伦理和法律17.行业应用18.最新研究与
算法与数据结构高频面试题 wespten 人工智能 AI大模型 AIGC 深度学习语言图像处理面试职场和发展
1、编写程序，在D盘根目录下创建一个文本文件test.txt，并向其中写入字符串helloworld答：fp=open(r’D:\test.txt’,‘a+’)print(‘helloworld’,file=fp)fp.close()2、写出下面代码的优化版本，提高运行效率x=list(range(500))foriteminx:t=5**5print(item+t)3、编写程序，生成一个包含20
算法与数据结构：位运算与快速幂 Cachel wood 算法与数据结构算法数据结构 python 开发语言 mysql hive sql
文章目录位运算快速幂位运算在计算机的世界中，一切数字都是二进制的。类比于现实世界中我们所使用的十进制，二进制即为「逢二进一」的运算体系。我们以B、D来分别标记二进制与十进制，例如10D表示十进制中的10，而10B则表示二进制中的10。回顾十进制，10D=1×101+0×100=10123D=1×102+2×101+3×100=12310D=1\times10^1+0\times10^0=10\\1
线程和进程的区别？ ConstXiong 线程和进程的区别
线程和进程的区别？简单总结：进程是系统进行资源分配和调度的一个独立单位；线程是进程的一个实体,是CPU调度和分派的基本单位一个程序至少一个进程，一个进程至少一个线程每个进程都有独立的内存地址空间；系统不会为线程分配内存，线程组之间只能共享所属进程的资源程序之间的切换会有较大的开销；线程之间切换的开销小【Java面试题与答案】整理推荐基础与语法集合网络编程并发编程Web安全设计模式框架算法与数据结构
26考研——查找（7） 408答疑+v：18675660929 #数据结构合集~考研算法数据结构笔记
408答疑文章目录一、查找的基本概念二、顺序查找、折半查找和分块查找三、树形查找四、B树和B+树五、散列（Hash）表六、参考资料鲍鱼科技课件26王道考研书七、总结查找算法与数据结构的关系平均查找长度的计算公式查找成功计算公式查找失败计算公式查找概率与数据比较次数一、查找的基本概念文章链接:点击跳转二、顺序查找、折半查找和分块查找文章链接:点击跳转三、树形查找文章链接:点击跳转四、B树和B+树文章
《python算法与数据结构2000讲》0105. 从前序与中序遍历序列构造二叉树 IT狂飙 python 算法数据结构
《python算法与数据结构2000讲》0105.从前序与中序遍历序列构造二叉树文章目录题目大意解题思路思路1：递归遍历思路1：代码思路1：复杂度分析标签：树、数组、哈希表、分治、二叉树难度：中等题目大意描述：给定一棵二叉树的前序遍历结果preorder和中序遍历结果inorder。要求：构造出该二叉树并返回其根节点。说明：1≤preorder
Python 潮流周刊#44：Mojo 本周开源了；AI 学会生成音乐了 Python猫 python mojo 开发语言
△△请给“Python猫”加星标，以免错过文章推送你好，我是猫哥。这里每周分享优质的Python、AI及通用技术内容，大部分为英文。本周刊开源，欢迎投稿[1]。另有电报频道[2]作为副刊，补充发布更加丰富的资讯，欢迎关注。特别提醒：本期周刊赠书5本《明解Python算法与数据结构》，详情见文末。本文博客版链接（更好的阅读体验）：https://pythoncat.top/posts/2024-03
Java算法与数据结构测试——二叉树 Ssaty. python java
第1关：向二叉树中插入叶子节点本关任务：向二叉树中插入左叶子节点，请补全insertLeft(Tx,Nodeparent)函数实现插入左叶子节点的功能。packagestep1;classNode{privateTdata;publicN
算法与数据结构 - 常用图算法总结方博士AI机器人算法
在图论中，图算法非常重要，广泛应用于计算机科学、网络分析、社交网络、地理信息系统等领域。下面是一些常用的图算法，按不同功能和应用场景分类：1.图的遍历图遍历算法用于遍历图中的节点和边。主要有两种常见的图遍历方法：深度优先搜索(DFS)：从一个起始节点开始，尽可能深的搜索每一个分支，直到没有未被访问的节点为止。适用于拓扑排序、路径搜索等。广度优先搜索(BFS)：从起始节点开始，优先访问距离起始节点最
算法之树的详解（C++）丰收连山 C和CPP 算法 c++数据结构
简介：在算法与数据结构的浩瀚宇宙中，树结构宛如一颗璀璨的明星，以其独特的层次化组织和高效的数据处理能力，在众多领域熠熠生辉。从经典的二叉树、红黑树，到应用广泛的B树、Trie树，每一种树结构都承载着独特的设计思想与算法逻辑。它们不仅是解决搜索、排序、存储等问题的“秘密武器”，更在数据库索引优化、自然语言处理、文件系统管理等场景中发挥着不可替代的作用。本文将带您深入树结构的奇妙世界，一同领略其精妙设
【Java】2025 年 Java 学习路线：从入门到精通 RumIV Java java 学习开发语言
文章目录一、Java基础阶段（4-8周）1.开发环境搭建2.核心语法基础3.面向对象编程（OOP）4.核心类库二、Java进阶阶段（6-10周）1.JVM深度理解2.并发编程3.新特性掌握4.设计模式三、开发框架与中间件（8-12周）1.Spring生态2.持久层框架3.常用中间件四、项目实战阶段（持续进行）1.初级项目2.进阶项目五、面试与持续提升1.面试准备重点2.算法与数据结构3.扩展学习方
细节决定成败！java给数组添加一个元素的方法n m0_57081324 程序员 java 经验分享面试
前言算法血拼：Google+百度+Alibaba+字节+Tencent+网易+360+拼夕夕+美团不知不觉双11就来了,轰轰烈烈的秋招也完美结束了,不知算法与数据结构成为了多少小伙伴进击大厂的绊脚石？恰好，我这两天花了点时间，整理了些各大厂（Google+百度+Alibaba+字节+Tencent+网易+360+拼夕夕+美团+小米）面试过程中的一些算法题，感兴趣的朋友不妨来试个水测试一下自己？正文
算法与数据结构--图论基础知识 >进阶的程序员> 算法与数据结构算法与数据结构图论数据结构算法
1、图论基础概念GraphTheory图：是由由节点和边组成的数据模型，它有两个重要部分1、节点2、边节点是两个村，边表示两个村直接连通的道路或者节点是人，边表示人与人之间的关系。点是一个域名，边是域名之间的调整无向图：边是没有方向的（如两个村是否有道路连接）有向图：边有方向（人际关系网，你认识他，他不认识你）有向图会使图更加复杂。具有不对称性。可以把无向图认为是一种特殊有向图，是双向的。无权图：
从数学视角看程序设计：图算法与数据结构的深度融合荣华富贵8 算法
随着计算机科学的不断进步，程序设计与数学的联系愈加紧密，尤其在图算法与数据结构领域，数学原理为程序的优化提供了强有力的支持。本文将从数学视角深入探讨图算法与数据结构的关系，探索其在现代程序设计中的核心作用、发展趋势及应用实例，并结合前沿代码与经典操作，提供一个全面的技术框架。1.引言：图算法与数据结构的数学基础图论作为一门数学学科，广泛应用于程序设计的多个领域，从网络通信到人工智能再到推荐系统，图
算法与数据结构执梦起航算法数据结构
一、理解算法算法是一组定义明确的指令或步骤，用于解决特定问题或执行某项任务，它可以是简单的计算过程，也可以是复杂的逻辑运算。算法是计算机科学的核心，它能帮助计算机高效地处理数据、执行任务和解决问题。二、算法五大特性输入：算法可以有零个或多个输入，输入是算法操作的数据。所谓零个输入是指算法本身给定了初始条件。输出：算法至少有一个输出。输出是算法处理输入后产生的结果。有限性：一个算法必须保证在有限的步
算法与数据结构（数组与链表） shifting_sand 数据结构算法链表
数组线性数据结构。相同类型元素存储在连续内存空间，在其中的位置为索引。初始化数组#无初始值arr:list[int]=[0]*5nums:list[int]=[1,3,2,5,4]访问元素#元素内存地址=数组内存地址+元素长度x元素索引defrandom_access(nums:list[int])->int:random_index=random.randint(0,len(nums)-1)ra
深⼊理解指针(5)[回调函数、qsort相关知识（qsort可用于各种类型变量的排序）】 <但愿. c语言 javascript 开发语言 ecmascript
Hello大家好！很高兴与大家见面！给生活添点快乐，开始今天的编程之路。我的博客:<但愿.我的专栏:C语言、题目精讲、算法与数据结构、C++欢迎点赞，关注目录1.回调函数2.qsort相关知识（qsort可用于各种类型变量的排序）一回调函数1定义/作用:把函数的指针（地址）
嵌入式开发的算法与数据结构龙晓飞度包罗万象 golang 开发语言后端
Python基础引言Python是一种广泛使用的高级编程语言，因其简单易学、功能强大而受到开发者的青睐。Python最早由荷兰人GuidovanRossum于1989年开始设计，并于1991年发布了第一个版本。从那时起，Python已经发展成为一种功能齐全的编程语言，其在数据分析、人工智能、Web开发、自动化脚本、科学计算等多个领域都有着广泛的应用。本文将深入探讨Python的基础知识，包括Pyt
编写之道：在清晰、安全与性能间寻求平衡的艺术泡沫o0 C/C++编程世界:探索C/C++的奥妙 c++20 c++开发语言 C++11 qt 嵌入式 arm
目录标题编写之道：在清晰、安全与性能间寻求平衡的艺术1.清晰为基石：可读性与可维护性的优先考量2.架构之选：算法与数据结构的关键作用3.资源纪律：内存管理的意识与实践4.外部交互：I/O操作的性能考量5.巨人的肩膀：利用语言特性与标准库6.知己知彼：测量是优化的前提结论：走向可持续的高质量软件结语编写之道：在清晰、安全与性能间寻求平衡的艺术我们都渴望编写出高效、健壮且优雅的代码。然而，在实际的开发
‌【Python性能革命】：深入解析高性能编程与六大核心优化技术（附完整代码实战）一个天蝎座白勺程序猿 python 开发语言 numpy numba
目录‌一、背景与挑战：为什么Python需要性能优化？‌‌二、性能分析：定位瓶颈的四大工具‌‌1.cProfile：函数级耗时分析‌2.line_profiler：逐行代码分析‌3.memory_profiler：内存占用分析‌4.py-spy：实时性能监控‌三、六大核心优化技术详解‌‌1.算法与数据结构优化‌‌2.向量化计算：NumPy替代原生循环‌‌3.并发与并行：突破GIL限制‌‌4.JIT
算法——模拟努力的老周 OI #模拟模拟模拟算法
什么是模拟仅仅使用较简单的算法和数据结构的题目。模拟顾名思义，就是按照题目的要求，一步步写出代码。当然，模拟一般也不是很好写，参见经典题目魔兽世界和猪国杀。特点模拟题目通常具有码量大、操作多、思路繁复的特点。并且由于它码量大，会导致很难查错，如果是在考试上是相当浪费时间的。模拟过程所有OI题的解题过程都可以这样描述。从实际问题建立抽象模型，并使用合使的算法与数据结构来实现。模拟的过程可以是这样的：
矩阵求逆（JAVA）利用伴随矩阵 qiuwanchi 利用伴随矩阵求逆矩阵
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(利用伴随矩阵) * @author 邱万迟
单例（Singleton）模式 aoyouzi 单例模式 Singleton
3.1 概述如果要保证系统里一个类最多只能存在一个实例时，我们就需要单例模式。这种情况在我们应用中经常碰到，例如缓存池，数据库连接池，线程池，一些应用服务实例等。在多线程环境中，为了保证实例的唯一性其实并不简单，这章将和读者一起探讨如何实现单例模式。 3.2
[开源与自主研发]就算可以轻易获得外部技术支持,自己也必须研发 comsci 开源
现在国内有大量的信息技术产品，都是通过盗版，免费下载，开源，附送等方式从国外的开发者那里获得的。。。。。。虽然这种情况带来了国内信息产业的短暂繁荣，也促进了电子商务和互联网产业的快速发展，但是实际上，我们应该清醒的看到，这些产业的核心力量是被国外的
页面有两个frame,怎样点击一个的链接改变另一个的内容 Array_06 UI XHTML
<a src="地址" targets="这里写你要操作的Frame的名字" />搜索然后你点击连接以后你的新页面就会显示在你设置的Frame名字的框那里 targerts="",就是你要填写目标的显示页面位置 ===================== 例如： <frame src=&
Struts2实现单个/多个文件上传和下载 oloz 文件上传 struts
struts2单文件上传：步骤01:jsp页面  　　<form action="fileUplo
推荐10个在线logo设计网站 362217990 logo
在线设计Logo网站。 1、http://flickr.nosv.org（这个太简单） 2、http://www.logomaker.com/?source=1.5770.1 3、http://www.simwebsol.com/ImageTool 4、http://www.logogenerator.com/logo.php?nal=1&tpl_catlist[]=2 5、ht
jsp上传文件香水浓 jsp fileupload
1. jsp上传 Notice： 1. form表单 method 属性必须设置为 POST 方法，不能使用 GET 方法 2. form表单 enctype 属性需要设置为 multipart/form-data 3. form表单 action 属性需要设置为提交到后台处理文件上传的jsp文件地址或者servlet地址。例如 uploadFile.jsp 程序文件用来处理上传的文
我的架构经验系列文章 - 前端架构 agevs JavaScript Web 框架 UI jQuer
框架层面：近几年前端发展很快，前端之所以叫前端因为前端是已经可以独立成为一种职业了，js也不再是十年前的玩具了，以前富客户端RIA的应用可能会用flash/flex或是silverlight，现在可以使用js来完成大部分的功能，因此js作为一门前端的支撑语言也不仅仅是进行的简单的编码，越来越多框架性的东西出现了。越来越多的开发模式转变为后端只是吐json的数据源，而前端做所有UI的事情。MVCMV
android ksoap2 中把XML(DataSet) 当做参数传递 aijuans android
我的android app中需要发送webservice ，于是我使用了 ksop2 进行发送，在测试过程中不是很顺利,不能正常工作.我的web service 请求格式如下 [html] view plain copy <Envelope xmlns="http://schemas.
使用Spring进行统一日志管理 + 统一异常管理 baalwolf spring
统一日志和异常管理配置好后，SSH项目中，代码以往散落的log.info() 和 try..catch..finally 再也不见踪影！统一日志异常实现类： [java] view plain copy package com.pilelot.web.util; impor
Android SDK 国内镜像 BigBird2012 android sdk
一、镜像地址： 1、东软信息学院的 Android SDK 镜像，比配置代理下载快多了。配置地址， http://mirrors.neusoft.edu.cn/configurations.we#android 2、北京化工大学的： IPV4:ubuntu.buct.edu.cn IPV4:ubuntu.buct.cn IPV6:ubuntu.buct6.edu.cn
HTML无害化和Sanitize模块 bijian1013 JavaScript AngularJS Linky Sanitize
一.ng-bind-html、ng-bind-html-unsafe AngularJS非常注重安全方面的问题，它会尽一切可能把大多数攻击手段最小化。其中一个攻击手段是向你的web页面里注入不安全的HTML，然后利用它触发跨站攻击或者注入攻击。考虑这样一个例子，假设我们有一个变量存
[Maven学习笔记二]Maven命令 bit1129 maven
mvn compile compile编译命令将src/main/java和src/main/resources中的代码和配置文件编译到target/classes中，不会对src/test/java中的测试类进行编译 MVN编译使用 maven-resources-plugin:2.6:resources maven-compiler-plugin:2.5.1:compile &nbs
【Java命令二】jhat bit1129 Java命令
jhat用于分析使用jmap dump的文件，，可以将堆中的对象以html的形式显示出来，包括对象的数量，大小等等，并支持对象查询语言。 jhat默认开启监听端口7000的HTTP服务，jhat是Java Heap Analysis Tool的缩写 1. 用法： [hadoop@hadoop bin]$ jhat -help Usage: jhat [-stack <bool&g
JBoss 5.1.0 GA:Error installing to Instantiated: name=AttachmentStore state=Desc ronin47
进到类似目录 server/default/conf/bootstrap，打开文件 profile.xml找到： Xml代码<bean name="AttachmentStore" class="org.jboss.system.server.profileservice.repository.AbstractAtta
写给初学者的6条网页设计安全配色指南 brotherlamp UI ui自学 ui视频 ui教程 ui资料
网页设计中最基本的原则之一是，不管你花多长时间创造一个华丽的设计，其最终的角色都是这场秀中真正的明星——内容的衬托我仍然清楚地记得我最早的一次美术课，那时我还是一个小小的、对凡事都充满渴望的孩子，我摆放出一大堆漂亮的彩色颜料。我仍然记得当我第一次看到原色与另一种颜色混合变成第二种颜色时的那种兴奋，并且我想，既然两种颜色能创造出一种全新的美丽色彩，那所有颜色
有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。写一个函数实现。复杂度是什么。 bylijinnan java 算法面试
import java.util.Random; import java.util.Set; import java.util.TreeSet; /** * http://weibo.com/1915548291/z7HtOF4sx * #面试题#有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。 * 写一个函数实现。复杂度是什么
struts2获得request、session、application方式 chiangfai application
1、与Servlet API解耦的访问方式。 a.Struts2对HttpServletRequest、HttpSession、ServletContext进行了封装，构造了三个Map对象来替代这三种对象要获取这三个Map对象，使用ActionContext类。 -----> package pro.action; import java.util.Map; imp
改变python的默认语言设置 chenchao051 python
import sys sys.getdefaultencoding() 可以测试出默认语言，要改变的话，需要在python lib的site-packages文件夹下新建： sitecustomize.py，这个文件比较特殊，会在python启动时来加载，所以就可以在里面写上： import sys sys.setdefaultencoding('utf-8') &n
mysql导入数据load data infile用法 daizj mysql 导入数据
我们常常导入数据！mysql有一个高效导入方法，那就是load data infile 下面来看案例说明基本语法： load data [low_priority] [local] infile 'file_name txt' [replace | ignore] into table tbl_name [fields [terminated by't'] [OPTI
phpexcel导入excel表到数据库简单入门示例 dcj3sjt126com PHP Excel
跟导出相对应的，同一个数据表，也是将phpexcel类放在class目录下，将Excel表格中的内容读取出来放到数据库中 <?php error_reporting(E_ALL); set_time_limit(0); ?> <html> <head> <meta http-equiv="Content-Type"
22岁到72岁的男人对女人的要求 dcj3sjt126com
22岁男人对女人的要求是：一，美丽，二，性感，三，有份具品味的职业，四，极有耐性，善解人意，五，该聪明的时候聪明，六，作小鸟依人状时尽量自然，七，怎样穿都好看，八，懂得适当地撒娇，九，虽作惊喜反应，但看起来自然，十，上了床就是个无条件荡妇。 32岁的男人对女人的要求，略作修定，是：一，入得厨房，进得睡房，二，不必服侍皇太后，三，不介意浪漫蜡烛配盒饭，四，听多过说，五，不再傻笑，六，懂得独
Spring和HIbernate对DDM设计的支持 e200702084 DAO 设计模式 spring Hibernate 领域模型
A：数据访问对象 DAO和资源库在领域驱动设计中都很重要。DAO是关系型数据库和应用之间的契约。它封装了Web应用中的数据库CRUD操作细节。另一方面，资源库是一个独立的抽象，它与DAO进行交互，并提供到领域模型的“业务接口”。资源库使用领域的通用语言，处理所有必要的DAO，并使用领域理解的语言提供对领域模型的数据访问服务。
NoSql 数据库的特性比较 geeksun NoSQL
Redis 是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。目前由VMware主持开发工作。 1. 数据模型作为Key-value型数据库，Redis也提供了键（Key）和值（Value）的映射关系。除了常规的数值或字符串，Redis的键值还可以是以下形式之一： Lists （列表） Sets
使用 Nginx Upload Module 实现上传文件功能 hongtoushizi nginx
转载自： http://www.tuicool.com/wx/aUrAzm 普通网站在实现文件上传功能的时候，一般是使用Python，Java等后端程序实现，比较麻烦。Nginx有一个Upload模块，可以非常简单的实现文件上传功能。此模块的原理是先把用户上传的文件保存到临时文件，然后在交由后台页面处理，并且把文件的原名，上传后的名称，文件类型，文件大小set到页面。下
spring-boot-web-ui及thymeleaf基本使用 jishiweili spring thymeleaf
视图控制层代码demo如下： @Controller @RequestMapping("/") public class MessageController { private final MessageRepository messageRepository; @Autowired public MessageController(Mes
数据源架构模式之活动记录 home198979 PHP 架构活动记录数据映射
hello!架构一、概念活动记录（Active Record）：一个对象，它包装数据库表或视图中某一行，封装数据库访问，并在这些数据上增加了领域逻辑。对象既有数据又有行为。活动记录使用直截了当的方法，把数据访问逻辑置于领域对象中。二、实现简单活动记录活动记录在php许多框架中都有应用，如cakephp。 <?php /** * 行数据入口类 *
Linux Shell脚本之自动修改IP pda158 linux centos Debian 脚本
作为一名 Linux SA，日常运维中很多地方都会用到脚本，而服务器的ip一般采用静态ip或者MAC绑定，当然后者比较操作起来相对繁琐，而前者我们可以设置主机名、ip信息、网关等配置。修改成特定的主机名在维护和管理方面也比较方便。如下脚本用途为：修改ip和主机名等相关信息，可以根据实际需求修改，举一反三！ #!/bin/sh #auto Change ip netmask ga
开发环境搭建独浮云 eclipse jdk tomcat
最近在开发过程中，经常出现MyEclipse内存溢出等错误，需要重启的情况，好麻烦。对于一般的JAVA+TOMCAT项目开发，其实没有必要使用重量级的MyEclipse，使用eclipse就足够了。尤其是开发机器硬件配置一般的人。 &n

面试指导：海量数据处理面试题攻略

海量数据

第一部分：从set/map谈到hashtable/hash_map/hash_set

set/map/multiset/multimap

hash_set/hash_map/hash_multiset/hash_multimap

第二部分：处理海量数据问题的六把钥匙

钥匙一：分而治之/Hash映射 + Hash统计 + 堆/快速/归并排序

1、海量日志数据，提取出某日访问百度次数最多的那个IP

2、寻找热门查询，300万个查询字符串中统计最热门的10个查询

3、有一个1G大小的文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M，返回频数最高的100个词。

4、海量数据分布在100台计算机中，想办法高效统计出这批数据的TOP 10。

5、有10个文件，每个文件1G，每个文件的每一行存放的都是用户的查询串，每个文件的查询串都有可能重复。现在，要求你按照查询串的频度进行排序。

6、给定a和b两个文件，各存放50亿个URL，每个URL各占64字节，内存限制是4G，那么，如何从a和b文件中找出共同的URL？

7、如何在海量数据中找出重复次数最多的那个数据？

8、对于上千万或上亿数据（有重复） ，统计其中出现次数最多的前N个数据。

9、一个文本文件，大约有一万行，每行一个词，要求统计出其中频度最高的前10个词，请给出思想以及时间复杂度分析。

10、1000万字符串，其中有些是重复的，现需要把重复的全部去掉，保留没有重复的字符串。请问怎么设计和实现？

11、对于一个文本文件，其行数为10亿级别，无法一次读入内存，请找出前10个经常出现的词。

12、从100万个数中找出最大的100个数。

钥匙二：多层划分

13、从2.5亿个整数找出不重复的整数的个数，内存空间不足以容纳这2.5亿个整数。

14、在5亿个int整数中找出它们的中位数。

钥匙三：布隆滤波器/位图

布隆滤波器

位图

15、给你a和b两个文件，各存放50亿条URL，每条URL占用64字节，内存限制是4G，请找出a、b文件共同的URL。

16、在2.5亿个整数中找出不重复的整数，注，内存不足以容纳这2.5亿个整数。

17、给40亿个不重复的unsigned int的整数，没排过序的，然后再给一个数，如何快速判断这个数是否在那40亿个数当中？

钥匙四：Trie树/数据库/倒排索引

Trie树

数据库索引

倒排索引(Inverted index)

钥匙五：外排序

钥匙六：分布式处理之MapReduce

后记

你可能感兴趣的:(算法与数据结构)

8、对于上千万或上亿数据（有重复），统计其中出现次数最多的前N个数据。