教你怎样迅速秒杀掉：99%的海量数据处理面试题

教你怎样迅速秒杀掉：99%的海量数据处理面试题

作者：July
出处：结构之法算法之道blog

前言

一般而言，标题含有“秒杀”，“99%”，“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌，但进一步来讲，假设读者读罢此文，却无不论什么收获，那么，我也甘愿背负这种罪名，:-)，同一时候，此文能够看做是对这篇文章：十道海量数据处理面试题与十个方法大总结的一般抽象性总结。

毕竟受文章和理论之限，本文将摒弃绝大部分的细节，仅仅谈方法/模式论，且注重用最通俗最直白的语言阐述相关问题。最后，有一点必须强调的是，全文行文是基于面试题的分析基础之上的，详细实践过程中，还是得详细情况详细分析，且各个场景下须要考虑的细节也远比本文所描写叙述的不论什么一种解决方法复杂得多。

OK，若有不论什么问题，欢迎随时指教。谢谢。

何谓海量数据处理？

所谓海量数据处理，无非就是基于海量数据上的存储、处理、操作。何谓海量，就是数据量太大，所以导致要么是无法在较短时间内迅速解决，要么是数据太大，导致无法一次性装入内存。

那解决的方法呢?针对时间，我们能够採用巧妙的算法搭配合适的数据结构，如Bloom filter/Hash/bit-map/堆/数据库或倒排索引/trie树，针对空间，无非就一个办法：大而化小，分而治之（hash映射），你不是说规模太大嘛，那简单啊，就把规模大化为规模小的，各个击破不就完了嘛。

至于所谓的单机及集群问题，通俗点来讲，单机就是处理装载数据的机器有限(仅仅要考虑cpu，内存，硬盘的数据交互)，而集群，机器有多辆，适合分布式处理，并行计算(很多其它考虑节点和节点间的数据交互)。

再者，通过本blog内的有关海量数据处理的文章：Big Data Processing，我们已经大致知道，处理海量数据问题，无非就是：

分而治之/hash映射 + hash统计 + 堆/高速/归并排序；
双层桶划分
Bloom filter/Bitmap；
Trie树/数据库/倒排索引；
外排序；
分布式处理之Hadoop/Mapreduce。

以下，本文第一部分、从set/map谈到hashtable/hash_map/hash_set，简要介绍下set/map/multiset/multimap，及hash_set/hash_map/hash_multiset/hash_multimap之区别(万丈高楼平地起，基础最重要)，而本文第二部分，则针对上述那6种方法模式结合相应的海量数据处理面试题分别详细阐述。

第一部分、从set/map谈到hashtable/hash_map/hash_set

稍后本文第二部分中将多次提到hash_map/hash_set，以下稍稍介绍下这些容器，以作为基础准备。一般来说，STL容器分两种，

序列式容器(vector/list/deque/stack/queue/heap)，
关联式容器。关联式容器又分为set(集合)和map(映射表)两大类，以及这两大类的衍生体multiset(多键集合)和multimap(多键映射表)，这些容器均以RB-tree完毕。此外，还有第3类关联式容器，如hashtable(散列表)，以及以hashtable为底层机制完毕的hash_set(散列集合)/hash_map(散列映射表)/hash_multiset(散列多键集合)/hash_multimap(散列多键映射表)。也就是说，set/map/multiset/multimap都内含一个RB-tree，而hash_set/hash_map/hash_multiset/hash_multimap都内含一个hashtable。

所谓关联式容器，相似关联式数据库，每笔数据或每一个元素都有一个键值(key)和一个实值(value)，即所谓的Key-Value(键-值对)。当元素被插入到关联式容器中时，容器内部结构(RB-tree/hashtable)便依照其键值大小，以某种特定规则将这个元素放置于适当位置。

包括在非关联式数据库中，比方，在MongoDB内，文档(document)是最主要的数据组织形式，每一个文档也是以Key-Value（键-值对）的方式组织起来。一个文档能够有多个Key-Value组合，每一个Value能够是不同的类型，比方String、Integer、List等等。
{ "name" : "July",
"sex" : "male",
"age" : 23 }

set/map/multiset/multimap

set，同map一样，全部元素都会依据元素的键值自己主动被排序，由于set/map两者的全部各种操作，都仅仅是转而调用RB-tree的操作行为，只是，值得注意的是，两者都不同意两个元素有同样的键值。
不同的是：set的元素不像map那样能够同一时候拥有实值(value)和键值(key)，set元素的键值就是实值，实值就是键值，而map的全部元素都是pair，同一时候拥有实值(value)和键值(key)，pair的第一个元素被视为键值，第二个元素被视为实值。
至于multiset/multimap，他们的特性及使用方法和set/map全然同样，唯一的区别就在于它们同意键值反复，即全部的插入操作基于RB-tree的insert_equal()而非insert_unique()。

hash_set/hash_map/hash_multiset/hash_multimap

hash_set/hash_map，两者的一切操作都是基于hashtable之上。不同的是，hash_set同set一样，同一时候拥有实值和键值，且实质就是键值，键值就是实值，而hash_map同map一样，每一个元素同一时候拥有一个实值(value)和一个键值(key)，所以其使用方式，和上面的map基本同样。但由于hash_set/hash_map都是基于hashtable之上，所以不具备自己主动排序功能。为什么?由于hashtable没有自己主动排序功能。
至于hash_multiset/hash_multimap的特性与上面的multiset/multimap全然同样，唯一的区别就是它们hash_multiset/hash_multimap的底层实现机制是hashtable（而multiset/multimap，上面说了，底层实现机制是RB-tree），所以它们的元素都不会被自己主动排序，只是也都同意键值反复。

所以，综上，说白了，什么样的结构决定其什么样的性质，由于set/map/multiset/multimap都是基于RB-tree之上，所以有自己主动排序功能，而hash_set/hash_map/hash_multiset/hash_multimap都是基于hashtable之上，所以不含有自己主动排序功能，至于加个前缀multi_无非就是同意键值反复而已。

此外，

关于什么hash，请看blog内此篇文章；
关于红黑树，请參看blog内系列文章，
关于hash_map的详细应用：请看这里，关于hash_set：请看此文。

OK，接下来，请看本文第二部分、处理海量数据问题之六把密匙。

第二部分、处理海量数据问题之六把密匙

密匙一、分而治之/Hash映射 + Hash_map统计 + 堆/高速/归并排序

1、海量日志数据，提取出某日訪问百度次数最多的那个IP。

既然是海量数据处理，那么可想而知，给我们的数据那就一定是海量的。针对这个数据的海量，我们怎样着手呢?对的，无非就是分而治之/hash映射 + hash统计 + 堆/高速/归并排序，说白了，就是先映射，而后统计，最后排序：

分而治之/hash映射：针对数据太大，内存受限，仅仅能是：把大文件化成(取模映射)小文件，即16字方针：大而化小，各个击破，缩小规模，逐个解决
hash_map统计：当大文件转化了小文件，那么我们便能够採用常规的hash_map(ip，value)来进行频率统计。
堆/高速排序：统计完了之后，便进行排序(可採取堆排序)，得到次数最多的IP。

详细而论，则是： “首先是这一天，并且是訪问百度的日志中的IP取出来，逐个写入到一个大文件里。注意到IP是32位的，最多有个2^32个IP。同样能够採用映射的方法，比方%1000，把整个大文件映射为1000个小文件，再找出每一个小文中出现频率最大的IP（能够採用hash_map对那1000个文件里的全部IP进行频率统计，然后依次找出各个文件里频率最大的那个IP）及相应的频率。然后再在这1000个最大的IP中，找出那个频率最大的IP，即为所求。”--十道海量数据处理面试题与十个方法大总结。

关于本题，还有几个问题，例如以下：

1、Hash取模是一种等价映射，不会存在同一个元素分散到不同小文件里的情况，即这里採用的是mod1000算法，那么同样的IP在hash取模后，仅仅可能落在同一个文件里，不可能被分散的。由于假设两个IP相等，那么经过Hash(IP)之后的哈希值是同样的，将此哈希值取模（如模1000），必然仍然相等。
2、那究竟什么是hash映射呢？简单来说，就是为了便于计算机在有限的内存中处理big数据，从而通过一种映射散列的方式让数据均匀分布在相应的内存位置(如大数据通过取余的方式映射成小树存放在内存中，或大文件映射成多个小文件)，而这个映射散列方式便是我们通常所说的hash函数，设计的好的hash函数能让数据均匀分布而降低冲突。尽管数据映射到了另外一些不同的位置，但数据还是原来的数据，仅仅是取代和表示这些原始数据的形式发生了变化而已。

OK，有兴趣的，还能够再了解下一致性hash算法，见blog内此文第五部分：http://blog.csdn.net/v_july_v/article/details/6879101。

2、寻找热门查询，300万个查询字符串中统计最热门的10个查询

原题：搜索引擎会通过日志文件把用户每次检索使用的全部检索串都记录下来，每一个查询串的长度为1-255字节。假设眼下有一千万个记录（这些查询串的反复度比較高，尽管总数是1千万，但假设除去反复后，不超过3百万个。一个查询串的反复度越高，说明查询它的用户越多，也就是越热门），请你统计最热门的10个查询串，要求使用的内存不能超过1G。

解答：由上面第1题，我们知道，数据大则划为小的，如如一亿个Ip求Top 10，可先%1000将ip分到1000个小文件里去，并保证一种ip仅仅出如今一个文件里，再对每一个小文件里的ip进行hashmap计数统计并按数量排序，最后归并或者最小堆依次处理每一个小文件的top10以得到最后的结。

但假设数据规模比較小，能一次性装入内存呢?比方这第2题，尽管有一千万个Query，可是由于反复度比較高，因此事实上仅仅有300万的Query，每一个Query255Byte，因此我们能够考虑把他们都放进内存中去（300万个字符串假设没有反复，都是最大长度，那么最多占用内存3M*1K/4=0.75G。所以能够将全部字符串都存放在内存中进行处理），而如今仅仅是须要一个合适的数据结构，在这里，HashTable绝对是我们优先的选择。

所以我们放弃分而治之/hash映射的步骤，直接上hash统计，然后排序。So，针对此类典型的TOP K问题，採取的对策往往是：hashmap + 堆。例如以下所看到的：

hash_map统计：先对这批海量数据预处理。详细方法是：维护一个Key为Query字串，Value为该Query出现次数的HashTable，即hash_map(Query，Value)，每次读取一个Query，假设该字串不在Table中，那么增加该字串，并且将Value值设为1；假设该字串在Table中，那么将该字串的计数加一就可以。终于我们在O(N)的时间复杂度内用Hash表完毕了统计；
堆排序：第二步、借助堆这个数据结构，找出Top K，时间复杂度为N‘logK。即借助堆结构，我们能够在log量级的时间内查找和调整/移动。因此，维护一个K(该题目中是10)大小的小根堆，然后遍历300万的Query，分别和根元素进行对照。所以，我们终于的时间复杂度是：O（N） + N' * O（logK），（N为1000万，N’为300万）。

别忘了这篇文章中所述的堆排序思路：“维护k个元素的最小堆，即用容量为k的最小堆存储最先遍历到的k个数，并假设它们即是最大的k个数，建堆费时O（k），并调整堆(费时O（logk）)后，有k1>k2>...kmin（kmin设为小顶堆中最小元素）。继续遍历数列，每次遍历一个元素x，与堆顶元素比較，若x>kmin，则更新堆（x入堆，用时logk），否则不更新堆。这样下来，总费时O（k*logk+（n-k）*logk）=O（n*logk）。此方法得益于在堆中，查找等各项操作时间复杂度均为logk。”--第三章续、Top K算法问题的实现。
当然，你也能够採用trie树，keyword域存该查询串出现的次数，没有出现为0。最后用10个元素的最小推来对出现频率进行排序。

3、有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存大小限制是1M。返回频数最高的100个词。
由上面那两个例题，分而治之 + hash统计 + 堆/高速排序这个套路，我们已经開始有了屡试不爽的感觉。以下，再拿几道再多多验证下。请看此第3题：又是文件非常大，又是内存受限，咋办?还能怎么办呢?无非还是：

分而治之/hash映射：顺序读文件里，对于每一个词x，取hash(x)%5000，然后依照该值存到5000个小文件（记为x0,x1,...x4999）中。这样每一个文件大概是200k左右。假设当中的有的文件超过了1M大小，还能够依照相似的方法继续往下分，直到分解得到的小文件的大小都不超过1M。
hash_map统计：对每一个小文件，採用trie树/hash_map等统计每一个文件里出现的词以及相应的频率。
堆/归并排序：取出出现频率最大的100个词（能够用含100个结点的最小堆）后，再把100个词及相应的频率存入文件，这样又得到了5000个文件。最后就是把这5000个文件进行归并（相似于归并排序）的过程了。

4、海量数据分布在100台电脑中，想个办法高效统计出这批数据的TOP10。

假设每一个数据元素仅仅出现一次，并且仅仅出如今某一台机器中，那么能够採取以下步骤统计出现次数TOP10的数据元素：

堆排序：在每台电脑上求出TOP10，能够採用包括10个元素的堆完毕（TOP10小，用最大堆，TOP10大，用最小堆，比方求TOP10大，我们首先取前10个元素调整成最小堆，假设发现，然后扫描后面的数据，并与堆顶元素比較，假设比堆顶元素大，那么用该元素替换堆顶，然后再调整为最小堆。最后堆中的元素就是TOP10大）。
求出每台电脑上的TOP10后，然后把这100台电脑上的TOP10组合起来，共1000个数据，再利用上面相似的方法求出TOP10就能够了。

但假设同一个元素反复出如今不同的电脑中呢，例如以下样例所述：

这个时候，你能够有两种方法：

遍历一遍全部数据，又一次hash取摸，如此使得同一个元素仅仅出如今单独的一台电脑中，然后採用上面所说的方法，统计每台电脑中各个元素的出现次数找出TOP10，继而组合100台电脑上的TOP10，找出终于的TOP10。
或者，暴力求解：直接统计统计每台电脑中各个元素的出现次数，然后把同一个元素在不同机器中的出现次数相加，终于从全部数据中找出TOP10。

5、有10个文件，每一个文件1G，每一个文件的每一行存放的都是用户的query，每一个文件的query都可能反复。要求你依照query的频度排序。

方案1：直接上：

hash映射：顺序读取10个文件，依照hash(query)%10的结果将query写入到另外10个文件（记为a0,a1,..a9）中。这样新生成的文件每一个的大小大约也1G（假设hash函数是随机的）。
hash_map统计：找一台内存在2G左右的机器，依次对用hash_map(query, query_count)来统计每一个query出现的次数。注：hash_map(query,query_count)是用来统计每一个query的出现次数，不是存储他们的值，出现一次，则count+1。
堆/高速/归并排序：利用高速/堆/归并排序依照出现次数进行排序，将排序好的query和相应的query_cout输出到文件里，这样得到了10个排好序的文件（记为）。最后，对这10个文件进行归并排序（内排序与外排序相结合）。依据此方案1，这里有一份实现：https://github.com/ooooola/sortquery/blob/master/querysort.py。

除此之外，此题还有以下两个方法：
方案2：一般query的总量是有限的，仅仅是反复的次数比較多而已，可能对于全部的query，一次性就能够增加到内存了。这样，我们就能够採用trie树/hash_map等直接来统计每一个query出现的次数，然后按出现次数做高速/堆/归并排序就能够了。

方案3：与方案1相似，但在做完hash，分成多个文件后，能够交给多个文件来处理，採用分布式的架构来处理（比方MapReduce），最后再进行合并。

6、给定a、b两个文件，各存放50亿个url，每一个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？

能够预计每一个文件安的大小为5G×64=320G，远远大于内存限制的4G。所以不可能将其全然载入到内存中处理。考虑採取分而治之的方法。

分而治之/hash映射：遍历文件a，对每一个url求取，然后依据所取得的值将url分别存储到1000个小文件（记为，这里漏写个了a1）中。这样每一个小文件的大约为300M。遍历文件b，採取和a同样的方式将url分别存储到1000小文件里（记为）。这样处理后，全部可能同样的url都在相应的小文件（）中，不正确应的小文件不可能有同样的url。然后我们仅仅要求出1000对小文件里同样的url就可以。
hash_set统计：求每对小文件里同样的url时，能够把当中一个小文件的url存储到hash_set中。然后遍历另一个小文件的每一个url，看其是否在刚才构建的hash_set中，假设是，那么就是共同的url，存到文件里面就能够了。

OK，此第一种方法：分而治之/hash映射 + hash统计 + 堆/高速/归并排序，再看最后4道题，例如以下：

7、怎么在海量数据中找出反复次数最多的一个？

方案：先做hash，然后求模映射为小文件，求出每一个小文件里反复次数最多的一个，并记录反复次数。然后找出上一步求出的数据中反复次数最多的一个就是所求（详细參考前面的题）。

8、上千万或上亿数据（有反复），统计当中出现次数最多的前N个数据。

方案：上千万或上亿的数据，如今的机器的内存应该能存下。所以考虑採用hash_map/搜索二叉树/红黑树等来进行统计次数。然后利用堆取出前N个出现次数最多的数据。

9、一个文本文件，大约有一万行，每行一个词，要求统计出当中最频繁出现的前10个词，请给出思想，给出时间复杂度分析。

方案1：假设文件比較大，无法一次性读入内存，能够採用hash取模的方法，将大文件分解为多个小文件，对于单个小文件利用hash_map统计出每一个小文件里10个最常出现的词，然后再进行归并处理，找出终于的10个最常出现的词。
方案2：通过hash取模将大文件分解为多个小文件后，除了能够用hash_map统计出每一个小文件里10个最常出现的词，也能够用trie树统计每一个词出现的次数，时间复杂度是O(n*le)（le表示单词的平准长度），终于同样找出出现最频繁的前10个词（可用堆来实现），时间复杂度是O(n*lg10)。

10. 1000万字符串，当中有些是反复的，须要把反复的全部去掉，保留没有反复的字符串。请怎么设计和实现？

方案1：这题用trie树比較合适，hash_map也行。
方案2：from xjbzju:，1000w的数据规模插入操作全然不现实，曾经试过在stl下100w元素插入set中已经慢得不能忍受，认为基于hash的实现不会比红黑树好太多，使用vector+sort+unique都要可行很多，建议还是先hash成小文件分开处理再综合。

上述方案2中读者xbzju的方法让我想到了一些问题，即是set/map，与hash_set/hash_map的性能比較?共计3个问题，例如以下：

1、hash_set在千万级数据下，insert操作优于set? 这位blog：http://t.cn/zOibP7t 给的实践数据可靠不?
2、那map和hash_map的性能比較呢? 谁做过相关实验?

3、那查询操作呢，例如以下段文字所述?

或者小数据量时用map，构造快，大数据量时用hash_map?

rbtree PK hashtable

据朋友№邦卡猫№的做的红黑树和hash table的性能測试中发现：当数据量基本上int型key时，hash table是rbtree的3-4倍，但hash table通常会浪费大概一半内存。

由于hash table所做的运算就是个%，而rbtree要比較非常多，比方rbtree要看value的数据，每一个节点要多出3个指针（或者偏移量）假设须要其它功能，比方，统计某个范围内的key的数量，就须要加一个计数成员。

且1s rbtree能进行大概50w+次插入，hash table大概是差点儿相同200w次。只是非常多的时候，其速度能够忍了，比如倒排索引差点儿相同也是这个速度，并且单线程，且倒排表的拉链长度不会太大。正由于基于树的实现事实上不比hashtable慢到哪里去，所以数据库的索引一般都是用的 B/B+树，并且B+树还对磁盘友好(B树能有效降低它的高度，所以降低磁盘交互次数)。比方如今非常流行的NoSQL数据库，像 MongoDB也是採用的B树索引。关于B树系列，请參考本blog内此篇文章：从B树、B+树、B*树谈到R 树。很多其它请待兴许实验论证。

11. 一个文本文件，找出前10个常常出现的词，但这次文件比較长，说是上亿行或十亿行，总之无法一次读入内存，问最优解。
方案1：首先依据用hash并求模，将文件分解为多个小文件，对于单个文件利用上题的方法求出每一个文件件中10个最常出现的词。然后再进行归并处理，找出终于的10个最常出现的词。

12. 100w个数中找出最大的100个数。

方案1：採用局部淘汰法。选取前100个元素，并排序，记为序列L。然后一次扫描剩余的元素x，与排好序的100个元素中最小的元素比，假设比这个最小的要大，那么把这个最小的元素删除，并把x利用插入排序的思想，插入到序列L中。依次循环，知道扫描了全部的元素。复杂度为O(100w*100)。
方案2：採用高速排序的思想，每次切割之后仅仅考虑比轴大的一部分，知道比轴大的一部分在比100多的时候，採用传统排序算法排序，取前100个。复杂度为O(100w*100)。
方案3：在前面的题中，我们已经提到了，用一个含100个元素的最小堆完毕。复杂度为O(100w*lg100)。

接下来，咱们来看另外一种方法，双层捅划分。

密匙二、多层划分

多层划分----事实上本质上还是分而治之的思想，重在“分”的技巧上！
　　适用范围：第k大，中位数，不反复或反复的数字
　　基本原理及要点：由于元素范围非常大，不能利用直接寻址表，所以通过多次划分，逐步确定范围，然后最后在一个能够接受的范围内进行。

问题实例：

13、2.5亿个整数中找出不反复的整数的个数，内存空间不足以容纳这2.5亿个整数。
有点像鸽巢原理，整数个数为2^32,也就是，我们能够将这2^32个数，划分为2^8个区域(比方用单个文件代表一个区域)，然后将数据分离到不同的区域，然后不同的区域在利用bitmap就能够直接攻克了。也就是说仅仅要有足够的磁盘空间，就能够非常方便的解决。

14、5亿个int找它们的中位数。

思路一：这个样例比上面那个更明显。首先我们将int划分为2^16个区域，然后读取数据统计落到各个区域里的数的个数，之后我们依据统计结果就能够推断中位数落到那个区域，同一时候知道这个区域中的第几大数刚好是中位数。然后第二次扫描我们仅仅统计落在这个区域中的那些数就能够了。
实际上，假设不是int是int64，我们能够经过3次这种划分就可以降低到能够接受的程度。即能够先将int64分成2^24个区域，然后确定区域的第几大数，在将该区域分成2^20个子区域，然后确定是子区域的第几大数，然后子区域里的数的个数仅仅有2^20，就能够直接利用direct addr table进行统计了。
　　思路二@绿色夹克衫：同样须要做两遍统计，假设数据存在硬盘上，就须要读取2次。
方法同基数排序有些像，开一个大小为65536的Int数组，第一遍读取，统计Int32的高16位的情况，也就是0-65535，都算作0,65536 - 131071都算作1。就相当于用该数除以65536。Int32 除以 65536的结果不会超过65536种情况，因此开一个长度为65536的数组计数就能够。每读取一个数，数组中相应的计数+1，考虑有负数的情况，须要将结果加32768后，记录在相应的数组内。
第一遍统计之后，遍历数组，逐个累加统计，看中位数处于哪个区间，比方处于区间k，那么0- k-1的区间里数字的数量sum应该<n/2（2.5亿）。而k+1 - 65535的计数和也<n/2，第二遍统计同上面的方法相似，但这次仅仅统计处于区间k的情况，也就是说(x / 65536) + 32768 = k。统计仅仅统计低16位的情况。并且利用刚才统计的sum，比方sum = 2.49亿，那么如今就是要在低16位里面找100万个数(2.5亿-2.49亿)。这次计数之后，再统计一下，看中位数所处的区间，最后将高位和低位组合一下就是结果了。

密匙三：Bloom filter/Bitmap

Bloom filter

关于什么是Bloom filter，请參看blog内此文：

海量数据处理之Bloom Filter详细解释

　　适用范围：能够用来实现数据字典，进行数据的判重，或者集合求交集
　　基本原理及要点：
　　对于原理来说非常简单，位数组+k个独立hash函数。将hash函数相应的值的位数组置1，查找时假设发现全部hash函数相应位都是1说明存在，非常明显这个过程并不保证查找的结果是100%正确的。同一时候也不支持删除一个已经插入的keyword，由于该keyword相应的位会牵动到其它的keyword。所以一个简单的改进就是 counting Bloom filter，用一个counter数组取代位数组，就能够支持删除了。
　　另一个比較重要的问题，怎样依据输入元素个数n，确定位数组m的大小及hash函数个数。当hash函数个数k=(ln2)*(m/n)时错误率最小。在错误率不大于E的情况下，m至少要等于n*lg(1/E)才干表示随意n个元素的集合。但m还应该更大些，由于还要保证bit数组里至少一半为0，则m应该>=nlg(1/E)*lge 大概就是nlg(1/E)1.44倍(lg表示以2为底的对数)。
　　举个样例我们假设错误率为0.01，则此时m应大概是n的13倍。这样k大概是8个。
　　注意这里m与n的单位不同，m是bit为单位，而n则是以元素个数为单位(准确的说是不同元素的个数)。通常单个元素的长度都是有非常多bit的。所以使用bloom filter内存上通常都是节省的。

　　扩展：

　　Bloom filter将集合中的元素映射到位数组中，用k（k为哈希函数个数）个映射位是否全1表示元素在不在这个集合中。Counting bloom filter（CBF）将位数组中的每一位扩展为一个counter，从而支持了元素的删除操作。Spectral Bloom Filter（SBF）将其与集合元素的出现次数关联。SBF採用counter中的最小值来近似表示元素的出现频率。

能够看下上文中的第6题：

“6、给你A,B两个文件，各存放50亿条URL，每条URL占用64字节，内存限制是4G，让你找出A,B文件共同的URL。假设是三个乃至n个文件呢？

　　依据这个问题我们来计算下内存的占用，4G=2^32大概是40亿*8大概是340亿，n=50亿，假设按出错率0.01算须要的大概是650亿个bit。如今可用的是340亿，相差并不多，这样可能会使出错率上升些。另外假设这些urlip是一一相应的，就能够转换成ip，则大大简单了。

同一时候，上文的第5题：给定a、b两个文件，各存放50亿个url，每一个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？假设同意有一定的错误率，能够使用Bloom filter，4G内存大概能够表示340亿bit。将当中一个文件里的url使用Bloom filter映射为这340亿bit，然后挨个读取另外一个文件的url，检查是否与Bloom filter，假设是，那么该url应该是共同的url（注意会有一定的错误率）。”

Bitmap

关于什么是Bitmap，请看blog内此文第二部分：http://blog.csdn.net/v_july_v/article/details/6685962。

以下关于Bitmap的应用，能够看下上文中的第13题，以及另外一道新题：

“13、在2.5亿个整数中找出不反复的整数，注，内存不足以容纳这2.5亿个整数。

方案1：採用2-Bitmap（每一个数分配2bit，00表示不存在，01表示出现一次，10表示多次，11无意义）进行，共需内存2^32 * 2 bit=1 GB内存，还能够接受。然后扫描这2.5亿个整数，查看Bitmap中相相应位，假设是00变01，01变10，10保持不变。所描完事后，查看bitmap，把相应位是01的整数输出就可以。
方案2：也可採用与第1题相似的方法，进行划分小文件的方法。然后在小文件里找出不反复的整数，并排序。然后再进行归并，注意去除反复的元素。”

15、给40亿个不反复的unsigned int的整数，没排过序的，然后再给一个数，怎样高速推断这个数是否在那40亿个数当中？
方案1：frome oo，用位图/Bitmap的方法，申请512M的内存，一个bit位代表一个unsigned int值。读入40亿个数，设置相应的bit位，读入要查询的数，查看相应bit位是否为1，为1表示存在，为0表示不存在。

密匙四、Trie树/数据库/倒排索引

Trie树

　　适用范围：数据量大，反复多，可是数据种类小能够放入内存
　　基本原理及要点：实现方式，节点孩子的表示方式
　　扩展：压缩实现。
　　问题实例：

上面的第2题：寻找热门查询：查询串的反复度比較高，尽管总数是1千万，但假设除去反复后，不超过3百万个，每一个不超过255字节。
上面的第5题：有10个文件，每一个文件1G，每一个文件的每一行都存放的是用户的query，每一个文件的query都可能反复。要你依照query的频度排序。
1000万字符串，当中有些是同样的(反复),须要把反复的全部去掉，保留没有反复的字符串。请问怎么设计和实现？
上面的第8题：一个文本文件，大约有一万行，每行一个词，要求统计出当中最频繁出现的前10个词。其解决方法是：用trie树统计每一个词出现的次数，时间复杂度是O(n*le)（le表示单词的平准长度），然后是找出出现最频繁的前10个词。

很多其它有关Trie树的介绍，请參见此文：从Trie树（字典树）谈到后缀树。

数据库索引
　　适用范围：大数据量的增删改查
　　基本原理及要点：利用数据的设计实现方法，对海量数据的增删改查进行处理。

关于数据库索引及其优化，很多其它可參见此文：http://www.cnblogs.com/pkuoliver/archive/2011/08/17/mass-data-topic-7-index-and-optimize.html；
关于MySQL索引背后的数据结构及算法原理，这里另一篇非常好的文章：http://blog.codinglabs.org/articles/theory-of-mysql-index.html；
关于B 树、B+ 树、B* 树及R 树，本blog内有篇绝佳文章：http://blog.csdn.net/v_JULY_v/article/details/6530142。

倒排索引(Inverted index)
　　适用范围：搜索引擎，keyword查询
　　基本原理及要点：为何叫倒排索引？一种索引方法，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。
　以英文为例，以下是要被索引的文本：
T0 = "it is what it is"
T1 = "what is it"
T2 = "it is a banana"
我们就能得到以下的反向文件索引：
"a": {2}
"banana": {2}
"is": {0, 1, 2}
"it": {0, 1, 2}
"what": {0, 1}
　检索的条件"what","is"和"it"将相应集合的交集。

　　正向索引开发出来用来存储每一个文档的单词的列表。正向索引的查询往往满足每一个文档有序频繁的全文查询和每一个单词在校验文档中的验证这种查询。在正向索引中，文档占领了中心的位置，每一个文档指向了一个它所包括的索引项的序列。也就是说文档指向了它包括的那些单词，而反向索引则是单词指向了包括它的文档，非常easy看到这个反向的关系。
　　扩展：
　　问题实例：文档检索系统，查询那些文件包括了某单词，比方常见的学术论文的keyword搜索。

关于倒排索引的应用，很多其它请參见：

密匙五、外排序

　　适用范围：大数据的排序，去重
　　基本原理及要点：外排序的归并方法，置换选择败者树原理，最优归并树
问题实例：
　　1).有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16个字节，内存大小限制是1M。返回频数最高的100个词。
　　这个数据具有非常明显的特点，词的大小为16个字节，可是内存仅仅有1M做hash明显不够，所以能够用来排序。内存能够当输入缓冲区使用。

关于多路归并算法及外排序的详细应用场景，请參见blog内此文：

第十章、怎样给10^7个数据量的磁盘文件排序

密匙六、分布式处理之Mapreduce

MapReduce是一种计算模型，简单的说就是将大批量的工作（数据）分解（MAP）运行，然后再将结果合并成终于结果（REDUCE）。这样做的优点是能够在任务被分解后，能够通过大量机器进行并行计算，降低整个操作的时间。但假设你要我再通俗点介绍，那么，说白了，Mapreduce的原理就是一个归并排序。

适用范围：数据量大，可是数据种类小能够放入内存
基本原理及要点：将数据交给不同的机器去处理，数据划分，结果归约。
问题实例：

The canonical example application of MapReduce is a process to count the appearances of each different word in a set of documents:
海量数据分布在100台电脑中，想个办法高效统计出这批数据的TOP10。
一共同拥有N个机器，每一个机器上有N个数。每一个机器最多存O(N)个数并对它们操作。怎样找到N^2个数的中数(median)？

很多其它详细阐述请參见blog内：

其它模式/方法论，结合操作系统知识

至此，六种处理海量数据问题的模式/方法已经阐述完毕。据观察，这方面的面试题无外乎以上一种或其变形，然题目为何取为是：秒杀99%的海量数据处理面试题，而不是100%呢。OK，给读者看最后一道题，例如以下：

非常大的文件，装不进内存。每行一个int类型数据，如今要你随机取100个数。

我们发现上述这道题，不管是以上不论什么一种模式/方法都不好做，那有什么好的别的方法呢？我们能够看看：操作系统内存分页系统设计(说白了，就是映射+建索引)。

Windows 2000使用基于分页机制的虚拟内存。每一个进程有4GB的虚拟地址空间。基于分页机制，这4GB地址空间的一些部分被映射了物理内存，一些部分映射硬盘上的交换文件，一些部分什么也没有映射。程序中使用的都是4GB地址空间中的虚拟地址。而訪问物理内存，须要使用物理地址。关于什么是物理地址和虚拟地址，请看：

物理地址 (physical address): 放在寻址总线上的地址。放在寻址总线上，假设是读，电路依据这个地址每位的值就将相应地址的物理内存中的数据放到数据总线中传输。假设是写，电路依据这个地址每位的值就将相应地址的物理内存中放入数据总线上的内容。物理内存是以字节(8位)为单位编址的。
虚拟地址 (virtual address): 4G虚拟地址空间中的地址，程序中使用的都是虚拟地址。使用了分页机制之后，4G的地址空间被分成了固定大小的页，每一页或者被映射到物理内存，或者被映射到硬盘上的交换文件里，或者没有映射不论什么东西。对于一般程序来说，4G的地址空间，仅仅有一小部分映射了物理内存，大片大片的部分是没有映射不论什么东西。物理内存也被分页，来映射地址空间。对于32bit的 Win2k，页的大小是4K字节。CPU用来把虚拟地址转换成物理地址的信息存放在叫做页文件夹和页表的结构里。

物理内存分页，一个物理页的大小为4K字节，第0个物理页从物理地址 0x00000000 处開始。由于页的大小为4KB，就是0x1000字节，所以第1页从物理地址 0x00001000 处開始。第2页从物理地址 0x00002000 处開始。能够看到由于页的大小是4KB，所以仅仅须要32bit的地址中高20bit来寻址物理页。

返回上面我们的题目：非常大的文件，装不进内存。每行一个int类型数据，如今要你随机取100个数。针对此题，我们能够借鉴上述操作系统中内存分页的设计方法，做出例如以下解决方式：

操作系统中的方法，先生成4G的地址表，在把这个表划分为小的4M的小文件做个索引，二级索引。30位前十位表示第几个4M文件，后20位表示在这个4M文件的第几个，等等，基于key value来设计存储，用key来建索引。

但假设如今仅仅有10000个数，然后怎么去随机从这一万个数里面随机取100个数？请读者思考。很多其它海里数据处理面试题，请參见此文第一部分：http://blog.csdn.net/v_july_v/article/details/6685962。

參考文献

十道海量数据处理面试题与十个方法大总结；
海量数据处理面试题集锦与Bit-map详细解释；
十一、从头到尾彻底解析Hash表算法；
海量数据处理之Bloom Filter详细解释；
从Trie树（字典树）谈到后缀树；
第三章续、Top K算法问题的实现；
第十章、怎样给10^7个数据量的磁盘文件排序；
从B树、B+树、B*树谈到R 树；
第二十三、四章：杨氏矩阵查找，倒排索引关键词Hash不反复编码实践；
第二十六章：基于给定的文档生成倒排索引的编码与实践；
从Hadhoop框架与MapReduce模式中谈海量数据处理；
第十六~第二十章：全排列，跳台阶，奇偶排序，第一个仅仅出现一次等问题；
http://blog.csdn.net/v_JULY_v/article/category/774945；
STL源代码剖析第五章，侯捷著；
2012百度实习生招聘笔试题：http://blog.csdn.net/hackbuteer1/article/details/7542774。

后记

经过上面这么多海量数据处理面试题的轰炸，我们依旧能够看出这类问题是有一定的解决方式/模式的，所以，不必将其神化。然这类面试题所包括的问题还是比較简单的，若您在这方面有很多其它实践经验，欢迎随时来信与我不吝分享：[email protected]。当然，自会注明分享者及来源。

只是，相信你也早就意识到，若单纯论海量数据处理面试题，本blog内的有关海量数据处理面试题的文章已涵盖了你能在网上所找到的70~80%。但有点，必须负责任的敬告大家：不管是这些海量数据处理面试题也好，还是算法也好，面试时，70~80%的人不是倒在这双方面，而是倒在基础之上(诸如语言，数据库，操作系统，网络协议等等)，所以，不管不论什么时候，基础最重要，没了基础，便什么都不是。

最后，推荐国外一面试题站点：http://www.careercup.com/，以及个人正在读的Redis/MongoDB绝佳站点：http://blog.nosqlfan.com/。

OK，本文若有不论什么问题，欢迎随时不吝留言，评论，赐教，谢谢。完。

你可能感兴趣的:(海量数据)

Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
高职人工智能训练师边缘计算实训室解决方案武汉唯众智创人工智能训练师边缘计算实训室人工智能训练师实训室边缘计算实训室
一、引言随着物联网（IoT）、大数据、人工智能（AI）等技术的飞速发展，计算需求日益复杂和多样化。传统的云计算模式虽在一定程度上满足了这些需求，但在处理海量数据、保障实时性与安全性、提升计算效率等方面仍面临诸多挑战。在此背景下，边缘计算作为一种新兴的计算模式应运而生，通过将计算能力推向数据生成或用户所在的网络边缘，显著降低了数据传输的延迟，提升了处理效率，并增强了数据安全性。针对高等职业院校的人工
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
HBase（一）——HBase介绍 weixin_30595035 大数据数据库数据结构与算法
HBase介绍1、关系型数据库与非关系型数据库（1）关系型数据库关系型数据库最典型的数据机构是表，由二维表及其之间的联系所组成的一个数据组织优点：1、易于维护：都是使用表结构，格式一致2、使用方便：SQL语言通用，可用于复杂查询3、复杂操作：支持SQL，可用于一个表以及多个表之间非常复杂的查询缺点：1、读写性能比较差，尤其是海量数据的高效率读写2、固定的表结构，灵活度稍欠3、高并发读写需求，传统关
HBase介绍 mingyu1016 数据库
概述HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。HBase的表结构HBase以表的形式存储数据。表有行和列组成。列划分为
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
海量数据查找最大K个值：数据结构与算法的选择星辰@Sea 数据结构 Java 数据结构
在处理大数据集时，经常需要找到数据集中最大的K个元素，这样的需求在很多领域都有广泛应用，例如推荐系统中寻找评分最高的K个商品、数据分析中找出最重要的K个特征、搜索引擎中找到排名前K的结果等等。面对海量数据，传统的排序方法可能不再适用，因为它们通常具有较高的时间复杂度。因此，选择合适的数据结构和算法对于提高效率至关重要。本文将详细介绍如何在海量数据集中查找最大的K个值，探讨不同的数据结构与算法选择，
【架构师之路】四、系统架构蜗牛互联网架构 Java 数据库运维
高并发，大流量Google日均PV数35亿，日均IP访问数3亿微信在线用户数10亿天猫双十一活动一天交易额3000亿高可用系统7*24小时不间断服务。大型互联网站的宕机事件通常会成为新闻焦点。海量数据需要存储、管理海量数据。Facebook每周上传的照片数目接近10亿百度收录的网页数目有数百亿Google有近百万台服务器为全球用户提供服务用户分布广泛，网络情况复杂中美光缆的数次故障，也让一些对国外
淘宝海量数据库OceanBase:系统架构详解 weixin_34356555 数据库系统架构大数据
无论从数据量还是访问量，OceanBase不再能够是一个单机系统，即使一台单机能服务高达几个TB的数据、提供几万QPS的服务能力，因此，分布式系统不可避免，然而，内部如何实现拆表(拆库)以及如何实现数据库的事务，成为了一个很大的挑战和十分艰难的抉择：相关文章：淘宝海量数据库之一：来自业务的挑战淘宝海量数据库之二：一致性选择淘宝海量数据库之三：事务的ACID一种选择是当前数据库的常用的水平拆库，淘宝
大家对人工智能的发展怎么看？川哥说运营人工智能
对人工智能产品发展的几点认识说起人工智能的时候，大家都在说是机器具有了人的思维，可以进行情感表达，决策判断。并且通过越多的数据和越长的训练，智能性会越来越高。那么这种智能怎么来评价其可用性，包括怎么训练，怎么集成，怎么选择呢？人工智能的基础在这个点上，我们谈一下要做到人工智能需要的几个必备条件。海量数据“海量”数据究竟是多少，其实对于不同的学习目标标准是不一样的。训练一个具有智能和学习能力的算法，
数据治理：企业如何精准管理与高效利用数据？ ShiTuanWang 数据挖掘大数据数据分析网络
当今这个信息爆炸的时代，数据已成为企业最宝贵的资产之一。随着大数据、云计算、人工智能等技术的飞速发展，如何有效管理和利用数据，以驱动业务增长、优化决策过程、提升用户体验，成为了每一家企业都需直面的重大挑战。在数字化转型的浪潮中，数据不再是冷冰冰的数字堆砌，而是转化为洞察市场、预测趋势、指导决策的重要力量。然而，海量数据的快速增长也带来了存储、处理、分析及安全等方面的多重挑战。企业若想在竞争激烈的市
StarRocks on AWS Graviton3，实现 50% 以上性价比提升 StarRocks_labs 大数据数据库数据仓库湖仓一体云计算
在数据时代，企业拥有前所未有的大量数据资产，但如何从海量数据中发掘价值成为挑战。数据分析凭借强大的分析能力，可从不同维度挖掘数据中蕴含的见解和规律，为企业战略决策提供依据。数据分析在营销、风险管控、产品优化等领域发挥着关键作用,帮助企业提高运营效率、优化业务流程、发现新商机、增强竞争力。低成本高效率的完成对海量数据的分析，及时准确的释放数据价值，已成为企业赢得竞争优势的利器。StarRockson
HBase 傲雪凌霜，松柏长青大数据后端 hbase 数据库大数据
ApacheHBase是一个基于Hadoop分布式文件系统（HDFS）构建的分布式、面向列的NoSQL数据库，主要用于处理大规模、稀疏的表结构数据。HBase的设计灵感来自Google的Bigtable，能够在海量数据中提供快速的随机读写操作，适合需要低延迟和高吞吐量的应用场景。HBase核心概念表（Table）：HBase的数据存储在表中，与传统的关系型数据库不同，HBase的表是面向列族（Co
Hive的优势与使用场景傲雪凌霜，松柏长青后端大数据 hive hadoop 数据仓库
Hive的优势Hive作为一个构建在Hadoop上的数据仓库工具，具有许多优势，特别是在处理大规模数据分析任务时。以下是Hive的主要优势：1.与Hadoop生态系统的紧密集成Hive构建在Hadoop分布式文件系统(HDFS)之上，能够处理海量数据并进行分布式计算。它利用Hadoop的MapReduce或Spark来执行查询，具备高度扩展性，适合大数据处理。2.支持SQL-like查询语言(Hi
大数据技术之Hadoop（一） pauls
Hadoop概述1.1Hadoop是什么Hadoop是什么1）Hadoop是一个由Apache基金会所开发的分布式系统基础架构。2）主要解决，海量数据的存储和海量数据的分析计算问题。3）广义上来说，Hadoop通常是指一个更广泛的概念——Hadoop生态圈。Hadoop生态1.2Hadoop发展历史（了解）Hadoop发展历史1）Hadoop创始人DougCutting，为了实现与Google类似
ES elasticsearch集群入门小P聊技术
1介绍使用单机的版的elasticsearch可以完成检索，但是如果要实现高可用的话，就需要搭建集群。集群不仅可以实现高可用，也能实现海量数据存储的横向扩展。2核心原理每个索引会被分成多个分片shards进行存储，默认创建索引是分配5个分片进行存储。每个分片都会分布式部署在多个不同的节点上进行部署，该分片成为primaryshards。注意：索引的主分片primaryshards定义好后，后面不能
使用AI大模型进行企业数据分析与决策支持 MarkHD 人工智能数据分析数据挖掘
使用AI大模型进行企业数据分析与决策支持已成为现代企业管理的重要趋势。AI大模型凭借其强大的数据处理能力和智能分析功能，能够为企业提供精准、高效的数据分析服务，进而支持企业的决策过程。以下是使用AI大模型进行企业数据分析与决策支持的具体方式和优势：一、AI大模型在数据分析中的应用超级数据处理能力海量数据处理：AI大模型能够同时处理海量数据，包括结构化数据、非结构化数据等，满足企业大规模数据分析的需
CPU服务器如何应对大规模并行计算需求？ Jtti 服务器运维
大规模并行计算是指利用多个处理单元同时处理计算任务，以提高计算效率和缩短完成时间。这种计算方式常用于科学计算、数据分析、机器学习、图像处理等领域，面对海量数据与复杂计算时，传统的串行计算往往显得无能为力。现代CPU通常具备多个核心，这使得它们能够在同一时间内并行执行多个线程或任务。多核处理器可以大幅提升并行计算能力，适合处理大型计算任务。CPU服务器通常配备多级高速缓存(L1、L2、L3)，有效减
图像去噪算法代码c语言,深度学习图像去噪代码 weixin_39777018 图像去噪算法代码c语言
AI开发平台ModelArtsModelArts是面向开发者的一站式AI开发平台，为机器学习与深度学习提供海量数据预处理及半自动化标注、大规模分布式Training、自动化模型生成，及端-边-云模型按需部署能力，帮助用户快速创建和部署模型，管理全周期AI工作流。按需/包周期付费可选，最低0.00元/小时导入操作||https://support.huaweicloud.com/engineers-
【Spark高级应用】使用Spark进行高级数据处理与分析爱技术的小伙子大数据 spark ajax 大数据
Spark高级应用使用Spark进行高级数据处理与分析引言在大数据时代，快速处理和分析海量数据是每个企业面临的重大挑战。ApacheSpark作为一种高效的分布式计算框架，凭借其高速、易用、通用和灵活的特点，已经成为大数据处理和分析的首选工具。本文将深入探讨如何使用Spark进行高级数据处理与分析，通过实际案例和代码示例，帮助你掌握Spark的高级应用技巧。提出问题如何进行高效的大规模数据处理？如
大数据（Big Data）：探索信息时代的海量数据世界 hong161688 大数据
大数据（BigData）：探索信息时代的海量数据世界一、大数据的定义与特点大数据（BigData），或称巨量资料，是指那些在传统数据处理应用软件无法有效捕捉、管理和处理的数据集合。这些数据集通常具有海量、高增长率和多样化的特点，需要新的处理模式才能赋予其更强的决策力、洞察发现力和流程优化能力。大数据的“大”不仅体现在数据量的规模上，更在于其处理难度和复杂性，以及对信息提取和价值挖掘的需求。大数据的
国产海量数据库安装部署文档人生不过大梦一场 db 数据库 windows linux
本系统为麒麟V10系统,安装用户为普通用户给予sudo权限，主机内存16G（8G安装没装起来）#默认端口5432对外端口数据库对外提供访问5433对内端口Basebackup与复制流协议系统环境设置#关闭防火墙（二者执行一个）sudosystemctlstopfirewalld.service&&sudosystemctldisablefirewalld&&sudosystemctlstatusf
布隆过滤器 guangzhi0633 面试职场和发展
揭秘数据筛选的神秘利器在浩瀚的数据海洋中，如何快速、准确地找到我们需要的信息？这不仅是数据科学家的难题，也是每一个与数据打交道的人面临的挑战。今天，让我们一起走进布隆过滤器（BloomFilter）的世界，看看这个被誉为“筛选神器”的技术如何帮助我们在海量数据中淘金。布隆过滤器的奥秘想象一下，你手中有一个巨大的筛子，它不仅能过滤掉无用的沙子，还能智能地保留下珍贵的金粒。布隆过滤器就是这样的“智慧筛
Redis概述 AC编程
一、为什么需要NoSQLHighperformance高并发读写HugeStorage海量数据的高效率存储和访问HighScalability&&HighAvailability高可拓展性和高可用性二、NoSQL数据库的四大分类键值（Key-Value）存储列存储文档数据库图形数据库三、四类NoSQL数据库比较键值（Key-Value）存储相关产品：Redis、Voldemort、TokyoCab
人工智能训练师边缘计算实训室解决方案武汉唯众智创人工智能训练师边缘计算实训室人工智能训练师边缘计算实训室
一、引言随着物联网（IoT）、大数据、人工智能（AI）等技术的飞速发展，计算需求日益复杂和多样化。传统的云计算模式虽在一定程度上满足了这些需求，但在处理海量数据、保障实时性与安全性、提升计算效率等方面仍面临诸多挑战。边缘计算作为一种新兴的计算模式应运而生，通过将计算能力推向数据生成或用户所在的网络边缘，显著降低了数据传输的延迟，提升了处理效率，并增强了数据安全性。在此背景下，唯众提出了《人工智能训
守护云安全：数据保护与合规的最佳实践网安加社区安全网络云安全云原生数据安全
随着云技术的蓬勃发展，企业对云服务日益依赖，保障用于存储与管理海量数据的云端平台的安全性也变得极其重要。如何保障云安全的背后也隐藏着一个不容忽视的要点：数据安全责任需由云服务提供商与客户共同承担。这种责任共担模型规定，云服务提供商负责保护其服务基础设施的安全，企业负责保护其在云环境中的数据和应用程序的安全。但当涉及基础设施即服务（IaaS）与平台即服务（PaaS）等多种服务模式时，执行这种责任共担
eclipse maven IXHONG eclipse
eclipse中使用maven插件的时候，运行run as maven build的时候报错 -Dmaven.multiModuleProjectDirectory system propery is not set. Check $M2_HOME environment variable and mvn script match. 可以设一个环境变量M2_HOME指
timer cancel方法的一个小实例 alleni123 多线程 timer
package com.lj.timer; import java.util.Date; import java.util.Timer; import java.util.TimerTask; public class MyTimer extends TimerTask { private int a; private Timer timer; pub
MySQL数据库在Linux下的安装 ducklsl mysql
1.建好一个专门放置MySQL的目录 /mysql/db数据库目录 /mysql/data数据库数据文件目录 2.配置用户，添加专门的MySQL管理用户 >groupadd mysql ----添加用户组 >useradd -g mysql mysql ----在mysql用户组中添加一个mysql用户 3.配置，生成并安装MySQL >cmake -D
spring------>>cvc-elt.1: Cannot find the declaration of element Array_06 spring bean
将-------- <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3
maven发布第三方jar的一些问题 cugfy maven
maven中发布第三方jar到nexus仓库使用的是 deploy:deploy-file命令有许多参数，具体可查看 http://maven.apache.org/plugins/maven-deploy-plugin/deploy-file-mojo.html 以下是一个例子： mvn deploy:deploy-file -DgroupId=xpp3
MYSQL下载及安装 357029540 mysql
好久没有去安装过MYSQL，今天自己在安装完MYSQL过后用navicat for mysql去厕测试链接的时候出现了10061的问题，因为的的MYSQL是最新版本为5.6.24，所以下载的文件夹里没有my.ini文件，所以在网上找了很多方法还是没有找到怎么解决问题，最后看到了一篇百度经验里有这个的介绍，按照其步骤也完成了安装，在这里给大家分享下这个链接的地址
ios TableView cell的布局张亚雄 tableview
cell.imageView.image = [UIImage imageNamed:[imageArray objectAtIndex:[indexPath row]]]; CGSize itemSize = CGSizeMake(60, 50); &nbs
Java编码转义 adminjun java 编码转义
import java.io.UnsupportedEncodingException; /** * 转换字符串的编码 */ public class ChangeCharset { /** 7位ASCII字符，也叫作ISO646-US、Unicode字符集的基本拉丁块 */ public static final Strin
Tomcat 配置和spring aijuans spring
简介 Tomcat启动时，先找系统变量CATALINA_BASE，如果没有，则找CATALINA_HOME。然后找这个变量所指的目录下的conf文件夹，从中读取配置文件。最重要的配置文件：server.xml 。要配置tomcat，基本上了解server.xml，context.xml和web.xml。 Server.xml -- tomcat主
Java打印当前目录下的所有子目录和文件 ayaoxinchao 递归 File
其实这个没啥技术含量，大湿们不要操笑哦，只是做一个简单的记录，简单用了一下递归算法。 import java.io.File; /** * @author Perlin * @date 2014-6-30 */ public class PrintDirectory { public static void printDirectory(File f
linux安装mysql出现libs报冲突解决 BigBird2012 linux
linux安装mysql出现libs报冲突解决安装mysql出现 file /usr/share/mysql/ukrainian/errmsg.sys from install of MySQL-server-5.5.33-1.linux2.6.i386 conflicts with file from package mysql-libs-5.1.61-4.el6.i686
jedis连接池使用实例 bijian1013 redis jedis连接池 jedis
实例代码： package com.bijian.study; import java.util.ArrayList; import java.util.List; import redis.clients.jedis.Jedis; import redis.clients.jedis.JedisPool; import redis.clients.jedis.JedisPoo
关于朋友 bingyingao 朋友兴趣爱好维持
成为朋友的必要条件：志相同，道不合，可以成为朋友。譬如马云、周星驰一个是商人，一个是影星，可谓道不同，但都很有梦想，都要在各自领域里做到最好，当他们遇到一起，互相欣赏，可以畅谈两个小时。志不同，道相合，也可以成为朋友。譬如有时候看到两个一个成绩很好每次考试争做第一，一个成绩很差的同学是好朋友。他们志向不相同，但他
【Spark七十九】Spark RDD API一 bit1129 spark
aggregate package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} //测试RDD的aggregate方法 object AggregateTest { def main(args: Array[String]) { val conf = new Spar
ktap 0.1 released bookjovi kernel tracing
Dear, I'm pleased to announce that ktap release v0.1, this is the first official release of ktap project, it is expected that this release is not fully functional or very stable and we welcome bu
能保存Properties文件注释的Properties工具类 BrokenDreams properties
今天遇到一个小需求：由于java.util.Properties读取属性文件时会忽略注释，当写回去的时候，注释都没了。恰好一个项目中的配置文件会在部署后被某个Java程序修改一下，但修改了之后注释全没了，可能会给以后的参数调整带来困难。所以要解决这个问题。 &nb
读《研磨设计模式》-代码笔记-外观模式-Facade bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 百度百科的定义： * Facade（外观）模式为子系统中的各类（或结构与方法）提供一个简明一致的界面， * 隐藏子系统的复杂性，使子系统更加容易使用。他是为子系统中的一组接口所提供的一个一致的界面 * * 可简单地
After Effects教程收集 cherishLC After Effects
1、中文入门 http://study.163.com/course/courseMain.htm?courseId=730009 2、videocopilot英文入门教程（中文字幕） http://www.youku.com/playlist_show/id_17893193.html 英文原址： http://www.videocopilot.net/basic/ 素
Linux Apache 安装过程 crabdave apache
Linux Apache 安装过程下载新版本： apr-1.4.2.tar.gz（下载网站：http://apr.apache.org/download.cgi） apr-util-1.3.9.tar.gz（下载网站：http://apr.apache.org/download.cgi） httpd-2.2.15.tar.gz（下载网站：http://httpd.apac
Shell学习之变量赋值和引用 daizj shell 变量引用赋值
本文转自：http://www.cnblogs.com/papam/articles/1548679.html Shell编程中，使用变量无需事先声明，同时变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）中间不能有空格，可以使用下划线（_）不能使用标点符号不能使用bash里的关键字（可用help命令查看保留关键字）需要给变量赋值时，可以这么写：
Java SE 第一讲（Java SE入门、JDK的下载与安装、第一个Java程序、Java程序的编译与执行） dcj3sjt126com java jdk
Java SE 第一讲： Java SE：Java Standard Edition Java ME: Java Mobile Edition Java EE：Java Enterprise Edition Java是由Sun公司推出的（今年初被Oracle公司收购）。收购价格：74亿美金 J2SE、J2ME、J2EE JDK：Java Development
YII给用户登录加上验证码 dcj3sjt126com yii
1、在SiteController中添加如下代码： /** * Declares class-based actions. */ public function actions() { return array( // captcha action renders the CAPTCHA image displ
Lucene使用说明 dyy_gusi Lucene search 分词器
Lucene使用说明 1、lucene简介 1.1、什么是lucene Lucene是一个全文搜索框架，而不是应用产品。因此它并不像baidu或者googleDesktop那种拿来就能用，它只是提供了一种工具让你能实现这些产品和功能。 1.2、lucene能做什么要回答这个问题，先要了解lucene的本质。实际
学习编程并不难,做到以下几点即可! gcq511120594 数据结构编程算法
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
Java面试十问之三：Java与C++内存回收机制的差别 HNUlanwei java C++finalize()堆栈内存回收
大家知道， Java 除了那 8 种基本类型以外，其他都是对象类型（又称为引用类型）的数据。 JVM 会把程序创建的对象存放在堆空间中，那什么又是堆空间呢？其实，堆（ Heap）是一个运行时的数据存储区，从它可以分配大小各异的空间。一般，运行时的数据存储区有堆（ Heap）和堆栈（ Stack），所以要先看它们里面可以分配哪些类型的对象实体，然后才知道如何均衡使用这两种存储区。一般来说，栈中存放的
第二章 Nginx+Lua开发入门 jinnianshilongnian nginx lua
Nginx入门本文目的是学习Nginx+Lua开发，对于Nginx基本知识可以参考如下文章： nginx启动、关闭、重启 http://www.cnblogs.com/derekchen/archive/2011/02/17/1957209.html agentzh 的 Nginx 教程 http://openresty.org/download/agentzh-nginx-tutor
MongoDB windows安装基本命令 liyonghui160com
windows安装安装目录： D:\MongoDB\ 新建目录 D:\MongoDB\data\db 4.启动进城： cd D:\MongoDB\bin mongod -dbpath D:\MongoDB\data\db &n
Linux下通过源码编译安装程序 pda158 linux
一、程序的组成部分　　Linux下程序大都是由以下几部分组成：　　二进制文件：也就是可以运行的程序文件　　库文件：就是通常我们见到的lib目录下的文件　　配置文件：这个不必多说，都知道　　帮助文档：通常是我们在linux下用man命令查看的命令的文档　　二、linux下程序的存放目录　　linux程序的存放目录大致有三个地方：　　/etc, /b
WEB开发编程的职业生涯４个阶段 shw3588 编程 Web 工作生活
觉得自己什么都会 2007年从学校毕业，凭借自己原创的ASP毕业设计，以为自己很厉害似的，信心满满去东莞找工作，找面试成功率确实很高，只是工资不高，但依旧无法磨灭那过分的自信，那时候什么考勤系统、什么OA系统、什么ERP，什么都觉得有信心，这样的生涯大概持续了约一年。根本不是自己想的那样 2008年开始接触很多工作相关的东西，发现太多东西自己根本不会，都需要去学，不管是asp还是js，
遭遇jsonp同域下变作post请求的坑 vb2005xu jsonp 同域post
今天迁移一个站点时遇到一个坑爹问题,同一个jsonp接口在跨域时都能调用成功,但是在同域下调用虽然成功,但是数据却有问题. 此处贴出我的后端代码片段 $mi_id = htmlspecialchars(trim($_GET['mi_id '])); $mi_cv = htmlspecialchars(trim($_GET['mi_cv '])); 贴出我前端代码片段: $.aj