海量数据面试题分析

https://zhuanlan.zhihu.com/p/40648295,转知乎,手敲一遍,加深记忆

箴言:无论是这些海量数据处理面试题也好,还是算法也好,面试时,70~80%的人不是倒在这两方面,而是倒在基础之上(诸如语言,数据库,操作系统,网络协议等等),所以,无论任何时候,基础最重要,没了基础,便什么都不是

何谓海量数据处理?

无非就是基于海量数据上的存储,处理,操作。海量就是数据量太大。导致要么无法再较短时间解决,要么是数据太大,无法一次性装入内存。

解决方案:

  • 针对时间:可以采取巧妙的算法搭配合适的数据结构,如Bloom filter、Hash、bit-map、Heap、数据库索引或者倒排索引、Trie树
  • 针对空间:无非就是大而化小,分而治之(hash映射),不就是规模大嘛,我就化成小的,各个击破。

关于单机和集群问题:

  • 单机:处理装载数据的机器有限(只需考虑CPU,内存,硬盘的数据交互)
  • 集群:机器有多辆,适合分布式处理,并行计算(更多考虑节点和节点间的数据交互)

通过另一篇:Big Data Processing,知道,处理海量数据无非就是:

  1. 分而治之/hash映射 + hash统计 + 堆/快速/归并排序
  2. 双层桶划分
  3. Bloom filter/Bitmap
  4. Trie树/数据库/倒排索引
  5. 外排序
  6. 分布式处理之Hadoop/Mapreduce

本文第一部分:从set/map到hashtable/hash_map/hash_set,介绍set/map/multiset/multimap以及hash_set/hash_map。hash_mulitset/hash_multimap之间的区别,这是基础,基础才是根本!!!

本文第二部分:针对上述6种方法模式结合对应的海量数据处理面试题进行分别阐述。


第一部分:从set/map到hashtable/hash_map/hash_set

STL容器分为:

序列式容器

关联式容器:

  1. 又分为set集合和map映射表两大类。
  2. 以及这两大类的衍生体:multiset多键集合和multimap多键映射表,这些容器在底层都是RB-tree完成。
  3. 此外还有三类关联式容器,如hashtable散列表,以及以hashtable为底层机制完成的hash_set散列集合和hash_map散列映射表hash_multiset散列多键集合和hash_multimap散列多键映射表

总结:

set/map/multiset/multimap都内含一个RB-tree

hash_set/hash_map/hash_multiset/hash_multimap都内含一个hashtable

所谓的关联式容器,类似关联式数据库,每笔数据或者每个元素都有一个key和一个实值value,也就是key-value键值对。

当元素被插入到关联式容器中,容器内部结构RB-tree、hashtable便按照其键值大小,以某种规则将这个元素置于适当的位置

set/map:

相同:所有元素都会根据元素的键值自动被排序,因为set/map两者的所有各种操作,都只是转而调用RB-tree的操作行为,不过,两者都不允许两个元素有相同的键值

不同::set的元素不像map那样可以同时拥有实值(value)和键值(key),set元素的键值就是实值,实值就是键值,而map的所有元素都是pair,同时拥有实值(value)和键值(key),pair的第一个元素被视为键值,第二个元素被视为实值。

multiset/multimap:

他们的特性及用法和set/map完全相同,唯一的差别就在于它们允许键值重复,即所有的插入操作基于RB-tree的insert_equal()而非insert_unique()。

hash_set/hash_map/hash_multiset/hash_multimap:

hash_set/hash_map,两者的一切操作都是基于hashtable之上。不同的是,hash_set同set一样,同时拥有实值和键值,且实质就是键值,键值就是实值,而hash_map同map一样,每一个元素同时拥有一个实值(value)和一个键值(key),所以其使用方式,和上面的map基本相同。但由于hash_set/hash_map都是基于hashtable之上,所以不具备自动排序功能。为什么?因为hashtable没有自动排序功能。

hash_multiset/hash_multimap的特性与上面的multiset/multimap完全相同,唯一的差别就是它们hash_multiset/hash_multimap的底层实现机制是hashtable(而multiset/multimap,上面说了,底层实现机制是RB-tree),所以它们的元素都不会被自动排序,不过也都允许键值重复。

综上,说白了,什么样的结构决定其什么样的性质,因为set/map/multiset/multimap都是基于RB-tree之上,所以有自动排序功能,而hash_set/hash_map/hash_multiset/hash_multimap都是基于hashtable之上,所以不含有自动排序功能,至于加个前缀multi_无非就是允许键值重复而已。


第二部分、处理海量数据问题之六把密匙

密匙一、分而治之/Hash映射 + Hash_map统计 + 堆/快速/归并排序

1、海量日志数据,提取出某日访问百度次数最多的那个IP

2、寻找热门查询,300万个查询字符串中统计最热门的10个查询

3、有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词

4、海量数据分布在100台电脑中,想个办法高效统计出这批数据的TOP10

5、有10个文件,每个文件1G,每个文件的每一行存放用户的query,每个文件的query都可能重复。要求你按照query的频度排序

6、 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url

7、怎么在海量数据中找出重复次数最多的一个

9、一个文本文件,大约有一万行,每行一个词,要求统计出其中最频繁出现的前10个词,请给出思想,给出时间复杂度分析。

10. 1000万字符串,其中有些是重复的,需要把重复的全部去掉,保留没有重复的字符串。请怎么设计和实现?

11. 一个文本文件,找出前10个经常出现的词,但这次文件比较长,说是上亿行或十亿行,总之无法一次读入内存,问最优解。

12. 100w个数中找出最大的100个数

密匙二、多层划分

多层划分:

其实本质上还是分而治之的思想,重在“分”的技巧上!
适用范围:

第k大,中位数,不重复或重复的数字
基本原理及要点:

因为元素范围很大,不能利用直接寻址表,所以通过多次划分,逐步确定范围,然后最后在一个可以接受的范围内进行。

13、2.5亿个整数中找出不重复的整数的个数,内存空间不足以容纳这2.5亿个整数。

14、5亿个int找它们的中位数。

密匙三:Bloom filter/Bitmap

密匙四、Trie树/数据库/倒排索引

密匙五、外排序

  • 适用范围:大数据的排序,去重
  • 基本原理及要点:外排序的归并方法,置换选择  败者树原理,最优归并树

密匙六、分布式处理之Mapreduce

MapReduce是一种计算模型,简单的说就是将大批量的工作(数据)分解(MAP)执行,然后再将结果合并成最终结果(REDUCE)。这样做的好处是可以在任务被分解后,可以通过大量机器进行并行计算,减少整个操作的时间。但如果你要我再通俗点介绍,那么,说白了,Mapreduce的原理就是一个归并排序

  • 适用范围:数据量大,但是数据种类小可以放入内存
  • 基本原理及要点:将数据交给不同的机器去处理,数据划分,结果归约。

经过上面这么多海量数据处理面试题的轰炸,我们依然可以看出这类问题是有一定的解决方案/模式的,所以,不必将其神化。然这类面试题所包含的问题还是比较简单的.

无论是这些海量数据处理面试题也好,还是算法也好,面试时,70~80%的人不是倒在这两方面,而是倒在基础之上(诸如语言,数据库,操作系统,网络协议等等),所以,无论任何时候,基础最重要,没了基础,便什么都不是。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

你可能感兴趣的:(大数据/分布式计算)