海量数据处理的相关问题整理

 

一、海量日志数据,如何提取出某日访问百度次数最多的那个IP?

答:分而治之 + hash映射 + 排序算法

  1. IP地址最多有2^32=4G种取值情况。可以采用“分而治之”的思想,首先利用哈希方法将所有IP地址对1024取余(ip%1024),得到1024个4MB的IP地址。
  2. 对于每个小文件构建一个ip为key,出现次数为value的hash map(ip->key、hash map->value),通过这样可以找到当前出现次数最多的IP地址。
  3. 再对1024个文件中分别出现次数最多的IP地址进行排序算法,就可以找到某日访问百度次数最多的那个IP地址了。

二、假设现在有一千万个检索串的查询记录(去重后不超过三百万个,重复度越高说明越热门)。统计最热门的10个查询串,要求使用的内存不能超过1G。

答:典型的topK算法。 hash表 + 堆排序 

  1. 首先通过hash表对这一千万个检索串进行统计,时间复杂度O(n).
  2. 再通过堆这个数据结构,找到出现次数最多的前10(topK)个查询串,时间复杂度O(nlogK).即就是借助堆结构,我们可以在log量级的时间内查找、调整、移动等。因此维护一个K大小的小根堆(该题目中是10),然后对这三千万的查询串进行遍历,分别跟堆元素进行对比。总共的时间复杂度是O(n) + O(n*logK).

三、有一个1G大小的文件,里面每一行是一个词,词的大小不超过16个字节,内存限制大小是1M。返回频数最高的100个词。

答:hash分治 + 小根堆

  1. 顺序读文件,对于每个词x, 取hash(x)%5000, 然后把这些词分别存到5000个小文件中,这样每个文件大概就是200k左右。如果哪个小文件的内存超过1M大小,就继续按照这种方法进行划分,直到所有的小文件都被分解的大小不超过1M。
  2. 再对于每个小文件,通过hashmap来统计每个文件中出现的词以及相应的频率,然后取出出现频率最大的100个词(利用含100个结点的最小堆实现)。再把这100个词及相对应的频率存入到文件中,这样就返回了频数最高的100个词了。

 

 

 

你可能感兴趣的:(总结复习,数据结构)