海量数据最大k个数以及重复次数最多的k个数问题

海量数据最大k个数以及重复次数最多的k个数问题

一、没有内存限制(内存可存储所有海量数据)

  海量数据最大k个数:典型TopK问题,维护一个k个元素的小根堆,遍历所有海量数据,与小根堆堆顶元素进行比较,大于堆顶元素(小根堆最小元素)时,当前元素作为新的堆顶元素,并调整小根堆,最终遍历完成后的小根堆即为TopK大的数。
  海量数据重复次数最多的k个数:使用HashMap,遍历所有海量数据,key为数字,value为数字出现的次数,最终在HashMap中找到出现次数最多的K个元素即可(value集合的TopK)

二、有内存限制(哈希分治法——MapReduce)

  由于数据太多(保存在一个超级大的文件中)不可能一次加载进内存进行操作,必须进行拆分,利用哈希分治的思想,将规模大的问题化小,然后解决各个小的问题,最终得到结果。
  哈希分治的基本操作:
   ①Map:设计一个简单的哈希函数hash(x)=x%m,再去设置m个子文件,遍历海量数据,对所有的数都进行哈希函数的运算,实现将海量数据的超大文件分解为m个子文件的任务。(具体hash函数与子文件个数的设置需要根据具体情况来设置,m=海量数据个数/内存限制大小/k
   ②Reduce:对每个子文件均使用HashMap或二叉树保存数字(key)及其出现次数(value)的信息,每个子文件都找出前k个数,最终需要对km个数进行排序即可。
  海量数据最大k个数:每个子文件都找出最大的k个数,并对最终的k
m个数进行排序即可(快排,堆排均可,或构建结点个数为k的小根堆,以数字大小为标准即可)
  海量数据重复次数最多的k个数:每个子文件都找出重复次数最多的k个结点,再次构建新的节点数为k*m的TreeMap,找到其出现次数最多的k个数即可。(或构建结点个数为k的小根堆,以次数为标准即可)


 参考文献:哈希分治法 - 统计海量数据中出现次数最多的前10个IP

你可能感兴趣的:(经典算法)