了解了优先队列之后,我们再来看它的一个应用:
在面试的时候,问到算法,Top k 的问题是经常被问到的,网上已有很多种方法可以解决,今天来看看如何使用 PriorityQueue 构造固定容量的优先队列,模拟大顶堆,来解决 top K 小的问题。
/** * @Title: FixSizedPriorityQueue.java * @Package com.collonn.algorithm * @Description: TODO(用一句话描述该文件做什么) * @author zengfh * @date 2014年11月24日 上午10:44:48 * @version V1.0 */ package com.collonn.algorithm; import java.util.Comparator; import java.util.Iterator; import java.util.PriorityQueue; import java.util.Random; /** * @ClassName: FixSizedPriorityQueue * @Description: 固定容量的优先队列,模拟大顶堆,用于解决求topN小的问题 * @author zengfh * @date 2014年11月24日 上午10:44:48 * */ public class FixSizedPriorityQueue <E extends Comparable<E>>{ private PriorityQueue<E> queue; private int maxSize;// 堆的最大容量 public FixSizedPriorityQueue(int maxSize) { if(maxSize <=0){ throw new IllegalArgumentException(); } this.maxSize = maxSize; this.queue =new PriorityQueue<E>(maxSize,new Comparator<E>() { // 生成最大堆使用o2-o1,生成最小堆使用o1-o2, 并修改 e.compareTo(peek) 比较规则 public int compare(E o1, E o2) { return(o2.compareTo(o1)); } }); } public void add(E e){ if(queue.size() < maxSize) {// 未达到最大容量,直接添加 queue.add(e); }else{// 队列已满 E peek = queue.peek(); if(e.compareTo(peek) <0) {// 将新元素与当前堆顶元素比较,保留较小的元素 queue.poll(); queue.add(e); } } } /** * @Title: main * @Description: TODO(这里用一句话描述这个方法的作用) * @param @param args 设定文件 * @return void 返回类型 * @throws */ public static void main(String[] args) { // TODO 自动生成的方法存根 final FixSizedPriorityQueue<Integer> pq =new FixSizedPriorityQueue<Integer>(10); Random random =new Random(); int rNum =0; System.out.println("100 个 0~999 之间的随机数:-----------------------------"); for(int i =1; i <=100; i++) { rNum = random.nextInt(1000); System.out.print(rNum +", "); pq.add(rNum); } System.out.println(); System.out.println("PriorityQueue 本身的遍历是无序的:------------------------"); Iterable<Integer> iter =new Iterable<Integer>() { @Override public Iterator<Integer> iterator() { // TODO 自动生成的方法存根 return pq.queue.iterator(); } }; for(Integer item : iter) { System.out.print(item +", "); } System.out.println(); System.out.println(pq.queue.toString()); System.out.println("PriorityQueue 排序后的遍历:--------------------------"); // 直接用内置的 poll() 方法,每次取队首元素(堆顶的最大值) while(!pq.queue.isEmpty()) { System.out.print(pq.queue.poll() +", "); } } }
最后来聊下 “基于堆实现的优先级队列(PriorityQueue)” 在hadoop 中的应用:
在 hadoop 中,排序是 MapReduce 的灵魂,MapTask 和 ReduceTask 均会对数据按 Key 排序,这个操作是 MR 框架的默认行为,不管你的业务逻辑上是否需要这一操作。
MapReduce 框架中,用到的排序主要有两种:快速排序和基于堆实现的优先级队列。
Mapper 阶段:
从 map 输出到环形缓冲区的数据会被排序(这是 MR 框架中改良的快速排序),这个排序涉及 partition 和 key,当缓冲区容量占用 80%,会spill 数据到磁盘,生成 IFile 文件,Map 结束后,会将 IFile 文件排序合并成一个大文件(基于堆实现的优先级队列),以供不同的 reduce 来拉取相应的数据。
Reducer 阶段:
从 Mapper 端取回的数据已是部分有序,Reduce Task 只需进行一次归并排序即可保证数据整体有序。为了提高效率,Hadoop 将 sort 阶段和 reduce 阶段并行化,在 sort 阶段,Reduce Task 为内存和磁盘中的文件建立了小顶堆,保存了指向该小顶堆根节点的迭代器,并不断的移动迭代器,以将 key 相同的数据顺次交给 reduce()函数处理,期间移动迭代器的过程实际上就是不断调整小顶堆的过程(建堆→取堆顶元素→重新建堆→取堆顶元素...),这样,sort 和 reduce 可以并行进行。
了解了这个,你就明白为什么之前有同学提到遍历一遍 values 之后,值都不存在了,同时你也能更加理解之前提到的 二次排序。
在 hadoop 中,用到了这一数据结构的类主要有如下:(hadoop-0.20.203.0)
core/org/apache/hadoop/io/SequenceFile.java
hdfs/org/apache/hadoop/hdfs/server/namenode/UnderReplicatedBlocks.java
mapred/org/apache/hadoop/mapred/join/CompositeRecordReader.java
mapred/org/apache/hadoop/mapred/join/JoinRecordReader.java
mapred/org/apache/hadoop/mapred/join/MultiFilterRecordReader.java
mapred/org/apache/hadoop/mapred/join/OverrideRecordReader.java
mapred/org/apache/hadoop/mapred/Merger.java
tools/org/apache/hadoop/tools/rumen/DeskewedJobTraceReader.java
可以看到,这一数据结构,在 hadoop 中用的还是比较广泛的。
需要说明的是,求 Top k,更简单的方法可以直接用内置的 TreeMap 或者 TreeSet,这两者是基于红黑树的一种数据结构,内部维持 key 的次序,但每次添加新元素,其排序的开销要大于堆调整的开销。例如要找最大的10个元素,那么创建的是小根堆。小根堆的特性是根节点是最小元素。不需要对堆进行再排序,当堆的根节点被替换成新的元素时,需要进行堆化,以保持小根堆的特性。
http://lc87624.sinaapp.com/java_top_n/
http://java-er.com/blog/java-priority-queue/
http://stackoverflow.com/questions/7878026/is-there-a-priorityqueue-implementation-with-fixed-capacity-and-custom-comparato
http://stackoverflow.com/questions/9581357/java-top-n-elements-from-stream-source
http://www.iteye.com/topic/1061958基于最小堆(小根堆)的topn算法
http://dongxicheng.org/structure/heap/数据结构之堆
hadoop技术内幕:task 运行过程分析:P199, P219
http://www.michaelpollmeier.com/selecting-top-k-items-from-a-list-efficiently-in-java-groovy/