Spark之TopN

package com.uplooking.bigdata.core.p3;
 
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.broadcast.Broadcast;
import scala.Tuple2;
 
import java.util.List;
import java.util.TreeSet;
 
/**
 * Java版本求出TopN的数据
 学生所在班级 学生成绩
     class1 90
     class2 56
     class1 90
     class1 76
     class2 88
     class1 95
     class1 74
     class2 87
     class2 67
     class2 77
     class1 98
     class2 96
 要求,求出成绩前五名(N=5)的同学,想求出N=3的同学的信息
 
 第二题:
    在上述的基础之上进行修正,分别求出每个班级中排名前3的同学的信息
 */
public class JavaSparkTopNOps {
    public static void main(String[] args) {
        if(args == null || args.length < 1) {
            System.err.println("Parameter Errors! Usage: ");
            System.exit(-1);
        }
        SparkConf conf = new SparkConf();
        conf.setAppName(JavaSparkTopNOps.class.getSimpleName());
        conf.setMaster("local");
        JavaSparkContext sc = new JavaSparkContext(conf);
        JavaRDD linesRDD = sc.textFile("E:/test/spark/topn.txt");
        int topNum = Integer.valueOf(args[0].trim());
        //第一题
//        topn_1(linesRDD, topNum);
        //第二题
        Broadcast topNBC = sc.broadcast(topNum);
        topn_2(linesRDD, topNBC);
        sc.close();
    }
 
    /**
     * 分组topN
     * 分别求出每个班级中排名前N的同学的信息
     *
     * 按照班级名称,对班级学生进行分组,分组之后可以得到每一个分组中的数据,然后再来对每一个组中的数据进行排序
     * 只需要取出这每一个组中的前N名的学生信息即可
     * 在这里显然要是用groupByKey的transformation算子
     * hello you
     * hello me
     * hello me
     * mapToPair之后的结果
     * (hello, 1)
     * (you, 1)
     * (hello, 1)
     * (me, 1)
     * (hello, 1)
     * (me, 1)
     * groupByKey--->
     * (hello, [1, 1, 1])
     * (you, [1])
     * (me, [1, 1])
     * 类比到我们这道题,我们只需要控制hello,me,you后面的列表的size就可以了
     * @param linesRDD
     */
    private static void topn_2(JavaRDD linesRDD, Broadcast topNBC) {
        JavaPairRDD pairRDD = linesRDD.mapToPair(line -> {
            String[] splits = line.split(" ");
            int score = Integer.valueOf(splits[1].trim());
            String className = splits[0].trim();
            return new Tuple2(className, score);
        });
 
        JavaPairRDD> gbkRDD = pairRDD.groupByKey();
        //class1 [90, 90, 76]
        //class2 [56, 88, 87]
        JavaPairRDD> myGbkRDD = gbkRDD.mapToPair(new PairFunction>, String, Iterable>() {
            private TreeSet ts = new TreeSet(new MyComparator(){
                @Override
                public int compare(Integer o1, Integer o2) {
                    return o2 - o1;
                }
            });
            @Override
            public Tuple2> call(Tuple2> src) throws Exception {
                String className = src._1;
                Iterable scores = src._2;
                ts.clear();
                /**
                 * 第一步对这个列表scores进行排序
                 * 第二步然后取出这个列表中的前N个值,组成一个新的Iterable
                 */
                for(int score : scores) {
                    ts.add(score);//将数据加入到treeset集合中
                    if(ts.size() > topNBC.value()) {//加入集合之后对集合的大小进行判断,因为我们只需要求出TopN(N=3),所以只需要维持treeset集合大小为N即可
                        ts.pollLast();
                    }
                }
                return new Tuple2>(className, ts);
            }
        });
 
        myGbkRDD.foreach(t -> System.out.println(t._1 + " " + t._2));
    }
 
    private static void topn_1(JavaRDD linesRDD, int topNum) {
        JavaPairRDD pairRDD = linesRDD.mapToPair(line -> {
            String[] splits = line.split(" ");
            int score = Integer.valueOf(splits[1].trim());
            String className = splits[0].trim();
            return new Tuple2(score, className);
        });
 
        List> topn = pairRDD.sortByKey(false).take(topNum);
        for (Tuple2 t : topn) {
            System.out.println("className: " + t._2 + ", score: " + t._1);
        }
    }
 
}

你可能感兴趣的:(Spark生态系统)