spark 二次排序两种方法(scala)

排序数据:

aa 34
bb 24
cc 83
aa 53
cc 12
aa 47
bb 35
aa 21
cc 64
bb 73
第一种方法是用spark中的sortBy方法:

首先将数据处理成(“aa”,34)的格式;

然后使用sortBy算子进行排序;

/**
  * 二次排序使用sortBy
  */
rdd.map(a => (a.split(" ")(0),a.split(" ")(1).toInt)).sortBy(x=>x,false).foreach(println)

第二种方法是用spark中的sortByKey方法:

因为sortByKey方法是按照key值排序,所以需要构建特殊的key值类:

class SortClass(val x :String,val y:Int) extends Serializable with Ordered[SortClass]{
    override def compare(that: SortClass): Int = {
        if(!this.x.equals(that.x)){
            this.x.hashCode - that.x.hashCode
        }
        else {
            this.y - that.y
        }
    }
}
注意:该类在shuffle中是需要序列化传输的,所以要继承Serializable接口,不然会报错。

构建好key值类后,就可以使用sortByKey来排序了;

最后排序完以后,将排序用的key值去除掉;

rdd.map(a => (new SortClass(a.split(" ")(0),a.split(" ")(1).toInt),a)).sortByKey()
                .map(a => a._2)

原文:https://blog.csdn.net/zhaochengxuyuan1/article/details/79683298 

你可能感兴趣的:(spark高级编程开发)