groupbykey是全局聚合算子,将所有map task中的数据都拉取到shuffle中将key相同的数据进行聚合,它存在很多弊端,例如:将大量的数据进行网络传输,浪费大量的资源,最重要的是如果数据量太大还会出现GC和OutOfMemoryError的错误,如果数据某个key的数据量远大于其他key的数据,在进行全局聚合的时候还会出现数据倾斜的问题。
所以在实际的项目中要谨慎使用groupbykey,随着数据量的增加,groupbykey暴露出来的问题会越来越多。
reducebykey是在map阶段进行本地聚合以后才会到shuffle中进行全局聚合,相当于是进入shuffle之前已经做了一部分聚合,那么它的网络传输速度会比groupbykey快很多而且占用资源也会减少很多,但是算子本身就如它的名字一样,主要是进行计算的将相同key的数据进行计算,返回计算结果。
但是实际的项目中在进行聚合之后我们不一定只是要计算,还会找聚合后某个字段的最大值,最小值等等操作,groupbykey聚合后返回的是(K,Iterable[V]),我们可以把iterable[V]这个集合的数据进行二次处理来实现我们实际的项目需求,但是上面已经提到了groupbykey的诸多问题,reducebykey也是只有在单纯的对数据进行计算的时候才能和groupbykey有等价效果。既想像reducebykey那样进行本地聚合,又想像groupbykey那样返回一个集合便于我们操作。
说了这么多也就引出来了我们今天的主题aggregatebykey。
aggregatebykey和reducebykey一样首先在本地聚合,然后再在全局聚合。它的返回值也是由我们自己设定的。
aggregatebykey使用需要提供三个参数:
zeroValue: U 这个参数就会决定最后的返回类型
seqOp: (U, V) => U 将V(数据)放入U中进行本地聚合
combOp: (U, U) => U 将不同的U进行全局聚合
可能说的大家有点晕,那么我介绍一个工作中遇到的需求以及使用aggregatebykey来解决问题的实例:
首先看数据的结构:
List(
("84.174.205.5",("2018-11-10 23:23:23",2)),
("221.226.113.146",("2018-09-11 23:23:23",3)),
("84.174.205.5",("2018-12-15 23:23:23",5)),
("108.198.168.20",("2018-01-03 23:23:23",2)),
("108.198.168.20",("2018-11-21 23:23:23",4)),
("221.226.113.146",("2018-11-01 23:23:23",6)),
("221.226.113.146",("2018-12-06 23:23:23",6))
)
key为IP V为日期以及访问的次数。
现在的需求:
1、将ip的访问次数进行累加操作
2、聚合后只保留最早的时间
废话不多说上代码:
val spark = SparkSession.builder().appName(test.getClass.getName).master("local").getOrCreate()
//准备数据
val pairRdd: RDD[(String, (String, Int))] = spark.sparkContext.parallelize(
List(
("84.174.205.5",("2018-11-10 23:23:23",2)),
("221.226.113.146",("2018-09-11 23:23:23",3)),
("84.174.205.5",("2018-12-15 23:23:23",5)),
("108.198.168.20",("2018-01-03 23:23:23",2)),
("108.198.168.20",("2018-11-21 23:23:23",4)),
("221.226.113.146",("2018-11-01 23:23:23",6)),
("221.226.113.146",("2018-12-06 23:23:23",6))
),2)
//运用aggregatebykey
//1、U定义为ArrayBuffer
val juhe = pairRdd.aggregateByKey(scala.collection.mutable.ArrayBuffer[(String, Int)]())((arr,value)=>{
//2、将value放入集合U中
arr += value
//3、将所有的集合进行合并
},_.union(_))
val juhesum = juhe.mapPartitions(partition=>{
partition.map(m=>{
val key = m._1
val date = m._2.map(m=>m._1).toList.sortWith(_<_)(0)
val sum = m._2.map(m=>m._2).sum
Row(key,date,sum)
})
})
juhesum.foreach(println(_))
最后的输出结果:
[108.198.168.20,2018-01-03 23:23:23,6]
[84.174.205.5,2018-11-10 23:23:23,7]
[221.226.113.146,2018-09-11 23:23:23,15]
到此实现需求。
希望本文会对大家有帮助,欢迎大家评论交流,谢谢!