Spark 是一个分布式的计算系统,而且函数式编程风格使在Spark上开发任务变得更有效率。
参加工作后使用Spark开发维护了四个算法,虽然算法不同但Spark代码中所用的几个函数却一样。对于新手入门Spark编程,掌握这几个函数就够了。
在介绍这几个函数之前,先介绍Spark最重要的两个概念。
1. RDD,即分布式数据集合
就相当于是把数据分成几份,分别存储在不同的机器上。很多操作是作用在数据集的单个元素上,所以可以让机器对各自拥有的数据做处理就行,这就大大加快了程序运行的时间。
2. 惰性求值
Spark操作分为两类,一是转化操作,二是行动操作。只有当出现行动操作时前面的转化操作才会被真正执行,而且不会将中间状态的数据保存在内存中。
比如有两个操作,大致表述成这样: a = 1, b = a+1, c = b+1, print(c)
,这里就暂时让print
作为执行操作存在。若是Python,则a、b、c
都会占用内存资源,但在Spark中却不是的。当计算完c
后,b
就会被踢出去,而print(c)
之后,c
也会被踢出去,这就节省了大量的资源。
当然,若是你希望保留某个中间值以避免重复计算,Spark也提供支持函数。
常用函数
最基本的二个转化操作是 map、filter。
map 的作用是获得需要的字段或对单个元素进行操作。比如RDD[(Long, Long, Long)]
类型的数据-即每一条记录有三个字段,每个字段的类型是长整型。我们只需要保留第一个字段,并转化成字符串类型,那么我们可以用过 .map(x => x._1.toString)
来实现。
filter 的作用是过滤掉不需要的数据。比如我们只想保留上述数据集中第一个字段为正数的数据,那可以通过.filter(x => x._1 > 0)
来实现。
有时我们需要合并两份相同类型的数据集,通过a.union(b)
即可完成。
接下来介绍两个强大并且常用的函数 flatMap 和 reduceByKey。
flatMap 的作用是把一份数据集拆散压扁,常常和 split 函数共同使用。比如我们现在有一份数据RDD[String]
,其中有些元素是以逗号分隔的字符,我们希望每一个被分隔的字符都能做为独立的数据存在。在 Spark 中我们只需要这么做:.flatMap(x => x.split(","))
。x.split(",")
将字符转化成一个数组,这和其它语言中一样,然后 flatMap 会把数组中每一个元素拆出来。
reduceByKey 是一个聚合函数,它会对拥有相同 key 的元素进行某些操作。像RDD[(String,String)]``的数据类型,第一个字段会被当做 key。所以 ``map
可以通过调整字段的顺序来指定 key。
接着上面的函数讲,拆完之后,若是想统计每个字符出现的次数,我们就可能通过 reduceByKey 来实现。使用.map(x => (x, 1)).reduceByKey((a,b) => a+b)
即可完成此操作。map 的目的是让每个字符作为一个 key ,然后 reduceByKey 来计数,a、b就是每个key当前统计的数量。
由于是分布式数据集,reduceByKey 会在各个机器上对当前的数据做计数操作,然后再合并各个机器上的数据。
在现实生活中,很多数据都是以 key-value 结构存在的,而有些操作只需要对value进行即可,比如RDD[(String,String)]``中,我们只想对第二个字段做 split 操作,原先我们可以通过
.map(x => (x._1, x._2.split(","))实现。但Spark提供的更简便的方式:
.mapValues( x => x.split(","))```。后一种方式只对 value 做操作,而忽略 key。
同样,我们可以使用 flatMapValues 对value进行扁平化操作。
排序是始终绕不开的话题。Spark 中 可以使用 sortBy 来进行排序。比如上文中提到的类型RDD[(Long, Long, Long)]
,若是需要按第三个字段来降序排序,我们可以这么做: .sortBy(_._3, false)
。
最常见的执行操作是 .collect()
,它的作用仅仅是触发执行操作用,让前面的转化操作行动起来。比如RDD[String]
类型的数据集,我们可以通过.map(x => (x, 1)).reduceByKey((a,b) => a+b).collect().foreach(x => println(x._1 + "的数量:" + x._2.toString ))
来打印所有的字符的数量。若是拿掉 collect() 这个操作,该语句就不会被执行。
与collect有共样作用的函数是 take,但take只用获取你需要数据的元素,比如.map(x => (x, 1)).reduceByKey((a,b) => a+b).take(5).foreach(x => println(x._1 + "的数量:" + x._2.toString ))
则最多会打印五条记录。
Spark为了节省内存资源,执行操作后不会保留中间数据,这可能会带来重复计算的问题。Spakr为了解决这个问题,提供了一个函数:cache,它能帮助你保留中间数据。
结语
由于采用函数式编程,代码会变得更便捷,但这可能会让新手看得云里雾里,觉得“难”就产生了抗拒,但其实只要熟悉了上面的几个函数后,就会觉得自己怎么没早点学Spark。