RDD(弹性分布式数据集)是一组不可变的JVM对象的分布集,这些对象允许作业非常快速地执行计算,是Apache Spark的核心。本文主要结合简单的例子介绍下RDD的基本操作。
在PySpark中,有两种方式可以创建RDD,一种是用.parallelize()集合(元素list或array)创建RDD,另一种是通过引用位于本地或外部的某个文件(支持.txt、.csv、parquet、JSON、Hive tables等文件类型)来创建RDD。下面以.parallelize()集合为例,创建一个简单的RDD:
%pyspark
firstRDD = sc.parallelize(
[('sfs',27),('hk',26),('czp',25),('hdc',28),('wml',27)])
#从RDD中取3条数据
firstRDD.take(3)
上面一段代码首先创建了一个简单的RDD对象,然后用.take()方法取出其中的前3条数据。输出结果如下图所示:
RDD主要有两组操作:转换操作(transformation,返回指向新RDD的指针)和行动操作(action,在运行计算后向驱动程序返回值)。RDD的运算是惰性的,当RDD执行转换操作时,实际的计算并没有被执行。只有当RDD执行行动操作时,才会提交计算任务,执行相应的计算操作。其中,转化操作只是将一个RDD转化成另一个RDD,行动操作执行实际的计算。
转化操作主要是对数据集进行调整,包括映射、筛选、连接、转换数据集中的值。在PySpark中,常见的转换方法主要有.map()、.filter()、.flatMap()、.distinct()、.sample()、.leftOuterJoin()、.repartition()等。
(1).map()转换
该方法应用于每个RDD元素上,也可以实现RDD中特定某一行或某一列元素的转变。示例代码如下所示:
#1.map操作(将RDD中数字加10后输出)
firstRDD.map(lambda x:x[1]+10).take(5)
输出结果如下所示:
(2).filter()转换
该方法可以以特定的条件或标准从数据集中选择元素。示例代码如下所示:
#2.filter操作(筛选出数字为27的记录)
firstRDD.filter(lambda x:x[1] == 27).take(5)
输出结果如下所示:
(3).flatMap()转换
该方法和.map()方法有点类似,但其返回的不是一个列表,而是一个扁平的结果。示例代码如下所示:
#3.flatMap操作(对每条记录的数字执行+2操作)
firstRDD.flatMap(lambda x:(x[0],x[1]+2)).collect()
输出结果如下所示:
(4).distinct()转换
该方法可以返回指定列中不同值的列表。可以用来验证数据集中是否出现了异常值,如可以验证性别列表中是否只包含男性和女性。示例代码如下所示:
#4.distinct操作(输出数字列中不同的值)
firstRDD.map(lambda x:x[1]).distinct().collect()
输出结果如下所示:
(5).sample()转换
该方法返回数据集中的随机样本,可以通过调整函数的参数设置随机采用的比例。示例代码如下所示:
#5.sample操作(通过调整参数来设置采样比例 )
firstRDD.sample(False,0.6,666).collect()
输出结果如下所示:
(6).leftOuterJoin()转换
该方法根据两个数据集中都有的值来连接两个RDD,并返回左侧的RDD记录。示例代码如下所示:
rdd1 = sc.parallelize(
[('a',2),('b',6),('c',5),('d',8),('e',7)])
rdd2 = sc.parallelize(
[('a',10),('b',20),('c',30),('d',40)])
rdd3 = rdd1.leftOuterJoin(rdd2)
rdd3.collect()
输出结果如下所示:
(7).repartition()转换
该方法重新对数据集进行分区,改变了数据集分区的数量。示例代码如下所示:
#7.repartition操作(重新对数据集进行分区,改变了数据集分区的数量)
rdd4 = rdd1.repartition(4)
#使用.glom()方法返回分区数
len(rdd4.glom().collect())
行动操作执行数据集上的计划任务,一旦完成转换,即可执行对应的行动操作。在PySpark中,常见的行动操作有.take()、.collect()、.reduce()、.count()、.saveAsTextFile()、.foreach()等。
(1).take()操作
该方法返回单个数据区的前n行。类似的操作还有takeSample()、first()、top()等。示例代码如下所示:
#1.take操作
rdd1 = sc.parallelize(
[('a',2),('b',6),('c',5),('d',8),('e',7)])
print('取4个数:{}'.format(rdd1.take(4)))
print('随机取2个数:{}'.format(rdd1.takeSample(False,2,666)))
print('取第1个数:{}'.format(rdd1.first()))
print('取前3个数:{}'.format(rdd1.top(3)))
输出结果如下所示:
(2).collect()操作
和.take()操作相比,该方法将所有的RDD元素返回给驱动程序。
(3).reduce()操作
该方法使用指定的方法减少RDD中的元素。示例代码如下所示:
#3.reduce操作(使用reduce对RDD中的数字元素执行求和操作)
firstRDD.map(lambda x:x[1]).reduce(lambda x,y:x+y)
输出结果为:
(4).count()操作
该方法统计出了RDD中元素的数量。示例代码如下所示:
#4.count操作
firstRDD.count()
输出结果为:
(5).saveAsTextFile()操作
该方法可以将RDD保存为文本文件。示例代码如下所示:
#5.saveAsTextFile操作
firstRDD.saveAsTextFile('/zch/spark_test/data/firstRDD.txt')
(6).foreach()操作
该方法以逐一对每一条记录应用一个事先定义好的函数。