pyspark rdd api : parallelize()、collect()和glom()

parallelize()函数将一个List列表转化为了一个RDD对象,
collect()函数将这个RDD对象转化为了一个List列表。

parallelize()函数的第二个参数表示分区,默认是1,此处为2,表示将列表对应的RDD对象分为两个区。

后面的glom()函数就是要显示出RDD对象的分区情况,可以看出分了两个区,如果没有glom()函数,则不显示分区,如第一个结果所示。

python2

>>> import pyspark
>>> L = [1, 2, 3, 4, 5]
>>> conf = pyspark.SparkConf()
>>> sc = pyspark.SparkContext(conf=conf)
>>> old = sc.parallelize(L, 2)  # 将List转化为RDD对象,RDD对象分为2个区
>>> print old.collect()  # 将这个RDD对象转化为了一个List列表
[1, 2, 3, 4, 5]
>>> print old.glom().collect()  # glom()用于显示出RDD对象的分区情况
[[1, 2], [3, 4, 5]]

你可能感兴趣的:(pyspark rdd api : parallelize()、collect()和glom())