常用PySpark API(二): partitionBy, cache, mapValues, sortBy的简单用法
0.PairRDD的意思PairRDD就是元素为键值对的List转化过来的RDD对象,例如rdd_1就是一般的非pairRDD,rdd_2为pairRDD对象,而有些SparkAPI操作是针对pairRDD对象的,例如后面将要介绍的mapValues()操作。1.partitionBy()函数rdd.partitionBy(int,function),可以对RDD对象分区,第一个参数是分区的个数,