pyspark rdd去重

对于pyspark中的rdd按照某一列进行去重的时候,可以使用reduceByKey()。需要将要去重的列作为key,其余作为value。

rdd = rdd.reduceByKey(lambda x, y: x)

你可能感兴趣的:(spark)