pySpark读写CSV文件、查重并写入CSV文件中

前段时间在研究 pySpark 数据处理,深刻地感受到spark的极大魅力。自己是一个初学者,这篇博客也只是简单的完成了几个简单的工作任务,哈哈@@

不说了上代码:

 
  

from pyspark import SparkConf,SparkContext import csv from _operator import add import re #!/usr/bin/python # -*- coding: UTF-8 -*- conf = SparkConf().setAppName("Simple").setMaster("local") sc = SparkContext(conf = conf) file1 = open("D:\\lbossdata.CSV","r") f1 = csv.reader(file1)  //打开csv文件将文件的第一行的第一列读入到row1 row1 = [row[0] for row in f1] file1.close() with open("D:\\lbossdata.CSV","r") as file2: f2 = csv.reader(file2) row2 = [row[1] for row in f2] with open("D:\\lbossdata.CSV","r") as file3: f3 = csv.reader(file3) row3 = [row[2] for row in f3]


通第一个方法一样,将其余几行也分别读入到row2\row3,row4,row5,row6。

最先应将读出来的每一个row放入数据集中,将每一个RDD联结为一个RDD。

然后开始去重,调用distinct()方法,代码如下:

RDD1 = sc.parallelize(row1, 1)
RDD2 = sc.parallelize(row2, 1)
RDD3 = sc.parallelize(row3, 1)
RDD4 = sc.parallelize(row4, 1)
RDD5 = sc.parallelize(row5, 1)
RDD6 = sc.parallelize(row6, 1)
RDD = RDD1.zip(RDD2).zip(RDD3).zip(RDD4).zip(RDD5).zip(RDD6)
print(RDD.count())
RDD_1= RDD.distinct()
print(RDD_1.count())
RDD1_1 = RDD_1.map(lambda x:(x[0][0][0][0][0],x[0][0][0][0][1],x[0][0][0][1],x[0][0][1],x[0][1],x[1]))

最后一行是将每一个RDD中的数据使用逗号分隔开,以便存储到csv文件中去。

最后在本地创建一个csv文件,将上边的RDD1_1写入csv文件即可。

with open("D:\\z.CSV","w",newline="") as file_1:
     f_csv = csv.writer(file_1)
     f_csv.writerows(RDD1_1.collect())


这就是所有的代码,速度相当快。大概用时不到1秒。@@

第一次写博客,感觉还行,不知道代码怎么贴入,总是乱贴,还请大家包涵。





你可能感兴趣的:(pySpark读写CSV文件、查重并写入CSV文件中)