spark的wordcount

import re
rdd = sc.textFile("xx.txt")
resultRdd = rdd.flatMap(lambda line:re.split(" |,|[|]|#|'|:",line)).map(lambda x:(x,1)).reduceByKey(lambda x,y:x+y)

resultColl = resultRdd.collect()
for line in resultColl:
print(line)

或者
resultRdd = rdd.flatMap(lambda line:re.split(" |,|[|]|#|'|:",line)).countByValue()
不过得到的是一个dict

你可能感兴趣的:(spark的wordcount)