大数据基础:SparkWordCount

大数据基础:sparkWordCount实现


本次基于pyspark
新建一个data.txt文件用于本次作业

hello this is a spark demo!
welecome to here
a hot day
hot

本地读取文件

#读取本地文本文件
lines = sc.textFile("data.txt")
#通过flatMap操作把所有数据转行成rdd,把数据压成一列
result = lines.flatMap(lambda line : line.split(' ')
result.collect()

输出结果如下:
在这里插入图片描述

#把每一个元素转化成元组
result1 = result.map(lambda word : (word,1))

输出结果如下:在这里插入图片描述

#按key聚合累加
result2 = result1.reduceByKey(lambda a,b:a+b)
result2.collect()

输出结果如下:
在这里插入图片描述

你可能感兴趣的:(大数据基础,大数据,spark)