**最开始进入spark文件目录bin下输入“./pyspark”,就进入python交互式命令行,如果出现下图,表示成功,会显示spark的图表和版本号,我的版本是3.1.2
**
lines = sc.textFile("输入自身文件地址")
lambda是python中的匿名函数也叫做表达式
wordCount_1 = lines.flatMap(lambda line:line.split(" "))
wordCount_2 = wordCount_1.map(lambda x:(x,1))
wordCount_3 = wordCount_2.reduceByKey(lambda a,b:a+b)
#分组过程是两两合并,因为他们的key是相同的,只有它们的Value相加就会得到这个单词的总次数
print(wordCount_3.collect())
在此附上我的结果图,因为我的数据文件很大,单词很多,有点乱
最后再附上课本中spark词频统计流程示意图,以便加深理解
到此spark 词频统计就结束了,这是最基本spark的入门实操,上图如有侵权,联系我删除
博客更新于2022.4.8日18点15分