Spark下的WordCount案列演示

安装教程见我其他博客https://blog.csdn.net/qq_25948717/article/details/80758713,

在终端输入pyspark进入spark环境:

Spark下的WordCount案列演示_第1张图片

test.txt

Spark下的WordCount案列演示_第2张图片

进入:

Spark下的WordCount案列演示_第3张图片

读取文本文件:

>>> textFile = sc.textFile("test.txt")

使用flatMap空格分隔单词,并读取每个单词

注意flatMap和map不同,map产生的List是分层的,第一层是文本的每一行,第二层是每行内的单词

flatMap直接将分层去掉,就是把所有单词读取为List。

>>> stringRDD = textFile.flatMap(lambda line:line.split(" "))

通过mapreduce计算每个单词出现的次数

>>>countRDD = stringRDD.map(lambda word:(word,1)).reduceByKey(lambda x,y:x+y)

保存计算结果:

>>>countRDD.saveAsTextFile("output")

查看结果:发现结果分片了

Spark下的WordCount案列演示_第4张图片

你可能感兴趣的:(Spark,数理统计,Hadoop)