Python大数据之PySpark(三)使用Python语言开发Spark程序代码_windows spark python
算子:rdd的api的操作,就是算子,flatMap扁平化算子,map转换算子Transformation算子Action算子步骤:1-首先创建SparkContext上下文环境2-从外部文件数据源读取数据3-执行flatmap执行扁平化操作4-执行map转化操作,得到(word,1)5-reduceByKey将相同Key的Value数据累加操作6-将结果输出到文件系统或打印代码:#-*-codi