Python的安装和使用及开发Spark

1.下载Python

点击打开链接

注意:用Python开发Spark,要求JAVA 8+,Python 2.7+/3.4+    and R 3.1+

2.安装windows版本

没什么特殊技巧

3.配置环境变量

配置Python环境变量:

G:\myProgram\python;

配置pip软件环境变量:(类似于maven)

G:\myProgram\python\Scripts

4.查看Python版本

WIN+R    cmd


测试pip:

Python的安装和使用及开发Spark_第1张图片

4.下载PyCharm软件进行开发

点击打开链接

设置Python目录

Python的安装和使用及开发Spark_第2张图片

5.PyCharm与Spark整合

1)先解压Spark的安装包(spark-2.3.0-bin-hadoop2.7.tgz)到windows系统

2)在下面的目录下找到py4j-0.10.6-src.zippyspark.zip

py4j:python for java 将Python语言编程转换为JAVA语言编程

pyspark:Python for Spark

Python的安装和使用及开发Spark_第3张图片

3)把上面的两个文件解压并剪切到Windows的Python的安装目录下:

G:\myProgram\python\Lib\site-packages

Python的安装和使用及开发Spark_第4张图片

重启Python或者刷新

在PyCharm看到下图所示即为成功

Python的安装和使用及开发Spark_第5张图片

4)WordCount例子演示

from pyspark import *
import os

if __name__ == '__main__':
    # Windows的Spark安装目录
    os.environ['SPARK_HOME'] = 'G:\myProgram\spark-2.3.0-bin-hadoop2.7'
    # Create SparkConf
    conf = SparkConf() \
        .setAppName("WordCount") \
        .setMaster("local") \
        # Create SparkContext
    sc = SparkContext(conf=conf)
    # 从本地模拟数据
    datas = ["you,jump", "i,jump"]
    # Create RDD
    rdd = sc.parallelize(datas)
    print(rdd.count())  # 2
    print(rdd.first())  # you,jum

    # WordCount
    wordcount = rdd.flatMap(lambda line: line.split(",")) \
        .map(lambda word: (word, 1)) \
        .reduceByKey(lambda a, b: a + b)
    for wc in wordcount.collect():
        print(wc[0] + "   " + str(wc[1]))
# you   1
# jump   2
# i   1


你可能感兴趣的:(Python)