Windows搭建spark python开发环境

首先安装jdk、scala、hadoop、spark和python

1、python是从官网下载exe安装文件,按照步骤进行安装即可。

2、jdk从oracle官网下载安装文件,安装即可。

3、scala、hadoop和spark则从官网下载压缩文件,解压后放到指定的安装目录即可,还需要下载hadoop在windows下使用到的winutils.exe,放到HADOOP_HOME/bin目录下,下载地址为:

https://github.com/steveloughran/winutils/blob/master/hadoop-3.0.0/bin/winutils.exe。

4、配置环境变量,KV值对应下图未标记的部分,其中:

PYTHONPATH=$SPARK_HOME/python/:$SPARK_HOME/python/lib/py4j-0.10.7-src.zip:$PYTHONPATH

Windows搭建spark python开发环境_第1张图片

5、设置Path环境变量:

Windows搭建spark python开发环境_第2张图片

 

然后安装python开发spark需要用到的package:

pip install pyspark -i https://mirrors.aliyun.com/pypi/simple/

pip install numpy -i https://mirrors.aliyun.com/pypi/simple/

pip install panda -i https://mirrors.aliyun.com/pypi/simple/

 

我使用的是idea,安装python的plugin后,可以进行python开发,需要配置python使用本地安装的python开发环境:

Windows搭建spark python开发环境_第3张图片

测试代码如下:

from pyspark.sql import SparkSession

spark = SparkSession \
    .builder \
    .appName("Test") \
    .getOrCreate()

fileDF = spark.read.text("C:/apps/spark-2.4.3-bin-hadoop2.7/conf")
fileDF.show()
print(fileDF.count())

大家如果遇到什么问题,欢迎留言!

你可能感兴趣的:(Spark,Hadoop)