在Windows上搭建pyspark环境

1,安装anaconda3,可以参考我之前的文档

win10安装anaconda

2,安装配置JDK

下载地址
https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html
我下载的jdk-8u251-windows-x64.exe安装文件,双击打开,一路下一步直到完成。
右键“此电脑”--> “属性” --> “高级系统设置”-->“环境变量”
新建一个JAVA_HOME变量
在path中加入%JAVA_HOME%\bin和%JAVA_HOME%\jre\bin

image.png

image.png

3,安装配置scala

下载地址
https://www.scala-lang.org/download/
我下载的scala-2.11.6.msi安装文件,双击打开一路下一步就完成了,然后配置环境变量

新建变量SCALA_HOME
path中加入%SCALA_HOME%\bin
image.png

image.png

4,安装配置spark

下载地址
http://spark.apache.org/downloads.html

image.png

下载好之后解压到本地


image.png

系统变量中新建SPARK_HOME,path中加入%SPARK_HOME%\bin和%SPARK_HOME%\sbin


image.png

image.png

5,配置pyspark

上一步解压的spark目录E:\spark-2.4.6-bin-hadoop2.7\python\lib中找到py4j-0.10.7-src.zip 和pyspark.zip,右键选择加压到当前文件夹,然后将解压出来的两个文件夹剪切到anaconda安装目录下面的Lib/site-packages目录下


image.png

image.png

image.png

6,配置Hadoop环境

下载hadoop-common-2.6.0-bin-master.zip 解压到本地,然后在环境变量中添加HADOOP_HOME
链接:https://pan.baidu.com/s/1M2YboA1wqzLgoD6DPxMQ_Q
提取码:4kn5

image.png

7,pyspark环境验证

win + R,然后输入cmd回车,然后输入pyspark


image.png

image.png
list = ['zhangsan','lisi','wangwu','wangmazi','lisi','wangmazi','lisi']
mapRdd = rdd.map(lambda word : (word,1))
reduceRdd = mapRdd.reduceByKey(lambda x,y : x+y)
reduceRdd.collect()

运行正常,说明pyspark环境已经搭建完成。


image.png

你可能感兴趣的:(在Windows上搭建pyspark环境)