windows10上配置pyspark工作环境

由于工作原因,需要在windows10本机上使用spark语言进行编程,再在集群环境中测试程序,结合网上搜索到的资源和自己的实践,网上主要参考huaibei_北和xuweimdm所写的文章内容进行操作, 这里博客记录一下自己在实际中具体配置过程,以便后续查阅:
前置编译环境如下所示:
- 1 windows10系统
- 2 python2.x

所需要的资源主要有:
-1 Java JDK 8.0
-2 Scala 2.12.0
-3 hadoop 2.7
-4 pyspark 2.1.0
-5 winutils.exe
为了方便,已经将所有涉及到的文件均放置于此,以备后续下载。spark2.0+hadoop2.7+java8+scala+winutil文件整理,密码为uwxl。


安装 Java JDK

JDK是用来使用Java语言开发相关程序的标准编辑件,目前最新的版本为JDK9,为了稳定,目前主要采用JDK8,具体地址在Java JDK8里,下载完成以后,直接双击下一步安装至指定目录即可,这里安装目录位置为E:\Program Files\Java\jdk1.8.0_144。
windows10上配置pyspark工作环境_第1张图片
安装完成以后,配置环境变量。配置环境变量的方法为电脑[右键]——>属性——>环境变量,编辑环境变量方法见下图
windows10上配置pyspark工作环境_第2张图片
配置Java环境变量主要有三个:
JAVA_HOME: E:\Program Files\Java\jdk1.8.0_144\
CLASS_PATH: E:\Program Files\Java\jdk1.8.0_144\lib
Path: E:\Program Files\Java\jdk1.8.0_144\bin
其中Java_Home变量则为Java安装路径,CLASS_PATH可以看成Java安装目录下lib文件目录,Path一般为系统自带变量,修改时直接新增Java安装目录下的bin目录。
一般来讲bin目录下大多是可执行文件,XX_HOME指程序安装目录(下面Scala、Hadoop、spark均需要执行增加Home变量,和bin相关操作)。
windows10上配置pyspark工作环境_第3张图片
windows10上配置pyspark工作环境_第4张图片
Java如果安装成功,则在cmd窗口中分别输入java 和javac,如果均出现如下图所示结果,则表示安装Java成功

java
javac

windows10上配置pyspark工作环境_第5张图片

安装 Scala

同理,Scala安装与Java类似,下载链接在Scala下载目录中,根据spark版本选择相对应的scala版本,如果使用的是Spark 2.0 以上的,需要用Scala 2.11以上各个版本,否则,只能使用Scala 2.10的各个版本。这里选择的是Scala 2.12.0。
windows10上配置pyspark工作环境_第6张图片
安装步骤很简单,同样各种下一步就好了。最后再完成scala_home和在path里增加bin相关的环境变量配置。
完成后,在cmd窗口中输入scala如果出现下图所示,则表示成功。
windows10上配置pyspark工作环境_第7张图片

安装Spark

spark下载地址在http://spark.apache.org/downloads.html,选择合适的版本安装即可。
windows10上配置pyspark工作环境_第8张图片
顺手还需要完成spark_home和bin环境变量相关配置。
windows10上配置pyspark工作环境_第9张图片
windows10上配置pyspark工作环境_第10张图片

安装Hadoop

由于spark是基于hadoop建立的,所以需要下载Hadoop,这里选择hadoop 2.7。下载链接在Hadoop下载位置里面,选择合适的版本进行下载。
windows10上配置pyspark工作环境_第11张图片
同样地,这里也需要配置环境变量,新建HADOOP_HOME变量和新增在path变量下新增…/hadoop/bin。

下载winutil.exe

winutil.exe下载位置在winutil下载位置中。
windows10上配置pyspark工作环境_第12张图片其中根据自己的hadoop版本选择对应的winutil.exe文件。这里选择的是hadoop-2.7.1/bin中的winutil.exe文件。

处理Python相关

1,将spark所在目录下(比如我的是E:\spark\spark-2.1.0-bin-hadoop2.7\python)的pyspark文件夹拷贝到python文件夹下(我的是E:\Anaconda2\Lib\site-packages)

这里请根据自己情况自行调整!

2,安装py4j库

一般的在cmd命令行下 pip install py4j 就可以。若是没有将pip路径添加到path中,就将路径切换到python的Scripts中,然后再 pip install py4j 来安装库。

3 修改权限

将winutils.exe文件放到Hadoop的bin目录下(我的是E:\spark\spark-2.1.0-bin-hadoop2.7\bin),然后以管理员的身份打开cmd,然后通过cd命令进入到Hadoop的bin目录下,然后执行以下命令:

winutils.exe chmod 777 c:\tmp\Hive

验证pyspark启动

到此 所有的配置工作全部完成,最后再在cmd中输入pyspark,查看反馈。如果出现下面界面,则恭喜你,pyspark安装配置成功。
windows10上配置pyspark工作环境_第13张图片

配置文件整理

你可能感兴趣的:(基础环境配置)