PySpark开发环境搭建

安装Scala

创建系统变量SCALA_HOME为D:\software\Scala, 然后添加%SCALA_HOME%\bin到系统PATH变量中
然后打开cmd窗口,运行scala

安装JDK

创建系统变量JAVA_HOME为D:\software\Java\jdk,然后添加%JAVA_HOME%\bin到系统PATH变量中,创建系统变量CLASSPATH,内容为%JAVA_HOMT%\lib;%JAVA_HOMT%\lib\tools.jar;
打开cmd窗口,输入 java -version

安装Anaconda3

配置anaconda到path

安装Spark

解压缩到D:\software\spark-2.4.4-bin-hadoop2.6文件夹
创建系统变量SPARK_HOME,内容为D:\software\spark-2.4.4-bin-hadoop2.6,添加%SPARK_HOME%\bin和 %SPARK_HOME%\sbin到系统变量PATH中

安装hadoop和winutils

下载hadoop,解压到D:\software\hadoop-2.6.4文件夹
按照版本下载winutils,拷贝到D:\software\hadoop-2.6.4\bin文件夹
下载链接:winutils
创建系统变量HADOOP_HOME为D:\software\hadoop-2.6.4,添加%HADOOP_HOME%\bin到PATH变量中

将jupyter notebook作为pyspark的默认编辑器

新建系统变量PYSPARK_DRIVER_PYTHON,值设为jupyter
新建系统变量PYSPARK_DRIVER_PYTHON_OPTS,值设为notebook

windows下设置JupyterNotebook默认目录

找到jupyter_notebook_config.py,打开编辑c.NotebookApp.notebook_dir = 'D:\workspace\jupyter'
在cmd启动pyspark

你可能感兴趣的:(PySpark开发环境搭建)