本机安装PySpark3.2.0_python3.8

本机安装PySpark3.2.0__python3.8

相关需求

  1. 安装Anaconda
  2. 安装JDK
  3. 然后配置相关环境

pandas: 处理小规模数据集
Spark: 3.2.0以上结合了pandasAPI 大规模的数据集处理

1.JDK安装

在这里插入图片描述
1-1 直接默认安装,然后配置环境变量
本机安装PySpark3.2.0_python3.8_第1张图片
本机安装PySpark3.2.0_python3.8_第2张图片
1-2 点击path配置添加如下
本机安装PySpark3.2.0_python3.8_第3张图片
在这里插入图片描述

win+r->cmd->java
javac
java -version #jdk版本
查看jdk是否配置成功

本机安装PySpark3.2.0_python3.8_第4张图片

2.安装spark并配置相关环境变量

本机安装PySpark3.2.0_python3.8_第5张图片
解压到指定目录即可。我的目录:D:\LenovoSoftstore\soft\spark-3.2.1-bin-hadoop3.2
本机安装PySpark3.2.0_python3.8_第6张图片

# path添加
%SPARK_HOME %\bin

点击path->编辑-.新建->%SPARK_HOME %\bin
本机安装PySpark3.2.0_python3.8_第7张图片
2-1 配置系统变量
本机安装PySpark3.2.0_python3.8_第8张图片
本机安装PySpark3.2.0_python3.8_第9张图片

#-----------------------1
PYSPARK_DEIVER_PYTHON_OPTS  notebook
#-----------------------2
PYSPARK_DEIVER_PYTHON       ipython
#-----------------------3
PYTHONPATH
%SPARK_HOME%\python\lib\py4j;%SPARK_HOME%\python\lib\pyspark

2-2 修改配置文件
在你的解压的文件路径目录conf下,复制文件spark-env.sh.template,修改文件名为spark-env.sh
本机安装PySpark3.2.0_python3.8_第10张图片
修改配置文件spark-env.sh,在文件末尾添加以下代码:

#D:\LenovoSoftstore\soft\Anaconda是你anaconda 安装的目录
export PYSPARK_PYTHON=D:\LenovoSoftstore\soft\Anaconda
export PYSPARK_DRIVER_PYTHON=D:\LenovoSoftstore\soft\Anaconda
export PYSPARK_SUBMIT_ARGS='--master local[*]'
#local[*]  是利用所有的资源
#安装相关包,顺便把要用的一些pyhive,pymysql,jieba 都安上
pip install pyspark findspark pyhive  pymysql  jieba -i https://pypi.tuna.tsinghua.edu.cn/simple

3.相关文件下载已打包好

点击链接
相关文件提取码-mdp4

4.测试案例

本机安装PySpark3.2.0_python3.8_第11张图片

你可能感兴趣的:(PySpark,python,机器学习,深度学习)