1.安装好JDK:
JDK所有人肯定都装了,这里就不细说明了。
2.安装Hadoop并配置环境变量:
hadoop下载地址:Index of /apache/hadoop/common
解压hadoop-2.8.3.tar.gz特定路径,如:D:\hadoop-2.8.3
添加系统变量HADOOP_HOME:D:\hadoop-2.8.3
在系统变量PATH中添加:D:\hadoop-2.8.3\bin
安装组件winutils:将winutils中对应的hadoop版本中的bin替换自己hadoop安装目录下的bin
3.Spark环境变量配置:
说明:spark是基于hadoop之上的,运行过程中会调用相关hadoop库,如果没配置相关hadoop运行环境,会提示相关出错信息,虽然也不影响运行。
下载对应hadoop版本的spark:Apache Download Mirrors。本人使用的是hadoop2.8.3版本,spark是spark-2.4.5-bin-hadoop2.7。可以使用
解压文件到:E:\dju_softwares\DSJ_gz\spark-2.4.5-bin-hadoop2.7
添加PATH值:E:\dju_softwares\DSJ_gz\spark-2.4.5-bin-hadoop2.7\bin
新建系统变量SPARK_HOME:E:\dju_softwares\DSJ_gz\spark-2.4.5-bin-hadoop2.7
5.在CMD中运行pyspark:
出现以下图说明安装配置正常
6.在pycharm中配置spark
打开PyCharm,创建一个Project。然后选择“Run” ->“Edit Configurations”–>点击+创建新的python Configurations
选择 “Environment variables” 增加SPARK_HOME目录与PYTHONPATH目录。
SPARK_HOME:Spark安装目录
PYTHONPATH:Spark安装目录下的Python目录下的lib下的py4j-0.10.7-src.zip
选择 File->setting->你的project->project structure
右上角Add content root添加:py4j-some-version.zip和pyspark.zip的路径,这两个文件都在spark-2.4.5-bin-hadoop2.7\python\lib文件夹中。
7.测试环境是否配置成功:
import os
import sys
os.environ['SPARK_HOME'] = "D:\adasoftware\spark"
sys.path.append("D:\adasoftware\spark\python")
try:
from pyspark import SparkContext
from pyspark import SparkConf
print("Successfully imported Spark Modules")
except ImportError as e:
print("Can not import Spark Modules", e)
sys.exit(1)
运行代码提示成功导入模块,及spark环境搭建成功。
版权声明:本文为csdnliu123原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:PyCharm:Django框架搭建Spark开发环境_IT change the world的博客-CSDN博客