idea上搭建pyspark开发环境

1 环境版本说明

python版本:Anaconda3.6.5
spark版本:spark-2.4.8-bin-hadoop2.7
idea版本:2019.3

2 环境变量配置

2.1 python环境变量配置

将python.exe所在的目录配置到path环境变量中

2.2 spark环境变量配置

下载spark安装包,我下载的是spark-2.4.8-bin-hadoop2.7.tgz
将安装包解压到一个非中文目录
配置SPARK_HOME环境变量

2.3 python中安装py4j模块。

安装方法1:用pip命令安装
在python环境中安装py4j模块(python调用java API的中间通信模块)
安装命令为:

pip install py4j

注:卸载python 模块:pip uninstall py4j

安装方法2:直接拷贝安装
将解压的spark安装包中的python\lib\py4j拷贝到python安装目录的Lib\site-packages中
验证py4j是否安装成功:进入python ,import py4j

不报错代表安装成功!

2.4 python中安装pyspark模块。

安装方法1:用pip命令安装
安装命令为:

pip install pyspark

注:卸载python 模块:pip uninstall pyspark

安装方法2:直接拷贝安装
将解压的spark安装包中的python\lib\pyspark拷贝到python安装目录的Lib\site-packages中
验证py4j是否安装成功:进入python ,import pyspark

不报错代表安装成功!

3 idea配置环境

3.1 idea安装python插件

File--Setting--Plugins搜索python模块

3.2 配置python解释器环境

Run--Edit Configurations--Templates--Python,在右侧找到Environment->Environment Variables

配置PYTHONPATH和SPARK_HOME两个环境变量

3.3 关联源码

File--Project Structure--modules,点击最右侧加号:

选择第一个JARs or directories,找到PYTHONPATH下的Lib文件夹,直接添加进来即可,弹出的窗口选择Jar Directory

4测试

4.1创建python项目

4.2创建Python Package:com.jackyan.spark

4.3创建WordCount的python代码WordCount.py

from pyspark import SparkConf, SparkContext

def showResult(one):
    print(one)

if __name__=="__main__":
    conf = SparkConf()
    conf.setMaster("local")
    conf.setAppName("test")
    sc = SparkContext(conf=conf)
    lines = sc.textFile("./words")
    words = lines.flatMap(lambda line: line.split(" "))
    pairWords = words.map(lambda word: (word, 1))
    reduceResult = pairWords.reduceByKey(lambda v1, v2: v1 + v2)
    reduceResult.foreach(lambda one:showResult(one))

4.4 编写用来测试的文件words

hello jackyan
hello spark
hello python
hello spark
hello java
hello scala
hello java
hello world
hello jackyan

4.5 运行测试pyspark程序

你可能感兴趣的:(idea上搭建pyspark开发环境)