pycharm 配置spark 2.2.0

参考教程:http://www.bijishequ.com/detail/384683?p=58

配置原因:在pyspark命令行 练习比较麻烦,不能自动补全,浪费时间。Jupyter notebook 是最理想的,但是还没配置成功。

1.打开pycharm,新建一个工程

2.点击 run --Edit Configuration..


pycharm 配置spark 2.2.0_第1张图片

3.配置
3.1 新建 Python ,起个名

3.2 配置script,指向你要引用 spark 的那个文件

3.3 Enviroment variables:


pycharm 配置spark 2.2.0_第2张图片

PYSPARK_PYTHON; 指向 你本机 的 python 路径
PYTHONPATH:指向 spark 安装目录的 Python 文件夹
SPARK_HOME :指向 spark 安装目录

4.安装 py4j

sudo pip3 install py4j

5.看到网上很多教程,一般都只执行到第四步即可,但是我仍然无法导入 pyspark 包,还需要下面的步骤:

选择 File--->setting--->你的project--->project structure
右上角Add content root添加:py4j-some-version.zip和pyspark.zip的路径(这两个文件都在Spark中的python文件夹下)

pycharm 配置spark 2.2.0_第3张图片

6.测试程序

from pyspark import SparkConf, SparkContext
conf = SparkConf().setAppName("myApp").setMaster("local")
sc = SparkContext(conf=conf)
print(sc.parallelize([1, 3, 4]).count())

你可能感兴趣的:(pycharm 配置spark 2.2.0)