Pycharm调用Pyspark API配置,小记

1、pyspark安装

参见

http://blog.csdn.net/zjjfjcs/article/details/77748726
注意:
需要配置环境变量:

$ sudo vim /etc/profile

在文件末尾添加:

export SPARK_HOME=$YOUR_SPARK_HOME  #$YOUR_SPARK_HOME是spark的安装路径,如/local/spark-2.2.0

export PATH=$SPARK_HOME/bin:$PATH

2、在sys.path中添加pyspark路径

<1>方法一:程序中动态导入

import sys
sys.path.add('$YOUR_SPARK_HOME/python')
这种方法在程序运行完后失效,不同的py文件中也不能使用

<2>方法二:设定为默认路径

(此方法参考网址http://blog.sina.com.cn/s/blog_59ba44680100z0mt.html)

在/usr/local/lib/python2.7/dist-packages中找到以.pth结尾的任意文件,在末尾加入路径即可:

如:在easy-install.pth文件结尾加入:


$YOUR_SPARK_HOME/python
重启pycharm即可。

3、测试

打开Pycharm创建一个py程序:

内容如下:

from pyspark.sql import SparkSession
spark = SparkSession.builder \
     .master("local") \
     .appName("Word Count") \
     .config("spark.some.config.option", "some-value") \
     .getOrCreate()
执行结果如下:

Pycharm调用Pyspark API配置,小记_第1张图片

说明配置成功!!!


你可能感兴趣的:(Spark,pyspark配置,pycharm)