Windows上的PyCharm 远程连接调试pyspark

在实验室配置了一个Spark集群,传统的方法就是在Windows本地开发项目,完了后打包,然后上传到Linux服务器上,最后执行spark-submit 。但是在实际开发用还是感觉用IDE比较好,于是找到了Pycharm远程连接Linux服务器开发Spark项目的方法。

1.设置环境变量

在Linux中/usr/local/spark/spark-2.2.0-bin-hadoop2.7/python/lib 目录下py4j 包添加在系统环境变量中,注意源码包的版本问题,要与下面安装的py4j 的版本一致才行。

vim /etc/profile
#添加环境变量
export PYTHONPATH=$SPARK_HOME/python/:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip
#生效
source /etc/profile

2.远程服务器同步配置

2.1在Linux上安装py4j

我的集群(Centos 7)上原本是Python2.7 ,后来是工作需要改为了Python3.6.4 。在Centos 7 安装py4j 首先要安装pip3 ,这里采用Yum安装的方式。

在使用yum安装的时候会出现无法使用yum的错误,根据提示信息将文件最上面的改为python2.7即可。

yum install pip3
pip3 install py4j
image.png

2.2配置Deployment

首先我们需要配置PyCharm通服务器的代码同步,打开Tools | Deployment | Configuration

点击左边的“+”添加一个部署配置,输入名字,类型选SFTP

Windows上的PyCharm 远程连接调试pyspark_第1张图片
image.png

添加一个部署配置,输入自己的远程服务器的IP地址59.68.29.XXRoot path 填写Linux服务器中的文件上传的根目录,注意这个目录必须当前用户有权创建文件,User name 为登录Linux服务器登录名,可以先测试一下连接是否成功。

Windows上的PyCharm 远程连接调试pyspark_第2张图片
image.png

Mapping 选项中,Local Path为Windows下的项目存放路径,就是将本地目录同步到服务器上面,Deployment path on server'tset' 的意思就是在上面的Root Path 路径后面追加的路径地址。

Windows上的PyCharm 远程连接调试pyspark_第3张图片
image.png

2.3Python interpreter配置

配置Python的解释器,下面先添加远程服务器:

Windows上的PyCharm 远程连接调试pyspark_第4张图片
image.png

采用SSH连接,添加下面的基本参数即可。

Windows上的PyCharm 远程连接调试pyspark_第5张图片
image.png

如果在Package中没有自动导入这个包需要手动添加,点击右边的加号即可。

Windows上的PyCharm 远程连接调试pyspark_第6张图片
image.png
Windows上的PyCharm 远程连接调试pyspark_第7张图片
image.png

3.配置Run以及运行实例

将上面的配置结束之后,配置Run的参数。主要是配置Environment variables 参数,将SPARK_HOME =/usr/local/spark/spark-2.2.0-bin-hadoop2.7PYTHONPATH=/usr/local/spark/spark-2.2.0-bin-hadoop2.7/python ,因为我的spark集群建立在hadoop上我还添加了HADOOP_HOME=/usr/local/hadoop/hadoop-2.8.2JAVA_HOME=/usr/local/java/jdk1.8.0_144配置好就行了。

Windows上的PyCharm 远程连接调试pyspark_第8张图片
image.png

最后先将项目上传到Linux服务器中,Update to.. 是可以选择不同的远程服务器。

Windows上的PyCharm 远程连接调试pyspark_第9张图片
image.png

实例代码:

import os
import sys

from pyspark.sql import SparkSession

#os.environ['SPARK_HOME'] = 'usr/local/spark/spark-2.2.0-bin-hadoop2.7'
#sys.path.append('/usr/local/spark/spark-2.2.0-bin-hadoop2.7/python')
sys.path.append('/usr/local/spark/spark-2.2.0-bin-hadoop2.7/python/lib')

if __name__ == '__main__':

    spark = SparkSession.builder\
        .appName("Python Spark SQL basic example")\
        .config("spark.some.config.option", "some-value")\
        .getOrCreate()

    spark.sql("show databases").show()

运行结果:

Windows上的PyCharm 远程连接调试pyspark_第10张图片
image.png

运行成功!但是出现的问题是我的这个数据库是连接的是哪个数据库呢?我集群中的用的是Hive中元数据库为Mysql,有以下数据库:

Windows上的PyCharm 远程连接调试pyspark_第11张图片
image.png

这个错误待解决......

4.参考资料

https://www.bbsmax.com/A/gGdXVO9QJ4/

http://blog.csdn.net/u014770372/article/details/78957188

你可能感兴趣的:(Windows上的PyCharm 远程连接调试pyspark)