pyspark-配置spark的Python环境

1.首先你的服务器上spark环境已经配置完成,本文主要针对spark配置pyspark

2.由于python的库众多为了更好的管理与集成,这里使用anconda3来集成Python3(我的centOS7默认安装了Python2)

3.在安装anconda3之前需有yum -y install bzip2 bzip2-devel 环境否则无法解压anancoda3(anconda3可以去清华大学镜像库下载,比较方便,我这里用的版本3.2.5.0这个版本Python的版本为3.5.0,如果下载anancoda2里面Python版本是Python2,如果下更高版本Python可能会有兼容问题,不过我也没试过,试过的小伙伴可以留言告诉我)

4.安装时需要注意:bash Anaconda3-2.5.0-Linux-x86_64.sh ,进入安装后一直回车,会询问yes,在回车,会出现安装路径我没有修改,之后会自动安装最后还会有一个询问我选的yes(是询问是否自动配置环境变量),之后会出现安装成功提示。(我又一次没有在最后yes,自动设置环境变量发现Python版本没有改变过来,我重新了anancoda,这里要注意)

pyspark-配置spark的Python环境_第1张图片

第一次询问

安装位置

anancoda3 Python加入Python配置

5.安装成功anconda3之后,输入python发现版本还是2.7,这时需要重启liunx,在检查版本为3.5

6.配置spark,在spark安装目录vi ./conf/spark-dev.sh 里面添加anconda3的Python位置(我的测试服务器安装的是默认位置),

export PYSPARK_DRIVER_PYTHON=/root/anaconda3/bin/python

export PYSPARK_PYTHON=/root/anaconda3/bin/python

保存即可。

补:我使用zeeplin 来编写代码,在zeeplin配置pyspark,点击Interpreters,搜索spark,

新增参数:spark.home 值为你主机spark的安装路径

编辑参数:zepplin.pyspark.python 值为anaconda3的Python路径

重启zepplin即可

你可能感兴趣的:(spark)