windows 10平台pycharm搭建pyspark

动机

我们都是python程序可以提交到spark平台上进行分布式计算,所以需求就来了,如何搭建一个pyspark环境,如果没有搭建成功可能会报各种各样的错误.,当自己写的pyspark程序明明没有错误还是会报错的话(初次使用的时候,我就是利用pycharm跑了一个spark官网上的python wordCount示例报错了),那么请检查一下自己的pyspark环境有没有搭建好

准备

  • spark (这里我用的spark2.1-hadoop2.6)
  • pycharm (这个区idea官网上下载)
  • python (这里我用的python3.5)

第一步:安装pycharm

没啥好说的,自己找一个路径,安装即可

第二步:安装python

安装的时候注意一下安装的路径,我自定义在我的C:\application\python文件夹里面,安装完毕之后要配置一下环境变量
windows 10平台pycharm搭建pyspark_第1张图片
在里面先新建一个点击下方的新建按钮,弹出对话框,第一行起个名字,第二行写上python的路径
windows 10平台pycharm搭建pyspark_第2张图片
然后打开win+R 打开cmd,输入python看看是否有反应,没有反应的话,在path变量中增加相关的路径。
windows 10平台pycharm搭建pyspark_第3张图片

第三步:解压spark安装包

这里面的操作就是把你在spark官网上下载的安装包放到自己熟悉的一个路径下,然后对其进行解压,解压完毕之后。配置相关的环境变量。我的环境变量如下:
windows 10平台pycharm搭建pyspark_第4张图片
接着,要去path中配置一下SPARK_HOMEbin目录,如下所示:
windows 10平台pycharm搭建pyspark_第5张图片
配置完毕之后打开cmd,输入pyspark查看是否能够出现下述现象:
windows 10平台pycharm搭建pyspark_第6张图片

第四步:配置pycharm

做好上述的准备之后,就要开始对pycharm进行配置,打开pycharm,新创建一个测试案例,如下所示
windows 10平台pycharm搭建pyspark_第7张图片
在这里我选择了系统已经存在的解释器,然后点击下一步,创建了一个新的空项目。接着我新建了一个py脚本文件,里面粘贴上了官网的示例代码,然后对其做了一点修改。这个问题不大。
接着编辑这个项目的结构
windows 10平台pycharm搭建pyspark_第8张图片
点击这个东西
windows 10平台pycharm搭建pyspark_第9张图片
windows 10平台pycharm搭建pyspark_第10张图片
在里面找到SPARK_HOMEPYTHON_HOME,将这两个东西粘贴上去,接下来点击ok!下一步配置pyspark这个包

非常重要!!!!

点击file->setting->project->project Structure,点击箭头所指向的位置
windows 10平台pycharm搭建pyspark_第11张图片
然后然后将pyspark的包给选出来,这个包的路径在之前下载的spark包下的python目录下的lib下,选中pyspark.zip然后点击确认即可如下所示:
windows 10平台pycharm搭建pyspark_第12张图片
最后就可以用shift+F10开始运行程序了,程序没有报错

windows 10平台pycharm搭建pyspark_第13张图片

如果没有配置好的话,可能会出现什么py4j error 然后什么什么not exits什么的

或者java gateway …什么什么number啥的

反正如果是第一次使用pyspark没有成功的话,可以检查一下环境是否正确搭建

你可能感兴趣的:(环境搭建,pyspark,pycharm)