Pyspark的Intellij idea环境搭建

为什么需要IDE

在本地搭建一个spark环境可以方便spark代码的调试,可以和一般程序一样打断点,看变量,否则可能就只能打很多日志来debug了

选哪个IDE

Pyspark的IDE我用Intellij idea,我开发java程序时用idea,安装了python插件之后和pycharm是一样的,少装了一个pycharm,好处是不需要配两个IDE了,两者的配置步骤,位置基本是一致的

安装步骤

  1. 安装java,scala,并配置到环境变量
  2. 解压spark-2.3.0-bin-hadoop2.7.tgz, hadoop-2.7.6.tar.gz到本地某目录,我这里是 D:\CodeClub\Lib\
  3. 配置SPARK_HOME=D:\CodeClub\Lib\spark-2.3.0-bin-hadoop2.7HADOOP_HOME=D:\CodeClub\Lib\hadoop-2.7.6到环境变量
  4. 去 https://github.com/steveloughran/winutils 选择你安装的Hadoop版本号,然后进入到bin目录下,下载winutils.exe文件,将这个文件放入到Hadoop的bin目录下
  5. spark-streaming-kafka-0-8-assembly_2.11-2.3.0.jar 包放入本地的SPARK_HOME下的jars目录下(读kafka流使用)
  6. 新建空白python工程
  7. 新建一个py文件,写一个小的spark demo程序
  8. run/debug configuration中选择python
  9. 在python的配置页中配置环境变量(必须配置在run/debug configurations中,我配置在系统环境变量中不生效,可能是哪里出错了)
    PYTHONPATH=D:\CodeClub\Lib\spark-2.3.0-bin-hadoop2.7\python;D:\CodeClub\Lib\spark-2.3.0-bin-hadoop2.7\python\lib\py4j-0.10.6-src.zip;PYTHONUNBUFFERED=1
  10. run/debug 看看效果吧

参考链接

  • winutils.exe下载: https://github.com/steveloughran/winutils/blob/master/hadoop-2.7.1/bin/winutils.exe
  • hadoop.dll 下载: https://github.com/srccodes/hadoop-common-2.2.0-bin/tree/master/bin
  • 参考: pyspark本地启动设置: https://blog.csdn.net/summerxiachen/article/details/79199603

ps

总结本文的时候,有几个小环节已经忘了,如果按步骤操作后还有问题,那么留言我会尽快回复_

你可能感兴趣的:(Pyspark的Intellij idea环境搭建)