用IntelliJ IDEA提交pyspark程序

最近要用python写spark程序。因为idea如此强大,因此要写一个如何在idea上提交pyspark程序。

安装python组件

不管怎么样,想要在idea编写python需要安装组件。如图:
用IntelliJ IDEA提交pyspark程序_第1张图片

新建Python工程

插件安装好之后,你就可以新建一个python工程了:
用IntelliJ IDEA提交pyspark程序_第2张图片

可能很多小朋友找不到这个页面,其实在打开工程的时候,左上角file->close project就可以了。然后Create New Project:
用IntelliJ IDEA提交pyspark程序_第3张图片

next之后取个名字HelloPython之后finishi就获得了一个Python工程。
之后右键new一个Python工程。

配置环境

这里的pi.py文件是从$SPARK_HOME/examples/src/main/python中复制的,有需要的小伙伴可以从这里找样例程序

首先你的~/.bashrc或者/etc/profile里要设置好如下的内容:

export SPARK_HOME=/home/fish/workspace/spark_compile/spark
export PYTHONPATH=$SPARK_HOME/python/:$SPARK_HOME/python/lib/py4j-0.8.2.1-src.zip:$PYTHONPATH

然后在idea中 run->Edit Configurations->Environment->Environment Variables
添加如下设置:
用IntelliJ IDEA提交pyspark程序_第4张图片

其中PYTHONPATH填入的是spark目录下的python目录。

关联源码

这样虽然可以运行程序,但是无法进入到源码中实际看看到底是什么原理,因此要关联源码。
首先file->project structure->modules,点击最右侧加号:
用IntelliJ IDEA提交pyspark程序_第5张图片

选择第一个jars or directories.找到你的PYTHONPATH下的lib文件夹,直接添加进来就可以了。

至此,就可以用idea写pyspark的程序并查看源码了,但是发现pyspark的源码都特别简单,而且有很多都省略的,至于它们是怎么转化成scala语言与spark关联的需要日后研究。以上。

你可能感兴趣的:(Spark)