次简单的spark + notebook 解决方案(Linux&mac)

Tips: 如果依旧觉得复杂,没耐心看,直接看另一解决方案,在参考资料的第一个链接,没有比这更简单的方法了!!当然前提是你至少要下个spark,并解压。

前期准备

1、安装spark

2、安装库findspark    (e.g. pip3/pip install findspark)

第一步:设置SPARK_HOME

在命令行中输入vim ~/.bash_profile,加入如下字段:

export SPARK_HOME = /Users/Max/Apps/spark-2.2.1-bin-hadoop2.7 

‘=’ 后面填的是安装spark的路径


第二步:连接pyspark

主要命令如下:

1、在命令行输入 jupyter notebook 

2、建立一个python2/python3 为编译器的notebook - 用那个取决于你是在python2/3 安装了库findspark

3、在notebook中输入以下命令

3.1 import findspark

3.2 findspark.init()

3.3 import pyspark


输入完成以上命令以后,且无报错,恭喜你。notebook已经成功连上pyspark了。但是这个借助于库连接spark的方法,貌似有点投机取巧,而非传统的方法,如果有兴趣尝试传统方法的可以看看参考资料中的链接

参考资料

1、另一个快速整合spark & notebook的方案,这个应该是我目前看到最简单的方法了,只要在~/.bash_profile增加两个环境变量即可。唯一的问题是,当你想要在命令行里使用pyspark时,需要重新改写下环境变量的配置。尝试可行。https://blog.csdn.net/xiaoliuzz/article/details/78644619

2、传统方法stackoverflow上的高分答案,但是我并没有连成功https://stackoverflow.com/questions/33064031/link-spark-with-ipython-notebook/33065359#33065359 

3、另一个传统方法,但是我在sbt这步出错了                  https://www.dataquest.io/blog/pyspark-installation-guide/

你可能感兴趣的:(次简单的spark + notebook 解决方案(Linux&mac))