首先,在整合过程中遇到了很多的坑,此文章我将献给那些擅长用python使用spark的读者,希望对所看读者有所帮助。废话不多说了,下面开始整合。
本次安装采用的环境为:
1.Anaconda2
2.spark1.6.1
1.下载地址:[Anaconda下载](https://www.continuum.io/downloads)
2.安装Anaconda2:
bash Anaconda2-2.5.0-Linux-x86_64.sh
以上的安装步骤就不多说了,详细google就能找到。
3.这里就相当于已经安装好了spark。直接进行整合;首先在整合ipython时,需要安装py4j,这时会自动安装到一下目录:/usr/bigdata/spark/python/lib下。
值得注意的一点的是:如果conda install 安装失败,可以选择使用pip install去安装py4j。
设置环境变量
修改 ~/.bashrc 文件,添加以下内容
#pyspark for ipython
export ANACONDA_HOME=/home/hdfs/anaconda2
export PYSPARK_DRIVER_PYTHON=$ANACONDA_HOME/bin/ipython2
export PYSPARK_DRIVER_PYTHON_OPTS="notebook"
export PYSPARK_PYTHON=$ANACONDA_HOME/bin/python
export PYTHONPATH=/usr/bigdata/spark/python/lib/py4j-0.9-src.zip
启动pyspark
根据环境变量相应的设置,我们可以进入到ipython的web界面;