Spark ML 分布式机器学习(一):iPython+spark安装与环境变量配置

Spark ML 分布式机器学习(一):iPython+spark安装与环境变量配置

—– 来自“慢慢变强的me”.2017-04-09

本人是DM领域里菜鸟一枚,原热衷于sklearn进行机器学习,经过阿里巴巴的电话面试以及网上查询看到许多公司都是用分布式spark进行数据挖掘及机器学习,经过了解和一些视频介绍决定把数据挖掘及机器学习转移到spark上,一直喜欢Python的我,spark也有相应的API–pyspark shell。工欲善其事必先利其器,经过网上博客等文章的查询,我在这篇文章里主要写了Windows7上的VMware Workstation虚拟机Ubuntu14.04中配置Anaconda(Python2.7)以支持Saprk2.0(Pyspark)安装详细步骤,以为搭建一个独立的属于自己习惯的环境,以备自己以后更好的数据挖掘及机器学习,如有幸被其他同学看到还请指点不足之处,如有不幸带来困扰还请评论于我或私信于我(知乎:慢慢变强的me;CSDN:慢慢变强的me)。最后,本文纯属个人编写,转载请注明出处。

  • VM虚拟机Ubuntu14.04的环境搭建
  • 安装Aanconda(Python2.7)
  • 安装Java SDK
  • 安装Spark2.0
  • 配置环境变量

一、VM虚拟机Ubuntu14.04的环境搭建(略)

二、安装Anaconda(Python2.7)

根据自己需要下载anaconda版本:下载网址
(1)利用wget下载Anaconda
Spark ML 分布式机器学习(一):iPython+spark安装与环境变量配置_第1张图片
(2)在Terminal里输入:bash Anaconda2-4.3.1-Linux-x86_64.sh点击回车即可。
(3)一路点击回车,直到出现:

Do you approve the license terms? [yes|no]
>>>
 Please answer 'yes' or 'no':

然后输入yes
(4)点击回车,等一会儿出现:Thank you for installing Anaconda2!####安装成功!(其实,没有成功,我在安装的过程中没有提示我更改环境变量,然后我在安装好Python后又进行了环境变量配置)
(5)在Terminal里输入:sudo gedit /etc/profile打开profile文件,在最后面增加一行代码:export PATH=/home/pysml/anaconda2/bin:$PATH,其中,/home/pysml/anaconda2是我anaconda2安装路径。
(6)保存profile,重启ubuntu,输入:python 进行测试出现以下即安装成功。
Spark ML 分布式机器学习(一):iPython+spark安装与环境变量配置_第2张图片

三、安装Java SDK(安装的是java9)

(1)只需要在Terminal输入: sudo apt-get install software-properties-common
(2)sudo add-apt-repository ppa:webupd8team/java
(3)sudo apt-get update
(4)sudo apt-get install oracle-java9-installer
(5)再输入:java -version,出现以下即安装成功。
Spark ML 分布式机器学习(一):iPython+spark安装与环境变量配置_第3张图片

四、安装spark2.0

根据自己需要选择spark版本,下载网址
如下是本人所选择的版本:
选择Spark版本: Spark2.0.2(发布于2016.11.14);
选择下载包的类型:Pre-built for Hadoop 2.7 and later;
选择下载类型: Direct Download;
对应spark压缩包: spark-2.0.2-bin-hadoop2.7.tgz
(1)下载上述选择的spark。wget以下就链接OK。
http://d3kbcqa49mib13.cloudfront.net/spark-2.0.2-bin-hadoop2.7.tgz
(2)解压spark-2.0.2-bin-hadoop2.7.tgz。代码为:tar -zxvf spark-2.0.2-bin-hadoop2.7.tgz。
(3)因为解压后会生成一个spark-2.0.2-bin-hadoop2.7文件夹,为了方便可以去解压的存放路径手动改成名为spark的文件夹。
(4)然后进行配置环境变量:进入profile文件,在其最后增加以下代码:(进入profile的文件代码为:sudo gedit /etc/profile

export ANACONDA_ROOT=~/anaconda2
PYSPARK_DRIVER_PYTHON=jupyter ./bin/pyspark

(5)其实这步骤就可以验证spark是否安装成功。但比较繁锁:
cd ~/spark
./bin/pyspark
(6)为了不要每次都要进行cd进入文件里调用pyspark,然后在.bashrc文件里进行spark的环境变量配置。和profile一样,进入.bashrc文件在其最后增加以下代码:(进入.bashrc文件的代码:sudo gedit ~/.bashrc 把下面的代码增加完然后再输入:source ~/.bashrc
export PATH=$PATH:/home/pysml/spark/bin (/home/pysml/spark表示spark的路径,根据自己的路径进行更换)
(7)直接在Terminal里输入:pyspark就直接运行了。出现一个以下标志说明安装成功了,下面出现>>>,说明进入了Python里了。
Spark ML 分布式机器学习(一):iPython+spark安装与环境变量配置_第4张图片

(8)打开pyspark是Python,但想用ipython进行编程。
进入.bashrc文件在其最后增加以下代码:(进入.bashrc文件的代码:sudo gedit ~/.bashrc 把下面的代码增加完然后再输入:source ~/.bashrc
export PATH=”/home/pysml/anaconda2/bin:$PATH”
export PYSPARK_DRIVER_PYTHON=ipython
(9)在Terminal里输入:pyspark,出现下图#####spark里配置ipython成功。
Spark ML 分布式机器学习(一):iPython+spark安装与环境变量配置_第5张图片

注:如有幸被其他同学看到还请指点不足之处,如有不幸带来困扰还请评论于我或私信于我。最后,本文纯属个人编写,转载请注明出处
参考链接:
1、http://jingyan.baidu.com/article/20b68a8893ae50796cec62b4.html
2、http://blog.csdn.net/duxu24/article/details/53587451
3、http://blog.csdn.net/dst1213/article/details/52107915

你可能感兴趣的:(Spark-ML)