我们在hadoop集群的基础上构建spark集群。
1.下载对应的spark版本
前面我们使用的hadoop1.2.1,所以要从spark网站下载对应的spark版本。
http://spark.apache.org/downloads.html
注意要选择pre-duild for Haddop 1.x版本,这样我们下载好的是对应hadoop版本编译好的spark版本。如果下载源码包,需要我们自己动手编译,比较复杂。
2.安装scala
这里下载的是scala2.11.6版本.spark源码用scala写成,所以要下载一个scala的编译器。
2.1建立/usr/lib/scala目录
2.2解压scala文件
2.3修改环境变量~/.bashrc,将scala的bin目录加到PATH里。
3.安装spark
3.1建立目录/usr/local/spark
3.2将下载好的spark-1.2.1-bin-hadoop1.tgz解压
3.3修改~/.bashrc将spark的bin目录加到PATH环境变量里
4.配置spark
4.1进入conf目录
4.2copy spark-env.sh.template spark-env.sh
添加如下信息:
export JAVA_HOME=/usr/lib/java/jdk1.7.0_15 #JAVA安装目录
export SCALA_HOME=/usr/lib/scala/scala-2.11.6 #scala安装目录
export SPARK_MASTER_IP=192.168.56.131 #spark集群MASTER的目录
export SPARK_WORKER_MEMORY=2g #指定worker节点分配给Executors的内存大小
export HADOOP_CONF_DIR=/usr/local/hadoop/hadoop-1.2.1/conf #hadoop集群配置文件目录
4.3配置slaves文件
Master
Slave1
Slave2
5.配置另外2台机器一致。
6.启动spark集群
6.1首先启动hadoop集群
6.2启动spark
进入spark的sbin目录,执行./start-all.sh
此时用jps命令看到master上多出了Master和Worker两个新进程,2台slave上出现新的Worker进程。说明spark集群启动成功。