hadoop学习(四)--------升级为spark集群

我们在hadoop集群的基础上构建spark集群。


1.下载对应的spark版本

前面我们使用的hadoop1.2.1,所以要从spark网站下载对应的spark版本。

http://spark.apache.org/downloads.html

注意要选择pre-duild for Haddop 1.x版本,这样我们下载好的是对应hadoop版本编译好的spark版本。如果下载源码包,需要我们自己动手编译,比较复杂。



2.安装scala

这里下载的是scala2.11.6版本.spark源码用scala写成,所以要下载一个scala的编译器。

2.1建立/usr/lib/scala目录

2.2解压scala文件

2.3修改环境变量~/.bashrc,将scala的bin目录加到PATH里。


3.安装spark

3.1建立目录/usr/local/spark

3.2将下载好的spark-1.2.1-bin-hadoop1.tgz解压

3.3修改~/.bashrc将spark的bin目录加到PATH环境变量里


4.配置spark

4.1进入conf目录

4.2copy spark-env.sh.template spark-env.sh

添加如下信息:

export JAVA_HOME=/usr/lib/java/jdk1.7.0_15   #JAVA安装目录
export SCALA_HOME=/usr/lib/scala/scala-2.11.6  #scala安装目录
export SPARK_MASTER_IP=192.168.56.131  #spark集群MASTER的目录
export SPARK_WORKER_MEMORY=2g   #指定worker节点分配给Executors的内存大小
export HADOOP_CONF_DIR=/usr/local/hadoop/hadoop-1.2.1/conf  #hadoop集群配置文件目录


4.3配置slaves文件

Master

Slave1

Slave2


5.配置另外2台机器一致。


6.启动spark集群

6.1首先启动hadoop集群

6.2启动spark

进入spark的sbin目录,执行./start-all.sh

此时用jps命令看到master上多出了Master和Worker两个新进程,2台slave上出现新的Worker进程。说明spark集群启动成功。



你可能感兴趣的:(hadoop,hadoop,spark,spark,大数据,分布式,HADOOP集群)