本次记录的是Spark on Yarn的安装与配置,在安装Spark之前需要安装Hadoop2.0以及以上版本。本例是在Hadoop2.2.0平台搭建。
关于Hadoop集群的安装部署,请参考:http://blog.csdn.net/u013468917/article/details/50965530
本次在上述双节点Hadoop集群的基础上安装Spark。两个节点分别为:
master 192.168.1.131
slave1 192.168.1.125
一、安装Scala
Spark是由Scala语言编写的,所以要想在机器上运行Spark就必须先安装Scala。下载地址: http://www.scala-lang.org/download/
用户需要根据所要安装的Spark版本选择对应的Scala版本。这点在Spark官网上会有说明。这次安装的是Spark1.0.2版本,下载的Scala版本为2.10.4
下载完成后将Scala-2.10.4.tgz上传至linux主机中
解压:
tar -zxvf Scala-2.10.4.tgz -C /cloud/
配置环境变量:
在/etc/profile文件中添加:
export SCALA_HOME=/cloud/scala-2.10.4
export PATH=${SCALA_HOME}/bin:$PATH
保存退出,记得 source /etc/profile
二、安装Spark
进入官网下载Spark程序包,下载地址: http://spark.apache.org/downloads.html
本次示例以Spark1.0.2版本为例:
下载spark-1.0.2-bin-hadoop2.tgz
解压:
tar-zxvf spark-1.0.2-bin-hadoop2.tgz -C /cloud
接下来修改Spark的配置文件,这里对Spark进行简单配置,其他更详细的配置可以参考: http://spark.apache.org/docs/1.0.2/configuration.html
1、修改conf/spark-env.sh,在文件中添加以下参数:
export SCALA_HOME=/cloud/scala-2.10.4
export JAVA_HOME=/cloud/jdk1.7.0_80
export SPARK_WORKER_MEMORY=6g
export SPARK_MASTER_IP=192.168.1.131
export MASTER=spark://192.168.1.131:7077
说明:
参数SPARK_WORKER_MEMORY用于指定在worker可用最大内存。这里分配了6GB,读者可以根据自己机器的配置自行分配,但是要为操作系统和其它服务预留足内存。
参数SPARK_MASTER_IP和MASTER根据自己主机的ip修改即可。
2、修改conf/slaves文件:
本次示例集群有两个节点,一个master节点和一个slave1节点。所以在slaves文件中只需要添加:
slave1
说明:
slave1为节点名,也可以填worker节点的ip地址。
接下来同步至slave节点:
首先,同步scala。
scp -r /cloud/scala-2.10.4username@master:/cloud
然后是spark:
scp -r /cloud/spark-1.0.2-bin-hadoop2/ username@master:/cloud/
最后修改slave1上的 /etc/profile 文件和master节点一致。记得source /etc/profile。
如果有多个从节点,这样同步会很麻烦,可以参考: http://blog.csdn.net/u013468917/article/details/50977666用pssh批量操作。
三、启动Spark
由于本次示例安装的Spark集群是基于yarn平台的,所以在启动spark之前确保hadoop已经启动。
spark启动命令在Spark根目录下的sbin目录下。
cd /cloud/spark-1.0.2-bin-hadoop2/sbin
./start-all.sh
正常情况下,master节点会出现master进程,可以用jps查看:
#jps
23526 Jps
2112 Master
7235 NameNode
7598 SecondaryNameNode
7569 ResourceManager
worker节点会有worker进程:
#jps
23489 Jps
1258 Worker
1364 DataNode
24587 NodeManager
四、关闭Spark
在Master节点:
cd /cloud/spark-1.0.2-bin-hadoop2/sbin
./stop-all.sh
然后再关闭hadoop即可。
问题记录:
初次安装hadoop时参考网上文章,没有提到要配置HADOOP_CONF_DIR或者YARN_CONF_DIR变量。如果没有配置这两个变量,hadoop可以正常运行,hadoop上的hive也可以运行。但是spark会报错。所以需要确认添加了HADOOP_CONF_DIR或者YARN_CONF_DIR环境变量。配置示例:$HADOOP_HOME/etc/hadoop