一、Spark集群部署
1、软件版本
OS版本:Ubuntu 14.04
Hadoop版本:Hadoop 2.6.0
JDK版本:Jdk1.8.0_40
Scala版本:scala-2.11.7.tgz
Spark版本:spark-1.5.0-bin-hadoop2.6.tgz
注:Spark程序包版本要根据下载及安装的hadoop版本进行下载和安装,Spark下载官网地址http://spark.apache.org/downloads.html;Scala官网地址http://www.scala-lang.org/,根据Spark官方规定的Scala版本进行下载和安装。
2、集群节点
Spark部署在安装有hadoop的Ubuntu系统集群中,在Ubuntu14.04中安装Spark,需要预先安装JDK、Scala等所需依赖。Spark只是计算框架,需要预先在集群中搭建好存储数据的持久化层(HDFS/Hive等),所以也需要预先安装Hadoop。
集群:1台master、10台salve计算节点,2台client。
主机名(节点)
IP地址
内存(GB)
VCPU
(个)硬盘(GB)
节点运行进程
Master
192.168.1.60
4
4
100
ResourceManager、NameNode、SecondaryNameNode、
Master
Node1
192.168.1.61
4
4
100
NodeManager、DataNode、Worker
Node2
192.168.1.62
4
4
100
NodeManager、DataNode、Worker
Node3
192.168.1.63
4
4
100
NodeManager、DataNode、Worker
Node4
192.168.1.64
4
4
100
NodeManager、DataNode、Worker
Node5
192.168.1.65
4
4
100
NodeManager、DataNode、Worker
Node6
192.168.1.66
4
4
100
NodeManager、DataNode、Worker
Node7
192.168.1.67
4
4
100
NodeManager、DataNode、Worker
Node8
192.168.1.68
4
4
100
NodeManager、DataNode、Worker
Node9
192.168.1.69
4
4
100
NodeManager、DataNode、Worker
Node10
192.168.1.70
4
4
100
NodeManager、DataNode、Worker
Client
192.168.1.80
4
4
100
Client_b
192.168.1.81
4
4
100
3、安装JDK
在服务器上搭建一台安装Ubuntu14.04的虚拟机,安装完JDK和Scala之后,克隆虚拟机13台。
(1)下载JDK
下载jdk1.8.0_40版本,官网地址:
http://www.oracle.com/technetwork/java/javase/downloads/index.html
(2)下载后解压,解压目录/home/hadoop/jdk1.8.0_40;
# tar–xzvf jdk-8u40-linux-x64.tar
(3)配置环境变量,root权限下在/etc/profile文件下增加以下代码:
(4)使profile文件更新生效
#source/etc/profile
4、安装Scala
(1)下载scala-2.11.7.tgz
(2)解压至目录/home/hadoop/scala-2.11.7
# tar –xzvf scala-2.11.7.tgz
(3)配置环境变量,root权限下在/etc/profile文件下增加以下代码:
(4)使profile文件更新生效
# source/etc/profile
注:安装完JDK和Scala之后,克隆出另外12台虚拟机。
5、网络配置
服务器地址:192.168.0.80用户名:administrator密码:********
在服务器上搭建安装Ubuntu14.04的虚拟机,克隆12台。分别配置13台主机的网络地址。
IP地址:192.168.1.X
子网掩码:255.255.0.0网关:192.168.0.1
DNS:192.168.0.1
注:网络配置IPv4选择->Manual(手动),为每台主机配置静态IP地址(详细IP见2中表格)
6、修改主机名hostname
修改每台(13台)主机的hostname,分别为master、client、client_b、node1~node1。
命令:hostname//查看主机名
sudo vi /etc/hostname//打开hostname文件(root权限下可修改)
7、配置hosts文件
修改集群中所有节点的/etc/hosts文件,该文件是集群中所有节点的IP和主机名hostname的对应关系。
命令:sudo gedit/etc/hosts//打开该文件
添加:192.168.1.60master
192.168.1.61 node1
192.168.1.62 node2
……
192.168.1.70 node10
192.168.1.80 client
192.168.1.81 client_b
注:修改每个节点的hosts文件,且确保每个节点的hosts文件相同
8、配置SSH免密码登录
Spark的Master节点向Worker节点发命令需要通过ssh进行发送,用户不希望Master每发送一次命令就输入一次密码,因此需要实现Master无密码登录到所有Worker。这需要在Master上生成一个密钥对,包括一个公钥和一个私钥,然后将公钥复制到Worker上。
当Master通过ssh连接Worker时,Worker就会生成一个随机数并用Master的公钥对随机数进行加密,发送给Worker。Master收到加密数之后再用私钥进行解密,并将解密数回传给Worker,Worker确认解密数无误之后,允许Master进行连接。这就是一个公钥认证过程,其间不需要用户手工输入密码,主要过程是将Master节点公钥复制到Worker节点上。
(1)在Master节点上,生产密钥:
# ssh-keygen -tdsa -P '' -f ~/.ssh/id_dsa
此时,在~/.ssh/目录下生成id_dsa.pub文件,查看命令:
# ls –a~/.ssh
(2)复制Master的id_dsa.pub文件到其他slave节点、client、client_b
将master结点上的~/.ssh/id_dsa.pub的内容,添加到slave结点的~/.ssh/authorized_keys这个文件中。命令如下:
scp~/.ssh/id_dsa.pub hadoop@node1:~/.ssh/authorized_keys//添加到node1节点
scp~/.ssh/id_dsa.pub hadoop@node2:~/.ssh/authorized_keys//添加到node2节点
……
scp~/.ssh/id_dsa.pub hadoop@node10:~/.ssh/authorized_keys//添加到node10节点
scp~/.ssh/id_dsa.pub hadoop@client:~/.ssh/authorized_keys//添加到client节点
scp~/.ssh/id_dsa.pub hadoop@client_b:~/.ssh/authorized_keys//添加到client_b节点
(3)验证是否可以无密码登陆
在master结点上使用ssh连接其他slave结点,命令如下:
# ssh node1
……
# ssh node10
# ssh client
# ssh client_b
9、Hadoop安装与配置
(1)解压安装hadoop-2.6.0
将下载后的hadoop-2.6.0.tar.gz(官网地址http://hadoop.apache.org/)解压到master节点的/home/hadoop目录下,配置好master节点的hadoop后复制到其他节点即可。
解压命令如下:
# tar xzfvhadoop-2.6.0.tar.gz
复制命令如下:
scp –r /home/hadoop/hadoop-2.6.0 hadoop@node1:/home/hadoop///复制到node1
scp -r /home/hadoop/hadoop-2.6.0 hadoop@node2:/home/hadoop///复制到node2
……
scp -r /home/hadoop/hadoop-2.6.0 hadoop@node10:/home/hadoop///复制到node10
scp -r /home/hadoop/hadoop-2.6.0 hadoop@client:/home/hadoop///复制到client
scp -r /home/hadoop/hadoop-2.6.0 hadoop@client_b:/home/hadoop///复制到client_b
注:配置完之后再执行复制命令,且集群中所有的hadoop都安装在同一目录下。
(2)配置Hadoop环境变量
在/etc/profile文件中,添加以下代码:
使profile文件更新生效:# source /etc/profile
(3)编辑Hadoop配置文件
hadoop配置文件都在hadoop-2.6.0/etc目录下,配置时需要修改7个配置文件,包括hadoop-env.sh、core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml、masters和slaves文件。
①修改hadoop-env.sh
export JAVA_HOME=/home/hadoop/jdk1.8.0_40
②修改core-site.xml
注:修改属性,以name和value的关系对出现。
③修改hdfs-site.xml
注:在hadoop-2.6.0目录下,默认不存在dfs/name及dfs/data文件夹,需要新建。
命令如下:
cd/home/hadoop/hadoop-2.6.0/
mkdir dfs
cd dfs/
mkdir name
mkdir data
④修改yarn-site.xml
⑤修改mapred-site.xml
⑥配置masters文件
⑦配置slaves文件
注:slaves文件仅包括集群中作为计算节点的主机名(这里不包括client和client_b)。
配置完hadoop后,将hadoop2.6.0的所有文件通过scp命令复制到其他节点。
(4)启动和关闭hadoop
�格式化hdfs文件系统的namenode
# cd hadoop-2.6.0///进入hadoop-2.6.0目录
# bin/hdfs namenode -format//格式化
②启动hadoop集群
# sbin/start-dfs.sh//启动hdfs(一次性启动namenode和所有datanode)
# sbin/start-yarn.sh//启动yarn(一次性启动RM和所有NM)
通过jps命令查看是否启动成功。
③关闭hadoop集群
#sbin/stop-all.sh
10、安装spark
(1)下载spark-1.5.0-bin-hadoop2.6.tgz
官网地址http://spark.apache.org/downloads.html
(2)解压至目录/home/hadoop/spark-1.5.0-bin-hadoop2.6
# tar–xzvf spark-1.5.0-bin-hadoop2.6.tgz
(3)配置conf/spark-env.sh文件
参数SPARK_WORKER_MEMORY表示在每一个Worker节点上可用的最大内存(总内存4g,增加这个数值可以在内存中缓存更多数据,但是要给Slave的OS和其他服务预留出足够的内存,故这里设置为3g)
注:其他更复杂的配置参考官网的配置页面,地址为http://spark.apache.org/docs/latest/configuration.html
(4)配置slaves文件
进入spark安装目录,编辑/conf/slaves文件
注:将配置好后的spark所有文件,通过scp命令复制到其他节点相同目录下。
# scp –r /home/hadoop/spark-1.5.0-bin-hadoop2.6 hadoop@node*:/home/hadoop
11、启动集群
(1)启动hadoop
进入hadoop2.6.0安装目录,执行#sbin/start-all.sh
(2)启动spark
进入spark安装目录,执行#
sbin/start-all.sh(或者执行#sbin/start-master.sh、# sbin)
(3)检测是否安装成功
通过jps命令,查看启动的进程。master节点启动的进程有:NameNode、SecondaryNameNode、ResourceManager、Master;slaves节点启动的进程有:DataNode、NodeManager、Worker。
至此,spark集群安装完成。
二、Spark示例程序测试
部署完Spark集群之后,以Spark项目中自带的SparkPi(计算)程序为例,测试Spark集群的性能。
(1)启动hadoop、启动spark,进入Spark安装目录,执行:
# bin/run-example org.apache.spark.examples.SparkPi
(2)通过Web UI查看集群状态
浏览器访问http://masterIP:8080,观察Spark集群的整个状态是否正常,如下图所示。masterIP配置为用户的Spark集群的主节点IP,这里为http://192.168.1.60:8080。