spark on yarn集群搭建

前言

描述:
在三个节点搭建分布式集群,主机名分别为:CAD01-ubuntu、CAD02-ubuntu、CAD03-ubuntu(其中CAD01-ubuntu为主节点、其他两个为从节点)
实验环境:
服务器节点数量:3
系统版本:Linux
Java版本:jdk-8u261-linux-x64
Hadoop版本:hadoop-2.7.6
Spark版本:spark-2.3.0-bin-hadoop2.7

一、Hadoop搭建-准备工作

1、编辑主机名文件(此步骤不是必须,需要root权限,三台机器)
vim /etc/hostname(打开该文件后,输入新改主机名、退出)
hostname 主机名(临时主机名)
bash(使上一步操作生效)
hostname(查看是否修改成功)
2、配置自动时钟同步(需要root权限,三台机器)
crontab -e
0 1 * * * /usr/sbin/ntpdate cn.pool.ntp.org(编辑模式)
3、关闭防火墙(需要root权限,三台机器)
systemctl status firewalld.service(查看防火墙的状态)
在这里插入图片描述
如上图所示,防火墙处于关闭状态(dead),若没有关闭,则:
systemctl stop firewalld.service(临时关闭防火墙)
systemctl disable firewalld.service(禁止开机启动防火墙)
4、配置hosts列表(使用root权限,三台机器)
vim /etc/hosts
在这里插入图片描述
如上图所示,对应(IP号 主机名),若不知道IP号,可以用ifconfig命令查看。
ping CAD01-ubuntu -c 3(配置完后,看一下是否能ping通服务器)
ping CAD02-ubuntu -c 3
ping CAD03-ubuntu -c 3
5、免密登陆(普通用户)

主节点
spark on yarn集群搭建_第1张图片
从节点
在这里插入图片描述
验证免密登陆(不需要输入密码,则成功)
在这里插入图片描述
退出登录
在这里插入图片描述
6、安装java(三台机器)
spark on yarn集群搭建_第2张图片

二、Hadoop搭建-安装部署Hadoop集群

1、主节点(普通用户下)
tar -xzvf /home/gxx/tgz/hadoop-2.7.6.tar.gz –C /home/gxx(Hadoop压缩包解压到/home/gxx目录下)
2.1.1 配置/home/gxx/hadoop-2.7.6/etc/hadoop/hadoop-env.sh和/home/gxx/hadoop-2.7.6/etc/hadoop/yarn-env.sh
export JAVA_HOME=/home/gxx/usr/java/jdk1.8.0_131/(两个配置文件都配置java环境变量)
2.1.2 配置core-site.xml 文件( ~/hadoop-2.7.6/etc/hadoop/core-site.xml)
spark on yarn集群搭建_第3张图片
2.1.3 配置hdfs-site.xml文件(~/hadoop-2.7.3/etc/hadoop/hdfs-site.xml)
spark on yarn集群搭建_第4张图片
2.1.4 配置yarn-site.xml文件(~/hadoop-2.7.3/etc/hadoop/yarn-site.xml):注意:若主机名不是CAD01-ubuntu请自行修改
spark on yarn集群搭建_第5张图片
2.1.5 配置mapred-site.xml文件
cp ~/hadoop-2.7.6/etc/hadoop/mapred-site.xml.template ~/hadoop-2.7.6/etc/hadoop/mapred-site.xml(复制mapred-site-template.xml文件)
修改mapred-site.xml文件
spark on yarn集群搭建_第6张图片
2.1.6 配置slaves文件(~/hadoop-2.7.3/etc/hadoop/slaves)
CAD02-ubuntu
CAD03-ubuntu
2.1.7 创建Hadoop数据目录
mkdir /home/gxx/hadoopdata
2、从节点
将配置好的hadoop文件夹复制到从节点
scp -r hadoop-2.7.6 gxx@CAD02-ubuntu:~/
scp -r hadoop-2.7.6 gxx@CAD03-ubuntu:~/
3、配置Hadoop环境变量(三台节点,普通用户)
vim ~/.bashrc(编辑本地环境变量,如下两行)
#HADOOP
在这里插入图片描述
(保存退出:wq)
source ~/.bashrc(使环境变量生效)
4、格式化Hadoop文件目录(在master上执行)
hdfs namenode -format
5、启动Hadoop集群(在master上执行)
运行start-all.sh命令
说明:格式化后首次执行此命令,提示输入yes/no时,输入yes。
6、验证是否开启成功
6.1 主节点和从节点输入jps分别为:
spark on yarn集群搭建_第7张图片
spark on yarn集群搭建_第8张图片
6.2 Web UI查看集群是否成功启动
在主节点上打开Firefox浏览器,在浏览器地址栏中输入http://CAD01-ubuntu:50070/,检查namenode 和 datanode 是否正常,如下图所示。
spark on yarn集群搭建_第9张图片
spark on yarn集群搭建_第10张图片
6.3 运行PI实例检查集群是否成功
hadoop jar ~/hadoop-2.7.6/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar pi 10 10
(出结果,不报错,证明已经成功)

二、spark on yarn

1.在主节点上解压spark压缩包(普通用户)

tar -xzvf /home/gxx/tgz/spark-2.3.0-bin-hadoop2.7.tgz -C /home/gxx

2、配置本地环境变量(普通用户)

vim /home/gxx/.bashrc
在这里插入图片描述
source /home/gxx/.bashrc(使本地环境变量生效)
3、开启Hadoop集群
证明开启成功方式如第一部分5所示
4、验证Spark on Yarn安装部署是否生效
4.1 运行PI案例
/home/gxx/spark-2.3.0-bin-hadoop2.7/bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --num-executors 3 --driver-memory 1g --executor-memory 1g --executor-cores 1 examples/jars/spark-examples_2.11-2.3.0.jar 10
如果出现运行结果:PI值
4.2 访问web ui
浏览器中访问http://CAD01-ubuntu:8088
spark on yarn集群搭建_第11张图片
至此spark on yarn模式安装及验证完成

你可能感兴趣的:(大数据,hadoop,spark,大数据)