记一次 基于Hadoop 3.3.0 安装部署 Spark 3.0.0 分布式集群

一、基本信息

官网
http://spark.apache.org/
Apache Spark 官方文档中文版(Spark 2.2.0)
http://spark.apachecn.org/#/
Spark 中文文档(Spark 2.2.0)
http://doc.codingdict.com/spark/1/
《Spark 官方文档》Spark快速入门(Spark 1.6.0)
http://ifeve.com/spark-quick-start/
官网实例
http://spark.apache.org/examples.html
官网新发布
http://spark.apache.org/news/spark-3-0-0-released.html
记一次 基于Hadoop 3.3.0 安装部署 Spark 3.0.0 分布式集群_第1张图片
官网下载页面
http://spark.apache.org/downloads.html
记一次 基于Hadoop 3.3.0 安装部署 Spark 3.0.0 分布式集群_第2张图片
各个版本下载列表
https://archive.apache.org/dist/spark/
本文使用版本下载目录
https://archive.apache.org/dist/spark/spark-3.0.0/
Spark基本架构及原理
https://www.cnblogs.com/Mayny/p/9330436.html

二、基础集群环境

1、Centos7.x 安装OpenJDK1.8
https://blog.csdn.net/llwy1428/article/details/111144659
2、Centos7.x 配置 Scala2.12.12
https://blog.csdn.net/llwy1428/article/details/111601924
3、Centos7.x 安装部署 Hadoop 3.x HDFS基础环境
https://blog.csdn.net/llwy1428/article/details/111144524
4、Centos7.x 安装部署 Zookeeper 3.6.2 集群
https://blog.csdn.net/llwy1428/article/details/111601567
5、Centos7.x Hadoop 3.x 部署 YARN 集群
https://blog.csdn.net/llwy1428/article/details/111464707
6、Hadoop 3.x 集群 YARN 启动 timelineserver(ApplicationHistoryServer)
https://blog.csdn.net/llwy1428/article/details/112417384

三、安装、部署

1、下载文件 spark-3.0.0-bin-hadoop3.2.tgz

[root@master ~]# wget -P /usr/bigdata/ https://archive.apache.org/dist/spark/spark-3.0.0/spark-3.0.0-bin-hadoop3.2.tgz

记一次 基于Hadoop 3.3.0 安装部署 Spark 3.0.0 分布式集群_第3张图片
2、进入文件的下载目录

[root@master ~]# cd /usr/bigdata/

3、解压缩、查看文件

[root@master bigdata]# tar zxf spark-3.0.0-bin-hadoop3.2.tgz

记一次 基于Hadoop 3.3.0 安装部署 Spark 3.0.0 分布式集群_第4张图片
4、进入 spark 的配置文件目录

[root@master ~]# cd /usr/bigdata/spark-3.0.0-bin-hadoop3.2/conf/

记一次 基于Hadoop 3.3.0 安装部署 Spark 3.0.0 分布式集群_第5张图片
5、复制、重命名配置文件 slaves.template

[root@master conf]# cp slaves.template slaves

6、编辑配置文件 slaves

[root@master conf]# vim slaves

7、编辑、写入内容 配置 子节点的主机名列表

slave1
slave2
slave3

记一次 基于Hadoop 3.3.0 安装部署 Spark 3.0.0 分布式集群_第6张图片
8、复制、重命名配置文件 spark-env.sh.template

[root@master conf]# cp spark-env.sh.template spark-env.sh

9、编辑配置文件

[root@master conf]# vim spark-env.sh

10、编辑内容

HADOOP_CONF_DIR=/usr/bigdata/hadoop-3.3.0/etc/hadoop/

记一次 基于Hadoop 3.3.0 安装部署 Spark 3.0.0 分布式集群_第7张图片
11、进入 spark 的 sbin 目录

[root@master ~]# cd /usr/bigdata/spark-3.0.0-bin-hadoop3.2/sbin/

12、编辑配置文件 spark-config.sh

[root@master sbin]# vim spark-config.sh

13、编辑内容

export JAVA_HOME="/usr/lib/jvm/java-1.8.0"

记一次 基于Hadoop 3.3.0 安装部署 Spark 3.0.0 分布式集群_第8张图片
14、把编辑、配置完毕的目录及文件发送给指定的 spark 的各个子节点

[root@master ~]# scp -r /usr/bigdata/spark-3.0.0-bin-hadoop3.2 root@slave1:/usr/bigdata/
[root@master ~]# scp -r /usr/bigdata/spark-3.0.0-bin-hadoop3.2 root@slave2:/usr/bigdata/
[root@master ~]# scp -r /usr/bigdata/spark-3.0.0-bin-hadoop3.2 root@slave3:/usr/bigdata/

15、启动 Hadoop 的 HDFS 服务

[root@master ~]# /usr/bigdata/hadoop-3.3.0/sbin/start-dfs.sh

16、启动 Zookeeper 集群

[root@slave1 ~]# /usr/bigdata/apache-zookeeper-3.6.2-bin/bin/zkServer.sh start
[root@slave2 ~]# /usr/bigdata/apache-zookeeper-3.6.2-bin/bin/zkServer.sh start
[root@slave3 ~]# /usr/bigdata/apache-zookeeper-3.6.2-bin/bin/zkServer.sh start

17、启动 YARN 的相关服务

[root@master ~]#  /usr/bigdata/hadoop-3.3.0/sbin/start-yarn.sh
[root@master ~]# /usr/bigdata/hadoop-3.3.0/sbin/yarn-daemon.sh start timelineserver

18、启动 jobhistoryserver

[root@master ~]# /usr/bigdata/hadoop-3.3.0/sbin/mr-jobhistory-daemon.sh start historyserver

19、进入 Spark 的 sbin 目录启动 spark

[root@master ~]# cd /usr/bigdata/spark-3.0.0-bin-hadoop3.2/sbin/

启动 spark

[root@master sbin]# ./start-all.sh

[root@master ~]# /usr/bigdata/spark-3.0.0-bin-hadoop3.2/sbin/start-all.sh

记一次 基于Hadoop 3.3.0 安装部署 Spark 3.0.0 分布式集群_第9张图片
20、查看各个节点服务的启动状态

[root@master ~]# jps
[root@slave1 ~]# jps
[root@slave2 ~]# jps
[root@slave3 ~]# jps

记一次 基于Hadoop 3.3.0 安装部署 Spark 3.0.0 分布式集群_第10张图片
21、各个节点服务启动及进程

[root@master ~]# netstat -lntp
[root@slave1 ~]# netstat -lntp
[root@slave2 ~]# netstat -lntp
[root@slave3 ~]# netstat -lntp

记一次 基于Hadoop 3.3.0 安装部署 Spark 3.0.0 分布式集群_第11张图片
22、停止 Spark 服务

[root@master ~]# /usr/bigdata/spark-3.0.0-bin-hadoop3.2/sbin/stop-all.sh 

在这里插入图片描述

四、浏览器查看 Spark 的 Web UI

1、在浏览器地址栏录入 http://192.168.11.21:8080/
说明:192.168.11.21 是 master 节点的 IP ,Spark Web UI 的默认端口 8080 ,如需修改端口可更改其配置文件
记一次 基于Hadoop 3.3.0 安装部署 Spark 3.0.0 分布式集群_第12张图片
2、点击各个 Worker 查看各个节点的详情 例如节点 slave1
记一次 基于Hadoop 3.3.0 安装部署 Spark 3.0.0 分布式集群_第13张图片

至此,基于Hadoop 3.3.0 安装部署 Spark 3.0.0 分布式集群操作完毕,希望能够对您有所帮助!

你可能感兴趣的:(Hadoop,Spark,Linux-Centos,x.x,spark,hadoop,大数据,经验分享,scala)