Spark完全分布式集群搭建

前面已经给大家讲解过伪分布式spark的安装,和hadoop集群、以及zookeeper集群的搭建,今天就给大家说下Spark完全分布式集群搭建。
前提是已经搭建好了hadoop集群和zookeeper集群。
和前面创建时候一样,我们还是用3台机来搭建,一台主机,两台从机,就和hadoop集群搭建时候的步骤一样;
分别为每台虚拟机设置主机名:
hostname spark1
hostname spark2
hostname spark3
前面已经搭建过一个伪分布式的spark就不多说了,没安装好的可以去重新看看:
Spark简介以及最详细安装教程

因为是伪分布式的,所以没有配从机,今天配的是集群,就是要改slaves文件,把另外两台的主机名添加上去,并把localhost 改成自己改过后的主机名
cd soft/spark240/conf/

vi slaves

spark1
spark2
spark3

把主节点上配置好的spark拷贝到2个worker节点上

scp -r /opt/soft/spark240 root@SPARK2:$PWD
scp -r /opt/soft/SPARK240 root@SPARK3:$PWD

等拷贝成功后去另外两台从机上查看是否有spark240这个文件夹

cd /opt/soft/
ls

如果另外两台机都出现spark240这个文件夹说名拷贝成功,这时另外两台机都要配置spark环境变量

source /etc/profile

#添加以下环境变量
export SPARK_HOME=/opt/soft/spark240
export PATH=$PATH:$SPARK_HOME/bin

激活配置

source /etc/profile

免密登录我在前面搭建hadoop集群的时候已经说过,在这里就不重复了,没搭建好的可以到我之前的文章中去查看!

启动spark
分别进入3台机的spark的sbin目录下去启动

cd /opt/soft/spark240/sbin/
./start-all.sh

注意:

因为文件是拷贝过去的,所以另外两台机运行的时候可能会出现一个错误


没有访问权限,所以必须更改文件夹的访问权限才能执行启动命令

chmod -R 777 /opt/soft/spark240

更改过文件夹权限后就可以正常执行命令了

使用jps命令查看spark进程
jps
主机spark1的进程如图所示:

从机spark2的进程如图所示:

从机spark3的进程如图所示:

浏览器输入http://192.168.5.150:8888
就可以看到所有信息,如下图所示
Spark完全分布式集群搭建_第1张图片
这时说明集群已经搭建成功!

你可能感兴趣的:(spark)