基于Hadoop-2.9.1的spark-2.3.0的集群搭建

Step1  搭建Hadoop集群

见 Hadoop-2.9.1/Ubuntu 16.04集群搭建 https://blog.csdn.net/weixin_41776345/article/details/81669780

Step2  安装Spark

Spark的安装和Hadoop的安装一样,在主节点上先安装配置完成以后,分发到其余的从节点即可

Spark下载地址:http://spark.apache.org/downloads.html

基于Hadoop-2.9.1的spark-2.3.0的集群搭建_第1张图片

然后解压下载的tgz文件,并且重命名文件,删除压缩文件包,然后修改文件权限

tar -zxf spark-2.3.0-bin-hadoop2.7.tgz
mv spark-2.3.0-bin-hadoop2.7/ spark-2.3.0
rm spark-2.3.0-bin-hadoop2.7.tgz
sudo chown -R project ./spark-2.3.0/

在master节点上 /spark-2.3.0/conf 里进行配置

1)配置slaves文件,因为文件给出是slaves.template,使用需要我们使用 cp slaves.template slaves然后对slaves进行配置,替换localhost,添加worker的主机名

ccrfox143
ccrfox146
ccrfox150       

2)配置spark-env.sh文件,同理需要 cp spark-env.sh.template spark-env.sh,然后对spark-env.sh进行配置

export SPARK_DIST_CLASSPATH=$(/home/project/hadoop-2.9.1/bin/hadoop classpath)  #hadoop所在的位置
export HADOOP_CONF_DIR=/home/project/hadoop-2.9.1/etc/hadoop  
export SPARK_MASTER_IP=172.16.0.140  #master节点的IP地址

3)配置 spark-2.3.0/sbin 下的 spark-config.sh 文件,在文件末尾添加

export JAVA_HOME=/home/project/jdk1.8.0_181

然后打包配置好的spark文件,将文件分发到各个节点上

tar -zcf ~/spark.tar.gz ./spark-2.3.0/
scp spark.tar.gz ccrfox143:/home/project/

然后在从节点上解压spark,并且修改权限

tar -zxf spark.tar.gz
rm spark.tar.gz 
sudo chown -R project /home/project/spark-2.3.0/

在所有节点上配置环境变量 vim ~/.bashrc,然后 source ~/.bashrc 使环境变量生效

#Spark
export SPARK_HOME=/home/project/spark-2.3.0
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

Step3  启动和调试Spark

首先启动Hadoop集群

cd /home/project/hadoop-2.9.1/sbin
bash start-all.sh

然后先启动Spark的master节点

cd /home/project/spark/sbin
bash start-master.sh

基于Hadoop-2.9.1的spark-2.3.0的集群搭建_第2张图片

然后在master节点启动slave,bash start-slaves.sh

在master中我们看到Master进程,Slave中看到Worker进程,我们的spark集群搭建成功~

你可能感兴趣的:(基于Hadoop-2.9.1的spark-2.3.0的集群搭建)