Spark集群搭建介绍

Spark集群搭建

目录

  • 环境介绍

  • 下载与安装

  • 具体步骤

  • 启动集群

  • 总结

1.环境介绍

1.1工具介绍

虚拟机:VMware 10.0

Linux版本:CentOS 7

SSH工具:SecreCRT

 

1.2分布式集群搭建

节点名 IP地址
node01 192.168.211.136
node02 192.168.211.137
node03 192.168.211.138

1.3 Hadoop集群配置

           需要配置HDFS Zookeeper等

1.4 其他配置

           需要安装JDK 1.7版本以上(本测试的版本)
 

2.下载与安装

2.1下载地址 

spark2.2.0版本(具体版本需要对应自己的hadoop版本)

2.2上传至虚拟机中(快捷键为 rz+enter后选择对应文件上传

显示结果为

Spark集群搭建介绍_第1张图片

下图为上传的文件:spark-2.2.0-bin-hadoop.2.7.tgz

Spark集群搭建介绍_第2张图片

2.3解压并移动

解压

tar spark-2.2.0-bin-hadoop2.7.tgz

改名

mv spark-2.2.0-bin-hadoop2.7 spark

移动

mv spark /export/servers/

Spark集群搭建介绍_第3张图片

3.具体步骤

3.1配置Spark-env.sh文件

跳转到spark-conf 目录下

Spark集群搭建介绍_第4张图片

复制spark-env.sh.template 为spark-env.sh

 cp spark-env.sh.template  spark-env.sh

Spark集群搭建介绍_第5张图片

对spark-env.sh 进行配置

vim spark-env.sh

#指定 JAVA HOME地址
export JAVA_HOME=/export/servers/jdk1.8.0_141
#指定 Spark Master地址
export SPARK_MASTER_HOST=node01
export SPARK_MASTER_PORT=7077

Spark集群搭建介绍_第6张图片

以下为配置信息

配置HistoryServer信息(Spark程序默认是无法对WEB UI进行记录保存,需要通过HistoryServer进行日志读取,使得程序在结束运行后仍然可以查看其运行的过程)

export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=4000 -Dspark.history.retainedApplications=3 -Dspark.history.fs.logDirectory=hdfs://node01:8020/spark_log"

3.2对其slave节点进行配置

 cp slaves.template slaves

编辑slaves配置文件(如果希望node01节点也进行工作,即充当work节点,)

Spark集群搭建介绍_第7张图片

3.3对spark-defaults.conf进行配置

编辑 spark-defaults.conf

先复制spark-defaults.conf.template 为spark-defaults.conf

cp spark-defaults.conf.template spark-defaults.conf

进行如下配置

 

是否启用日志

日志保存的日志在哪里

日志是否压缩

spark.eventLog.enabled           true
spark.eventLog.dir                    hdfs://namenode:8020/spark_log
spark.eventLog.compress        true

 

Spark集群搭建介绍_第8张图片

3.4分发spark目录到其他对应节点(node02,node03)

发送大node02节点

发送到node03节点

3.5创建目录

需要打开HDFS,Zookeeper(这两个是必须的,否则后面的HDFS文件启动不了)

hdfs dfs -mkdir -p /spark_log

4.启动集群

在spark目录下

sbin/start-all.sh

启动查看

启动HistoryServer,看到如下的界面说明配置是可以的

5.0总结

5.1环境统一

a.jdk版本问题:本人使用的是jdk1.8,看一些博客都说需要1.7以上

b.spark版本问题:在进入下载界面的时候需要看自己hadoop版本是否和你要下载的spark版本是不是统一的,为的是以后不在环境配置中跌更头。

5.2 常用问题

a.没有开HDFS和Zookeeper就在hdfs中创建文件导致 拒绝连接

b.若是复制的虚拟机没有及时到/etc/host文件中对域名进行更改(本人此次为复制的三台虚拟机,在未更改域名中进行配置导致了一些错误)

5.3 下载

这个本来不是一个问题,但是我在下载spark时,用IE,火狐都比较慢,用谷歌就快很多了

 

 

 

 

 

 

 

 

 

 

 

你可能感兴趣的:(spark,hadoop)