spark环境配置

下载完成后进行解压:

tar -zxvf spark-2.1.1.tgz
#简短的名字易于操作
mv spark-2.1.2-bin-hadoop2.7 ./spark

解压到目标目录即完成安装, spark 解压后主要包含如下子目录:

bin/   (工具程序目录)
          conf/  (配置文件目录)
          jars/  (scala Jar 包目录)
          python/ (python package 目录)
          sbin/  (服务程序管理脚本目录)
          data —— Spark测试文件
examples —— Spark示例程序

不做任何配置,此时已可以启动 Spark 服务:

sbin/start-all.sh
jps
#29584 Master
#29670 Worker

如果没有端口冲突,一般都能启动成功。本例中这种运行模式 spark 称之为 Standalone(独立模式,不依赖其它服务构成集群),这种模式一般包括一个 Master 实例和多个 Worker 实例,能以最简单的方式建立起一个集群,方便开发和构建小规模集群。Spark 还支持 Local 和基于通用资源管理器(mesos, YARN) 的集群两种运行模式,分别适用于开发调试与大规模集群部署两种场景。

Spark集群环境搭建

1.机器与环境准备:

  • 1.1:准备node-01 node-02 node-03三台机器完成

  • 1.2:三台机器已经正常运行hadoop集群,关闭linux防火墙

  • 1.3:准备好三台机器的java环境

#修改配置文件`spark-env.sh`, 以指定运行参数
cd /export/servers/spark/conf
cp spark-env.sh.template spark-env.sh
vi spark-env.sh

#将以下内容复制进配置文件末尾
# 指定 Java Home(根据自己机器的路径修改)
export JAVA_HOME=/export/servers/jdk1.8.0
# 指定 Spark Master 地址
export SPARK_MASTER_HOST=node01  //主节点
export SPARK_MASTER_PORT=7077  //运行端口
#修改slaves配置文件
cd /export/servers/spark/conf
mv slaves.template slaves
vi slaves
#添加如下内容,node-01
node-01
node-02
node-03

(6) 配置环境变量:
修改配置文件:
vi /etc/profile
增加以下内容:
export SPARK_HOME=spark安装路径
export PATH=$PATH:$SPARK_HOME/bin
export PATH=$PATH:$SPARK_HOME/sbin
声明环境变量:
source /etc/profile

#4.分发配置文件
#将 Spark 安装包分发给集群中其它机器
cd /export/servers
scp -r spark root@node02:$PWD
scp -r spark root@node03:$PWD
启动 Spark Master 和 Slaves,

#启动集群
#cd /export/servers/spark
sbin/start-all.sh

(7) 启动:
启动主节点:
start-master.sh
启动从节点:
start-slaves.sh
启动shell:
spark-shell
通过网页端查看:
http://bigdata01:8080/
Spark中内置有Tomcat,故端口号默认为8080

(8) 关闭:
关闭主节点:
stop-master.sh
关闭从节点:
stop-slaves.sh

你可能感兴趣的:(spark,spark,大数据)