分布式集群环境之Spark的安装与配置(Centos7)

教程目录

  • 0x00 教程内容
  • 0x01 Spark的获取
          • 1. 官网下载
          • 2. 关注公众号:邵奈一
  • 0x02 上传Spark安装包到集群
          • 1. 上传安装包到虚拟机
  • 0x03 安装与配置Spark
          • 1. 解压Spark包并配置
          • 2. 同步到slave1、slave2
          • 3. 配置环境变量
          • 4. 启动Spark
  • 0x04 Spark初体验
          • 1. 启动spark-shell
  • 0xFF 总结

0x00 教程内容

  1. Spark的获取
  2. 上传Scala安装包到集群
  3. 安装与配置Scala

说明:安装Spark之前,请先安装Scala,参考文章:
1、分布式集群环境之Scala的安装与配置(Centos7)

0x01 Spark的获取

1. 官网下载

a. 为了统一,此处下载spark-2.2.0-bin-hadoop2.7.tgz版本:
https://archive.apache.org/dist/spark/
拉到下面,选择spark-2.2.0-bin-hadoop2.7.tgz进行下载(如果小版本好不一样也没关系)

2. 关注公众号:邵奈一

a. 回复spark获取

0x02 上传Spark安装包到集群

1. 上传安装包到虚拟机

a. 可以用XFtp软件上传到master(/home/hadoop-sny/software/),没有software目录就新建
分布式集群环境之Spark的安装与配置(Centos7)_第1张图片

0x03 安装与配置Spark

1. 解压Spark包并配置

a. 解压到指定目录~/bigdata/-C ~/bigdata/,不加-C则解压到压缩包的路径)
tar -zxvf spark-2.2.0-bin-hadoop2.7.tgz -C ~/bigdata/
b. 配置spark-env.sh
cd ~/bigdata/spark-2.2.0-bin-hadoop2.7/conf
cp spark-env.sh.template spark-env.sh
添加JAVA_HOME路径:
vi spark-env.sh
export JAVA_HOME=/usr/local/lib/jdk1.8.0_161
在这里插入图片描述
c. 配置slaves文件
cp slaves.template slaves
添加上从节点主机名:
vi slaves

slave1
slave2

分布式集群环境之Spark的安装与配置(Centos7)_第2张图片

2. 同步到slave1、slave2

a. 同步(因为我们的免密码登录是配了hadoop-sny用户的,所以root用户,还是要输入密码的)
scp -r ~/bigdata/spark-2.2.0-bin-hadoop2.7 hadoop-sny@slave1:~/bigdata
scp -r ~/bigdata/spark-2.2.0-bin-hadoop2.7 hadoop-sny@slave2:~/bigdata

3. 配置环境变量

a. 用master上的环境变量
vi ~/.bash_profile
c. 添加内容(此处我们可以指配到Home路径,因为sbin路径下有一些脚本是跟Hadoop的一样的,会冲突不起作用):

export SPARK_HOME=/home/hadoop-sny/bigdata/spark-2.2.0-bin-hadoop2.7
PATH=$PATH:$SPARK_HOME/bin

d. 使环境变量在当前会话生效(一定要记得执行)
source ~/.bash_profile

4. 启动Spark

a. 校验是否安装成功
$SPARK_HOME/sbin/start-all.sh

查看三个节点脚本请参考教程:大数据常用管理集群脚本集合
分布式集群环境之Spark的安装与配置(Centos7)_第3张图片
b. 查看Web UI界面
打开master:8080端口
分布式集群环境之Spark的安装与配置(Centos7)_第4张图片

0x04 Spark初体验

1. 启动spark-shell

a. 启动并测试一下
spark-shell --master spark://master:7077
1+1
分布式集群环境之Spark的安装与配置(Centos7)_第5张图片

0xFF 总结

  1. 请尝试将此教程的WordCount例子打包,并打包到服务器执行:
    IntelliJ IDEA开发Spark案例之WordCount
  2. 请参考1.的教程,用spark-shell方式完成一个WordCount程序
  3. 注意:
    a. 目前我只是启动了Spark,Hadoop并没有启动,如果有需要,请记得启动Hadoop等。
    b. 如果是用集群模式启动Spark:spark-shell --master spark://master:7077,不能使用file:///来输入文件,要用HDFS,不然会报错。所以,如果想用file:///,则要把spark://master:7077去掉,默认使用本地。

作者简介:邵奈一
大学大数据讲师、大学市场洞察者、专栏编辑
公众号、微博、CSDN:邵奈一

邵奈一的技术博客导航

你可能感兴趣的:(复制粘贴玩大数据系列教程,大数据,安装与配置)