Spark分布式搭建

前期准备

  • jdk-8u141-linux-x64.tar.gz 安装包
  • scala-2.12.7.tgz 安装包
  • hadoop-2.7.3.tar.gz 安装包
  • spark-2.3.2-bin-hadoop2.7.tgz 安装包
  • 九台docker容器,分别在三个不同的服务器上(前期已经实现了docker跨物理机级别的互联)

写在安装之前的话

docker中实现分布式搭建spark其实和物理机上实现并没有多大的区别,为需要注意的是,docker并不能通过localhost 或者自己的名称认识自己或者其他docker,所以我们需要在/etc/hosts写入对应的代码,来“告诉”们的docker

诸如:

127.0.0.1   localhost
172.17.192.108  eed231d62b25
172.17.192.123  a8d318e56f9d
172.17.192.124  e4738f95aadb
172.17.192.49   b3e605bd4f6d
172.17.192.50   cc630e61ad61
172.17.192.51   d33af724c0cd
172.17.192.52   571c7e62989a
172.17.192.53   2fd70cbea830
172.17.192.64   383a6be8d583 
::1 localhost ip6-localhost ip6-loopback
fe00::0 ip6-localnet
ff00::0 ip6-mcastprefix
ff02::1 ip6-allnodes
ff02::2 ip6-allrouters

安装过程

(1)配置java环境

hadoop是基于Java和scala运行的,而scala也需要Java作为支撑,所以我们需要先行安装jdk

首先,安装依赖包:

$ sudo apt-get install python-software-properties

添加仓库源:

$ sudo add-apt-repository ppa:webupd8team/java

更新软件包列表:

$ sudo apt-get update

安装java JDK:

$ sudo apt-get install oracle-java8-installer

然后通过 $ echo $JAVA_HOME便可查询Java jdk的具体安装目录。

(2)Scala 安装

接下来是配置Scala

Scala也是主要用于保持Hadoop的操作的。
这里选择使用压缩包解压和配置环境变量的办法,安装scala。

下载安装包:

wget https://downloads.lightbend.com/scala/2.12.7/scala-2.12.7.tgz

解压:

tar -zxvf scala-2.12.7.tgz

将它移动到/usr目录下(个人习惯):

mv scala-2.12.7 /usr

配置环境变量:

vi /etc/profile
export SCALA_HOME=/usr/scala-2.12.7
export PATH=$SCALA_HOME/bin:$PATH

保存后刷新配置:

source /etc/profile

检验是否成功:

scala -version

(上述两项需要在所有docker容器中进行操作)

(3)配置免密登陆

可直接参见:
集群环境ssh免密码登录设置

(4)配置hadoop和Spark

可直接参见本链接的安装hadoop和spark的内容
配置hadoop和Spark

你可能感兴趣的:(Spark分布式搭建)