Ubuntu的Spark 搭建实验(这次是完整的哈,没有错误)

学习目标:

学会Spark环境的搭建

学习内容:

学习Spark搭建环境的过程

一. 软件的下载,解压与安装

二. 环境的配置


学习环境:

环境组合是Spark2.3.3+Java8+Scala2.11(这里都不是最新版本的,需要的话自行去官网搜索就好,直接官网下载就可以)

一、 软件的下载,解压和移动

1.1 软件的下载,这里采用的wget命令代替

wget http://i9000.net:8888/sgn/HUP/spark/spark-2.3.3-bin-hadoop2.7.tgz #spark的下载
wget http://i9000.net:8888/sgn/HUP/spark/scala-2.11.12.tgz #scala的下载
wget http://i9000.net:8888/sgn/HUP/spark/jdk-8u201-linux-x64.tar.gz #jdk的下载

Ubuntu的Spark 搭建实验(这次是完整的哈,没有错误)_第1张图片

1.2 解压文件

tar -zxvf jdk-8u201-linux-x64.tar.gz 
tar -zxvf spark-2.3.3-bin-hadoop2.7.tgz 
tar -zxvf scala-2.11.12.tgz 

Ubuntu的Spark 搭建实验(这次是完整的哈,没有错误)_第2张图片

1.3 使用cp命令移动到 /opt里面,sudo是root用户命令。

sudo cp -R jdk1.8.0_201 /opt
sudo cp -R spark-2.3.3-bin-hadoop2.7 /opt
sudo cp -R scala-2.11.12 /opt

Ubuntu的Spark 搭建实验(这次是完整的哈,没有错误)_第3张图片

 1.4 修改文件夹的权限为777,可以读写改。

sudo chmod -R 777 /opt

二 、Spark相关配置

Spark在使用之前,需要进行一定的配置。主要包括安装SSH,实现免密码登录,修改环境变量,修改Spark文件夹的访问权限,节点参数配置等。 

2.1安装SSH

sudo apt-get update
sudo apt-get install openssh-server 

Ubuntu的Spark 搭建实验(这次是完整的哈,没有错误)_第4张图片

 这里面需要点yesUbuntu的Spark 搭建实验(这次是完整的哈,没有错误)_第5张图片

 2.2 SSH免密登录

2.2.1安装完ssh后,打开shell,输入命令生成密钥。

ssh-keygen -t rsa

连点三个enter

Ubuntu的Spark 搭建实验(这次是完整的哈,没有错误)_第6张图片

 2.2.2把公钥的内容添加到authorized_keys文件中:

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys 

 2.2.3更改权限:

chmod 700 ~/.ssh 
chmod 600 ~/.ssh/authorized_keys 

 2.2.4设置好输出命令:

sudo service ssh start
ssh localhost 

Ubuntu的Spark 搭建实验(这次是完整的哈,没有错误)_第7张图片

 ssh免密这就证明成功啦!

2.3 JAVA环境配置,Scala环境配置,Spark环境配置。

修改环境,进入/Home,里面打开隐藏文件 。

Ubuntu的Spark 搭建实验(这次是完整的哈,没有错误)_第8张图片

 我这里使用windows系统,所以我直接修改,改一下权限命令。

sudo chmod 777 -R /home

Ubuntu的Spark 搭建实验(这次是完整的哈,没有错误)_第9张图片

 直接双击点进去就可以修改了,就不需要vi了。

直接打开.bashrc文件,在最后面加入环境配置

export JAVA_HOME=/opt/jdk1.8.0_17  
export CLASS_PATH=/opt/jdk1.8.0_17/lib
export PATH=$PATH:$JAVA_HOME/bin
export SCALA_HOME=/opt/Scala-2.11.12 
export PATH=$PATH:$SCALA_HOME/bin 
export SPARK_HOME=/opt/spark-2.3.3-bin-hadoop2.7 
export PATH=$PATH:$SPARK_HOME/bin
export PATH=$PATH:$JAVA_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin

 点一下save保存就好了

Ubuntu的Spark 搭建实验(这次是完整的哈,没有错误)_第10张图片

 由于配置在/home/.bashrc文件了所以每次重启不需要source了。

2.4 修改Spark配置文件 

2.4.1 复制模板文件 在Spark的conf目录中已经存放了Spark环境配置和节点配置以及日志配置等文件 的模板(以template结尾的文件),并且模板文件中有相关配置项的文字描述提示。 将文件夹中spark-env.sh.template、log4j.properties.template、slaves.template三个文件 拷贝为spark-env.sh、log4j.properties、slaves到同一目录下(conf文件夹),注意 把.template去掉,然后Spark启动时就会对文件中的配置项进行读取,否则找不到配置。

cd /opt/spark-2.3.3-bin-hadoop2.7/conf  
cp spark-env.sh.template spark-env.sh 
cp log4j.properties.template log4j.properties  
cp slaves.template slaves

Ubuntu的Spark 搭建实验(这次是完整的哈,没有错误)_第11张图片

 2.4.2 修改spark-env设置主节点和从节点的配置

export JAVA_HOME=/opt/jdk1.8.0_201 
export SCALA_HOME=/opt/Scala-2.11.12 
export SPARK_MASTER_IP=SparkMaster  
export SPARK_WORKER_MEMORY=4g  
export SPARK_WORKER_CORES=2 
export SPARK_WORKER_INSTANCES=1

Ubuntu的Spark 搭建实验(这次是完整的哈,没有错误)_第12张图片

 2.4.3修改slaves设置从节点地址 添加节点主机名称。

Ubuntu的Spark 搭建实验(这次是完整的哈,没有错误)_第13张图片

 三 、 Spark集群启动与关闭 

3.1 进入到Spark目录中:

cd  /opt/spark-2.3.3-bin-hadoop2.7/sbin 

Ubuntu的Spark 搭建实验(这次是完整的哈,没有错误)_第14张图片

3.1.2 设置文件夹可读可写可执行权限

要更改root用户,不然没办法进行命令

sudo su root
sudo chmod –R 777 /opt/spark-2.3.3-bin-hadoop2.7

Ubuntu的Spark 搭建实验(这次是完整的哈,没有错误)_第15张图片

 3.2 用localhost:8080命令查看是否成功

打开浏览器,输入localhost:8080

Ubuntu的Spark 搭建实验(这次是完整的哈,没有错误)_第16张图片

3.3  关闭数据集

./stop-all.sh

./stop-all.sh 

你可能感兴趣的:(VMware虚拟机,spark,ubuntu,大数据,scala,python)