Spark安装环境准备

Spark安装环境准备

  • 操作系统准备
  • Java环境准备
  • Python环境准备
  • Spark安装包下载
  • Hadoop安装包下载

操作系统准备

Spark是运行在JVM上的,JVM是跨平台的,所以Spark可以跨平台运行在各种类型的操作系统上。但是在实际使用中,通常都将Spark安装部署在Linux服务器上,所以需要准备好用来安装Spark的Linux服务器,这里以Ubuntu20.04作为目标操作系统。

  • 在本地模式下,需要1台服务器
  • 在Standalone模式下,至少需要3台服务器
  • 在Yarn模式下,至少需要3台服务器
  • 在云环境模式下,不需要自己准备服务器,在创建集群的时候可以选择集群规模需要多少节点

在自己安装部署的环境中,无论是1台服务器还是多台服务器,都做统一的规划:操作系统用户统一使用hadoop、软件安装目录统一使用${HOME}/apps,所以需要在系统中创建hadoop用户并在hadoop用户的home目录下创建apps目录。
Spark安装环境准备_第1张图片

Java环境准备

由于Spark是由Scala语言编写,需要在JVM环境下运行,所以需要在安装Spark的服务器上安装并配置Java。根据集群的规划,需要给集群中的每一个节点都安装Java环境,并且需要安装Java8+以上的版本。在Ubuntu操作系统中,可以执行以下命令进行Java8的安装。

sudo apt-get update
sudo apt install -y openjdk-8-jdk

安装完成后可以执行java -version命令来检查安装结果及相关版本。
Spark安装环境准备_第2张图片

Python环境准备

Spark提供了对Python的支持,提供了PySpark包,这里以Python作为主要开发语言,所以在服务器环境中需要安装Python3。Linux服务器通常自带Python环境,自带的Python环境有可能是Python2,也有可能是Python3,如果自带的环境是Python2,那么需要重新安装Python3的环境,推荐使用Anaconda3进行安装。Anaconda的安装可参考官方文档https://docs.anaconda.com/anaconda/install/linux/。
安装完成以后,确保服务器上执行python3命令不会报错。
Spark安装环境准备_第3张图片

Spark安装包下载

在安装Spark之前,需要从其官方网站下载Spark的安装包。
Spark安装环境准备_第4张图片
可以直接点击下载链接将安装包下载到本地,然后将安装包上传到需要安装Spark的Linux服务器上进行安装。也可以复制下载链接,然后在需要安装Spark的Linux服务器上通过wget等命令进行安装包的下载。

wget https://dlcdn.apache.org/spark/spark-3.3.1/spark-3.3.1-bin-hadoop3.tgz

Spark安装环境准备_第5张图片

Hadoop安装包下载

数据文件通常存放于HDFS分布式文件系统,Spark On Yarn模式的部署依赖Yarn,这些都需要用到Hadoop集群,所以需要下载Hadoop安装包。通过Hadoop的官网下载Hadoop 3.3.x版本。
Spark安装环境准备_第6张图片
可以直接点击下载链接将安装包下载到本地,然后将安装包上传Linux服务器上进行安装。也可以复制下载链接,然后在Linux服务器上通过wget等命令进行安装包的下载。

wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz

Spark安装环境准备_第7张图片
至此,基础环境准备完成。

你可能感兴趣的:(#,Spark环境安装,spark,大数据,分布式)