极简Spark 3.3.0 安装

Spark 官网提供了附有 Hadoop 和 Scala 的预编译包,大大简化了安装过程。

避坑:Spark里附有的Hadoop据我观察并不是Hadoop完整本体,而只是包括了HDFS、Hbase等Spark依赖的文件管理组件,如果你同时有使用完整Hadoop功能的需求,是要分开安装Hadoop和Spark的,这篇教程不适合你

下面我将用一台全新的 Linux 虚拟机进行安装:

虚拟机软件:VMware® Workstation 16 Pro

系统:ubuntu-22.04.1-desktop-amd64

安装Java

注意这里 JAVA 版本要和你的 Spark 支持的版本一致,这里我使用 Java 17

官网:Overview - Spark 3.3.0 Documentation

Spark runs on Java 8/11/17, Scala 2.12/2.13, Python 3.7+ and R 3.5+. Java 8 prior to version 8u201 support is deprecated as of Spark 3.2.0. For the Scala API, Spark 3.3.0 uses Scala 2.12. You will need to use a compatible Scala version (2.12.x).

在环境变量里一定要写JAVA_HOME,具体java怎么装不赘述了,网上随便找了个教程链接 在linux环境下安装java - 柯南。道尔 - 博客园

下载Spark

官网下载:Downloads | Apache Spark

注意选第一个框里带 Hadoop 和 Spark 的版本

极简Spark 3.3.0 安装_第1张图片

安装

解压到指定目录

sudo tar -xzvf [你的下载文件路径] -C [你的Spark安装路径]

【】里的路径自己看着改,改好了大概长这样

sudo tar -xzvf ~/Downloads/spark-3.3.0-bin-hadoop3-scala2.13.tgz -C ~/Software/Spark

验证是否成功安装

进入你安装的目录

cd [你的Spark安装路径]

运行示例代码——求圆周率(近似数保留10位小数)

./bin/run-example SparkPi 10

会输出很多东西,但只要结果这句出来了应该就没问题

极简Spark 3.3.0 安装_第2张图片

 就这么简单

参考:

官网文档:Overview - Spark 3.3.0 Documentation

你可能感兴趣的:(spark,scala,大数据)