在Windows上的安装 Spark

安装Java 8或更高版本

要在windows上安装Apache Spark,你需要Java 8或最新的版本,因此从 Oracle 下载Java版本并安装在你的系统上。如果你想要OpenJDK,你可以从这里 下载.它。

下载后,双击下载的文件,以便在您的windows系统上安装它。选择任何自定义目录或保持默认位置。

注意:这是以Java 8上安装Apache Spark为例,同样的步骤也适用于Java 11和13版本。

Apache Spark在Windows上的安装

Apache Spark是以压缩的tar/zip文件形式出现的,因此在Windows上的安装并不困难,你只需要下载并解压文件。通过访问Spark下载页面并选择 "下载Spark(下面截图中的第3点)"中的链接,下载Apache Spark。

如果你想使用不同版本的Spark和Hadoop,从下拉菜单中选择你想要的版本;第3点上的链接会改变为所选的版本,并为你提供一个更新的下载链接。

下载后,使用压缩工具解压二进制文件,并将解压后的目录spark-3.0.0-bin-hadoop2.7复制到c:\apps\opt\spark-3.0.0-bin-hadoop2.7。

Spark 环境变量

在windows上安装Java和Apache Spark后,设置JAVA_HOMESPARK_HOMEHADOOP_HOMEPATH环境变量。如果你知道如何在windows上设置环境变量,请添加以下内容:

JAVA_HOME = C:\Program Files\Java\jdk1.8.0_201
PATH = %PATH%;%JAVA_HOME%

SPARK_HOME  = C:\apps\opt\spark-3.0.0-bin-hadoop2.7
HADOOP_HOME = C:\apps\opt\spark-3.0.0-bin-hadoop2.7
PATH=%PATH%;%SPARK_HOME%

如果你不知道如何在windows上添加或编辑环境变量,请遵循以下步骤。

  1. 打开系统环境变量窗口,选择环境变量。
  2. 在下面的环境变量屏幕上,通过选择新建选项,添加SPARK_HOMEHADOOP_HOMEJAVA_HOME

  3. 这将打开新用户变量窗口,你可以在这里输入变量名称和值。
  4. 现在编辑PATH变量

  5. 通过选择 "新建 "选项添加Spark、Java和Hadoop的bin位置。

在Windows上使用winutils.exe的Spark

许多初学者认为Apache Spark需要安装Hadoop集群才能运行,但事实并非如此,Spark可以通过使用S3在AWS上运行,也可以通过使用blob存储在Azure上运行,无需Hadoop和HDFS等。

要在windows上运行Apache Spark,你需要winutils.exe,因为它使用windows API在windows中使用类似POSIX的文件访问操作。

winutils.exe使Spark能够使用Windows特有的服务,包括在Windows环境下运行shell命令。

为Hadoop 2.7下载winutils.exe,并将其复制到%SPARK_HOME%\bin文件夹。Winutils对于每个Hadoop版本都是不同的,因此,根据你的Spark与Hadoop的发行版,从https://github.com/stevelough...,下载正确的版本。

Apache Spark shell

spark-shell是Apache Spark发行版附带的CLI工具,打开命令提示符,进入cd %SPARK_HOME%/bin,输入spark-shell命令,运行Apache Spark shell。你应该看到如下内容(忽略你在最后看到的警告):

Spark-shell还创建了一个Spark上下文的Web UI,默认情况下,它可以从浏览器打开http://localhost:4041,以访问Spark Web UI来监控您的工作。

在spark-shell命令行中,你可以运行任何Spark语句,如创建RDD,获得Spark版本等。

这就完成了Apache Spark在Windows 7、10和任何最新版本的安装。

Windows上的Web UI

Apache Spark提供了一套Web UI((Jobs, Stages, Tasks, Storage, Environment, Executors, SQL)来监控你的Spark应用程序的状态、Spark集群的资源消耗和Spark配置。在Spark Web UI上,你可以看到操作是如何执行的。

历史服务器

历史服务器会保留你通过spark-submit、spark-shell提交的所有Spark应用程序的日志。你可以通过在spark-defaults.conf文件中添加以下配置,使Spark能够收集日志,conf文件位于%SPARK_HOME%/conf目录。

spark.eventLog.enabled true
spark.history.fs.logDirectory file:///c:/logs/path

设置完上述属性后,通过启动下面的命令启动历史服务器:

$SPARK_HOME/bin/spark-class.cmd org.apache.spark.deploy.history.HistoryServer

默认情况下,历史服务器采用18080端口进行监听,可以使用http://localhost:18080/ 从浏览器访问它。

通过点击每个应用程序ID,你将在Spark Web UI中获得该应用程序的详细信息。

综上所述,已经学会了如何在windows上安装Apache Spark并在spark-shell中运行样本语句,并学会了如何启动spark web-UI和历史服务器。
hi,我是 @编程大K ,擅长后端、人工智能、大数据处理的伪全能工程师,在平台输出关于技术文章、职业发展和自我提升的干货,看到感兴趣的实事热榜也忍不住唠两句嗑。想与你一同进步,可以通过这些回答来认识我呀:

机器学习方面的论文应该在哪找?

计算机互联网「寒冬」是暂时趋势还是永久趋势?

对你影响最深的计算机书籍是哪一本?

Spark的内存计算 主要体现在 哪些方面?

你可能感兴趣的:(在Windows上的安装 Spark)