Spark——在Windows单机安装spark

Windows安装spark

  • 下载安装Java,安装版本为8
  • 下载spark安装包
  • 下载Hadoop支持包
  • 下载并安装pycharm和anaconda
  • 配置pycharm运行spark环境
    • spark读取本地文件格式:
    • 配置日志显示级别
    • 配置cmd下pyspark在jupyter下运行

下载安装Java,安装版本为8

Java8下载地址
安装教程详见:菜鸟教程—Java安装

下载spark安装包

spark2.3.3下载地址

建议安装2.3.3版本,高版本的2.4.0在运行时会报错Py4j error。
下载后解压文件夹,并将路径配置到系统变量中。
Spark——在Windows单机安装spark_第1张图片
系统环境变量中配置路径如下:
在这里插入图片描述
具体路径视个人情况填写。

下载Hadoop支持包

百度网盘下载地址
提取码:ezs5

下载后解压,并添加系统变量:
Spark——在Windows单机安装spark_第2张图片
以及系统环境变量:
在这里插入图片描述

下载并安装pycharm和anaconda

具体安装教程可自行百度。

安装后,将spark下的python中的pyspark拷贝到安装的python路径下的:Lib\site-packages
然后运行pip install py4j

配置pycharm运行spark环境

Spark——在Windows单机安装spark_第3张图片
Spark——在Windows单机安装spark_第4张图片
根据上图进行配置后即可运行spark程序。


spark读取本地文件格式:

rdd = sc.textFile(‘file:///路径’)

配置日志显示级别

在spark\conf目录下创建log4j.properties配置文件,该目录下有template模板,可以直接复制。
然后将其中的:log4j.rootCategory=INFO, console 修改为 log4j.rootCategory=WARN, console

配置cmd下pyspark在jupyter下运行

编辑spark目录下:bin\pyspark2.cmd
修改其中对应部分为以下格式:

rem Figure out which Python to use.
if "x%PYSPARK_DRIVER_PYTHON%"=="x" (
  set PYSPARK_DRIVER_PYTHON=jupyter
  set PYSPARK_DRIVER_PYTHON_OPTS=notebook
  if not [%PYSPARK_PYTHON%] == [] set PYSPARK_DRIVER_PYTHON=%PYSPARK_PYTHON%
)

你可能感兴趣的:(Spark机器学习实践)