怎么在windows本地配置pyspark和jupyter notebook开发环境

目录

    • 安装Scala
    • 安装spark
    • 安装Hadoop
    • 安装anaconda
    • 配置环境变量
    • 创建notebook并findspark

安装Scala

安装对应版本的scala

安装spark

到官网http://spark.apache.org/downloads.html选择相应版本,下载安装包。将安装包拷贝到C盘路径下,解压。后面安装的Hadoop版本需要跟Spark版本对应。
怎么在windows本地配置pyspark和jupyter notebook开发环境_第1张图片

安装Hadoop

到Apache Hadoop 选择spark相对应的版本下载并解压Hadoop。
为了防止运行程序的时候出现空指针nullpointer异常,到到下面地址:https://github.com/steveloughran/winutils 找到对应的hadoop版本,下载hadoop.dll和winutils.exe, 然后复制到所安装hadoop的bin目录下。

安装anaconda

安装最新版本anaconda

配置环境变量

pyspark是在anaconda里面安装的
怎么在windows本地配置pyspark和jupyter notebook开发环境_第2张图片

创建notebook并findspark

在新建的notebook里面运行以下代码。

import findspark
findspark.init('C:/spark')
import findspark
findspark.find()
import findspark
findspark.find()
import pyspark
sc = pyspark.SparkContext()

tempData = [59,57.2,53.6,55.4,51.8,53.6,55.4]
# 这边就可以使用sc调用parallelize方法了
parTempData  = sc.parallelize(tempData)
parTempData.collect()
# out: [59, 57.2, 53.6, 55.4, 51.8, 53.6, 55.4]

怎么在windows本地配置pyspark和jupyter notebook开发环境_第3张图片

你可能感兴趣的:(Python3)