win10配置spark

  • 下载spark压缩包,链接:https://pan.baidu.com/s/1y5JlMdtkrZFyTJWKtuuZ_Q 提取码:z64y。

  • 解压tar.gz文件
    win10配置spark_第1张图片

  • 配置环境变量,系统变量Path中添加spark bin的路径
    win10配置spark_第2张图片

  • 安装hadoop,可参考,注意hadoop版本要和spark对应。

  • 安装pyspark库,pip install pyspark

  • 命令行输入spark-shell,出现以下界面则spark安装成功
    win10配置spark_第3张图片

  • 打开jupyter notebook,测试求圆周率代码

from __future__ import print_function

import sys
from random import random
from operator import add

from pyspark.sql import SparkSession


if __name__ == "__main__":
    """
        Usage: pi [partitions]
    """
    spark = SparkSession\
        .builder\
        .appName("PythonPi")\
        .getOrCreate()

#     partitions = 2 = int(sys.argv[1]) if len(sys.argv) > 1 else 2
    partitions = 2
    n = 100000 * partitions

    def f(_):
        x = random() * 2 - 1
        y = random() * 2 - 1
        return 1 if x ** 2 + y ** 2 <= 1 else 0

    count = spark.sparkContext.parallelize(range(1, n + 1), partitions).map(f).reduce(add)
    print("Pi is roughly %f" % (4.0 * count / n))

    spark.stop()

运行代码,出现以下结果则表明安装pyspark成功
在这里插入图片描述

你可能感兴趣的:(Spark)