win10中安装spark并使用pyspark

英文原文

目录

    • 安装环境
    • 安装spark
    • 安装winutils
    • 从Jupyter中使用Spark
    • 至此,大功告成!

安装环境

  1. 安装JAVA
    推荐jdk 1.8
  2. 安装Anaconda
    官方individual版本

安装spark

  1. 下载spark
    推荐spark-3.1.2-bin-hadoop2.7版本
  2. 移动并解压所下载的.tgz文件
    注意请保证路径中没有空格,比如 C:\ProgramData\spark-3.1.2-bin-hadoop2.7\,我们将之称为SPARK_HOME
  3. 打开Anaconda Prompt,进入SPARK_HOME文件夹,输入bin\pyspark,你将看到如下输出:
    win10中安装spark并使用pyspark_第1张图片
    win10中安装spark并使用pyspark_第2张图片
    在shell里输入version,将会打印spark的版本信息。你可以输入并运行exit()退出pyspark shell。

安装winutils

现在,让我们下载wintils.exe ,并设置号我们的spark来让其能够找到winutils.exe。

  1. SPARK_HOME文件夹中创建hadoop\bin文件夹。
  2. 下载winutils.exe
    推荐使用hadoop-2.7.1。
  3. 将下载好的winutils.exe移动到SPARK_HOME中的hadoop\bin文件夹内。
  4. 创建系统变量
    在系统设置中创建SPARK_HOME系统变量和HADOOP_HOME系统变量。

从Jupyter中使用Spark

  1. 安装findspark模块
    打开Anaconda Prompt,激活想用的env,输入python -m pip install findspark以安装findspark模块

  2. 打开jupyter notebook
    从Anaconda Prompt中输入jupyter notebook并运行。(此处假设已安装好jupyter,否则需自行安装。)
    你将看到如下页面:
    win10中安装spark并使用pyspark_第3张图片

  3. 现在让我们测试安装是否成功
    先找到spark

    import findspark
    
    findspark.init()
    

    再跑如下测试代码

    import pyspark
    
    from pyspark.sql import SparkSession
    
    spark = SparkSession.builder.getOrCreate()
    
    df = spark.sql("select 'spark' as hello ")
    
    df.show()
    

    如果成功,你将看到如下输出:
    win10中安装spark并使用pyspark_第4张图片

至此,大功告成!

你可能感兴趣的:(spark,python,windows,10)