Pycharm中搭建PySpark开发环境

文章目录

  • 前言
  • 一、本机环境
  • 二、PySpark安装步骤
    • 1.命令提示符中使用Anaconda创建虚拟环境
    • 2.使用以下命令查看Anaconda中创建的虚拟环境
    • 3.使用以下命令进入到新创建的虚拟环境中
    • 4.查找对应版本的PySpark版本,命令如下:
    • 5.安装PySpark
    • 6.测试PySpark库是否安装成功
  • 三、Pycharm开发环境搭建
    • 1.Pycharm创建项目
    • 2.创建项目
    • 3.配置项目运行环境
    • 4.项目中新建.py文件
    • 5.命名.py文件名
    • 6.编写Spark单词统计的代码
    • 7.解决Warning问题
    • 8.运行结果
  • 总结


前言

前段时间学习了Python版本GDAL处理空间数据的知识,并使用GDAL实现了多线程栅格切片的功能,该功能在处理大的栅格数据的切片时,性能方面很不理想,因此决定研究下Spark+GDAL模式下的切片。由于以前开发的Spark任务都是使用Java+Scala在Eclipse环境下开发的,现在要基于Python开发,总要先有个Pyspark开发环境吧,于是就有了这篇 Python环境下搭建Spark开发环境的文章。

以下是本篇文章正文内容,下面案例可供参考

一、本机环境

  1. Anaconda3-5.3.1
  2. Spark2.3.0
  3. Pycharm2019.2

二、PySpark安装步骤

1.命令提示符中使用Anaconda创建虚拟环境

由于本机安装的Anaconda自带的是python3.7,且Spark版本为2.3.0(版本偏旧),故在Anaconda中创建了一个新的虚拟环境,执行以下命令:

conda create -n spark_gdal python=3.6

其中spark_gdal为创建的虚拟环境的名称,python=3.6表示该虚拟环境使用的python版本为3.6,执行后截图如下:
Pycharm中搭建PySpark开发环境_第1张图片

你可能感兴趣的:(Spark,spark,大数据)