Python(PySpark案例实战)

为什么要学习PySpark?

SparkPython语言的支持,重点体现在,Python第三方库:PySpark之上。

PySpark是由Spark官方开发的Python语言第三方库。

Python开发者可以使用pip程序快速的安装PySpark并像其它三方库那样直接使用。

Python(PySpark案例实战)_第1张图片

 PySpark库的安装

”CMD”命令提示符程序内,输入:

pip install pyspark

或使用国内代理镜像网站(清华大学源)

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark

构建PySpark执行环境入口对象

想要使用PySpark库完成数据处理,首先需要构建一个执行环境入口对象。

PySpark的执行环境入口对象是:类 SparkContext 的类对象

Python(PySpark案例实战)_第2张图片

PySpark的编程模型 

 SparkContext类对象,是PySpark编程中一切功能的入口。

Python(PySpark案例实战)_第3张图片

  • 数据输入:通过SparkContext完成数据读取
  • 数据计算:读取到的数据转换为RDD对象,调用RDD的成员方法完成计算
  • 数据输出:调用RDD的数据输出相关成员方法,将结果输出到list、元组、字典、文本文件、数据库等

Python(PySpark案例实战)_第4张图片 

你可能感兴趣的:(数据处理,Python学习,人工智能,python,开发语言,spark,数据库)