Python---pyspark的安装,执行入口,编程模型、RDD对象、数据输入

1. pyspark的安装

同其它的Python第三方库一样,PySpark同样可以使用pip程序进行安装。

在”CMD”命令提示符程序内,输入:

pip install pyspark

或使用国内代理镜像网站(清华大学源)

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark

2. pyspark的执行入口

要构建SparkContext对象作为执行入口

PySpark的功能都是从SparkContext对象作为开始

3. PySpark的编程模型

数据输入:通过SparkContext完成数据读取

数据计算:读取到的数据转换为RDD对象,调用RDD的成员方法完成计算

数据输出:调用RDD的数据输出相关成员方法,将结果输出到list、元组、字典、文本文件、数据库等

4. 获取PySpark的执行环境入库对象:SparkContext

# 导包
from pyspark import SparkConf, SparkContext
# 创建SparkConf类对象
conf = SparkConf().setMaster("local[*]").setAppName("test_spark_app")
# 基于SparkConf类对象创建SparkContext对象
sc = SparkContext(conf=conf)
# 打印PySpark的运行版本
print(sc.version)
# 停止SparkContext对象的运行(停止PySpark程序)
sc.stop()

5. RDD对象

RDD对象称之为分布式弹性数据集,是PySpark中数据计算的载体,它可以:

提供数据存储

提供数据计算的各类方法

数据计算的方法,返回值依旧是RDDRDD迭代计算)后续对数据进行各类计算,都是基于RDD对象进行

6. 输入数据到Spark(即得到RDD对象)

通过SparkContext的parallelize成员方法,将Python数据容器转换为RDD对象

通过SparkContext的textFile成员方法,读取文本文件得到RDD对象

7. 数据输入:通过PySpark代码加载数据

from pyspark import SparkConf, SparkContext

conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
sc = SparkContext(conf=conf)

# # 通过parallelize方法将Python对象加载到Spark内,成为RDD对象
# rdd1 = sc.parallelize([1, 2, 3, 4, 5])
# rdd2 = sc.parallelize((1, 2, 3, 4, 5))
# rdd3 = sc.parallelize("abcdefg")
# rdd4 = sc.parallelize({1, 2, 3, 4, 5})
# rdd5 = sc.parallelize({"key1": "value1", "key2": "value2"})
#
# # 如果要查看RDD里面有什么内容,需要用collect()方法
# print(rdd1.collect())
# print(rdd2.collect())
# print(rdd3.collect())
# print(rdd4.collect())
# print(rdd5.collect())

# 用过textFile方法,读取文件数据加载到Spark内,成为RDD对象
rdd = sc.textFile("D:/hello.txt")
print(rdd.collect())
rdd.map()
sc.stop()

(日常美图时间)

Python---pyspark的安装,执行入口,编程模型、RDD对象、数据输入_第1张图片

你可能感兴趣的:(初识python,python,开发语言,pycharm,数据分析)