Python_PySpark实战

1.PySpark库的安装

清华大学源:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark

 2.构建PySpark执行环境入口对象

"""
演示获取PySpark的执行环境入库对象
并通过SparkContext对象获取当前Spark的版本
"""

#导包
from pyspark import SparkConf,SparkContext
#创建SparkConf类对象
#链式调用的关键在于返回值都一样
conf = SparkConf().setMaster("local[*]").setAppName("test_spark_app")

# conf = SparkConf()
# conf.setMaster("loacal[*]")
# conf.setAppName("test_spark_app")
#基于SparkConf类对象创建SparkContext对象
sc = SparkContext(conf=conf)
# 打印PySparkde运行版本
print(sc.version)
#停止SparkContext对象的运行(停止PySpark)
sc.stop()

Python_PySpark实战_第1张图片

3.PySpark编程模型 

 Python_PySpark实战_第2张图片

 4.PySpark数据输入

理解RDD对象

Python_PySpark实战_第3张图片

 Python_PySpark实战_第4张图片

PySpark数据输入的两种方法

你可能感兴趣的:(python自学,python,开发语言)