pyspark建立RDD以及读取文件成dataframe

 

(2)pyspark建立RDD以及读取文件成dataframe

目录

别人的相关代码文件:https://github.com/bryanyang0528/hellobi/tree/master/pyspark

Top~~

1、启动spark

(1)SparkSession 是 Spark SQL 的入口。

(2)通过 SparkSession.builder 来创建一个 SparkSession 的实例,并通过 stop 函数来停止 SparkSession。

Builder 是 SparkSession 的构造器。 通过 Builder, 可以添加各种配置。

pyspark建立RDD以及读取文件成dataframe_第1张图片

(3)在 SparkSession 的内部, 包含了SparkContext, SharedState,SessionState 几个对象。

pyspark建立RDD以及读取文件成dataframe_第2张图片

 

pyspark建立RDD以及读取文件成dataframe_第3张图片

Top~~

2、建立RDD:

创建RDD的两种方法:
1 读取一个数据集(SparkContext.textFile()) : lines = sc.textFile("README.md")
2 读取一个集合(SparkContext.parallelize()) : lines = sc.paralelize(List("pandas","i like pandas"))

pyspark建立RDD以及读取文件成dataframe_第4张图片


Top~~

3、从text中读取,read.text

pyspark建立RDD以及读取文件成dataframe_第5张图片

pyspark建立RDD以及读取文件成dataframe_第6张图片

pyspark建立RDD以及读取文件成dataframe_第7张图片

Top~~

4、从csv中读取:read.csv

pyspark建立RDD以及读取文件成dataframe_第8张图片

Top~~

5、从json中读取:read.json

pyspark建立RDD以及读取文件成dataframe_第9张图片


Top~~

7、RDD与Dataframe的转换 

(1)dataframe转换成rdd:

法一:datardd = dataDataframe.rdd

法二:datardd = sc.parallelize(_)

(2)rdd转换成dataframe:

dataDataFrame = spark.createDataFrame(datardd)

pyspark建立RDD以及读取文件成dataframe_第10张图片

pyspark建立RDD以及读取文件成dataframe_第11张图片

pyspark建立RDD以及读取文件成dataframe_第12张图片

 

你可能感兴趣的:(spark)