pySpark 关于SparkContext和SQLContext等模块

1. pyspark.sql模块

是Spark SQL and DataFrames重要的类。

pyspark.sql.SparkSession :是DataFrame and SQL 的主入口,比如可以createDataFrame.

pyspark.sql.DataFrame :分布式的数据集合。

pyspark.sql.Column DataFrame的列.

pyspark.sql.Row DataFrame的行.

pyspark.sql.GroupedData 聚合方法, 返回 DataFrame.groupBy().

pyspark.sql.DataFrameNaFunctions 处理缺失值,如null 值.

pyspark.sql.DataFrameStatFunctions 统计方法

pyspark.sql.functions DataFrame的一些功能(掌握DataFrame必备).

pyspark.sql.types 可用的数据类型。

pyspark.sql.Window 窗口函数,如用于滑取数据等。

示例:

spark = SparkSession.builder \
    .master("local") \
    .appName("Word Count") \
    .config("spark.some.config.option", "some-value") \
    .getOrCreate()

参考:

  1. pyspark sql

你可能感兴趣的:(Spark)