8.pyspark.sql.window

Spark SQL和DataFrames重要的类有:

  • pyspark.sql.SQLContext: DataFrame和SQL方法的主入口
  • pyspark.sql.DataFrame: 将分布式数据集分组到指定列名的数据框中
  • pyspark.sql.Column :DataFrame中的列
  • pyspark.sql.Row: DataFrame数据的行
  • pyspark.sql.HiveContext: 访问Hive数据的主入口
  • pyspark.sql.GroupedData: 由DataFrame.groupBy()创建的聚合方法集
  • pyspark.sql.DataFrameNaFunctions: 处理丢失数据(空数据)的方法
  • pyspark.sql.DataFrameStatFunctions: 统计功能的方法
    -pyspark.sql.functions DataFrame:可用的内置函数
  • pyspark.sql.types: 可用的数据类型列表
  • pyspark.sql.Window: 用于处理窗口函数

8.class pyspark.sql.window:用于在DataFrame中定义窗口的实用函数

>>> # PARTITION BY country ORDER BY date ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW
>>> window = Window.partitionBy("country").orderBy("date").rowsBetween(-sys.maxsize, 0)

>>> # PARTITION BY country ORDER BY date RANGE BETWEEN 3 PRECEDING AND 3 FOLLOWING
>>> window = Window.orderBy("date").partitionBy("country").rangeBetween(-3, 3)

8.1.static orderBy(*cols):用定义的顺序创建一个WindowSpec。

8.2.static partitionBy(*cols):用定义的顺序创建一个WindowSpec。

引用原文

你可能感兴趣的:(8.pyspark.sql.window)