Spark 开窗函数

row_number() 开窗函数是按照某个字段分组,然后取另一字段的前几个的值,相当于 分组取topN
如果SQL语句里面使用到了开窗函数,那么这个SQL语句必须使用HiveContext来执行,HiveContext默认情况下在本地无法创建。在MySql8之后也增加了开窗函数。

开窗函数格式:

row_number() over (partitin by XXX order by XXX)
	val spark = SparkSession.builder()
      .appName("window")
      .enableHiveSupport()
      .getOrCreate()
    spark.sql("use spark")//使用spark库
    //创建sales表
    spark.sql("create table if not exists sales(date String,type String,price Int) row format delimited fields terminated by '\t'")
    //加载本地数据到sales表中
    spark.sql("load data local inpath '/root/sales' into table sales")
    //按照type分组,按照价格排序
val result = spark.sql("select date,type,price from (select date,type,price,row_number() over (partition by type order by price desc) rank from sales) t where t.rank<=3")
    result.write.mode(SaveMode.Append).saveAsTable("salesResult")
    result.show(100)

你可能感兴趣的:(Spark,开窗函数)