Hive窗口函数-lead/lag函数

前面我们学习的first_value和last_value 取的是排序后的数据截止当前行的第一行数据和最后一行数据

Lag和Lead分析函数可以在一次查询中取出当前行后N行和前N行的数据,虽然可以不用排序,但是往往只有在排序的场景下取前面或者后面N 行数据才有意义

这种操作可以代替表的自联接,并且LAG和LEAD有更高的效率

  • LAG(col,n,DEFAULT) 用于统计窗口内往上第n行值

第一个参数为列名,第二个参数为往上第n行(默认为1),第三个参数为默认值(当往上第n行为NULL时候,取默认值,如不指定,则为NULL)

  • LEAD(col,n,DEFAULT) 用于统计窗口内往下第n行值

第一个参数为列名,第二个参数为往下第n行(默认为1),第三个参数为默认值(当往下第n行为NULL时候,取默认值,如不指定,则为NULL)

  • lead(col1,n,default)over(partiton by col2,order by col3):表示数据按照col2分区后,按照col3排序,然后在该条记录向后寻找n条数据(n一般为1),找到数据中的col1列。若为最后一条数据,则为default(默认为Null)。

  • lag(col1,n,default)over(partiton by col2,order by col3):表示数据按照col2分区后,按照col3排序,然后在该条记录向前寻找n条数据(n一般为1),找到数据中的col1列。若为最后一条数据,则为default(默认为Null)。

你可能感兴趣的:(hive,hadoop,数据仓库)