现有各用户的登录记录表(login_events)如下,表中每行数据表达的信息是一个用户何时登录了平台。
user_id | login_datetime |
---|---|
100 | 2021-12-01 19:00:00 |
100 | 2021-12-01 19:30:00 |
100 | 2021-12-02 21:01:00 |
现要求统计各用户最长的连续登录天数,间断一天也算作连续,例如:一个用户在1,3,5,6登录,则视为连续6天登录。期望结果如下:
user_id (用户id) |
max_day_count (最大连续天数) |
---|---|
100 | 3 |
101 | 6 |
102 | 3 |
104 | 3 |
105 | 1 |
话不多说,某位大佬写的SQL我感觉挺牛的,然后我就把它的SQL拿过来。
对于七天内连续三天登录,断一天也算这种的SQL题,基本上就是需要使用到lead,lag函数,
以及使用日期减去排名之类的做法。
一位大佬给出了划分会话的形式来解决七天内连续三天的问题。并且使用拼接concat的方式。
我认为做的确实不错,值得借鉴。
WITH tmp as( --没啥好说的,做一个数据格式化,同时去重
SELECT
user_id,
date_format(login_datetime,"yyyy-MM-dd") login_date
from login_events
group by user_id,date_format(login_datetime,"yyyy-MM-dd")
)
SELECT
user_id,
login_date,
--1.注解从这里看起,取出用户上一次登录的日期
lag(login_date,1,'1970-01-01') over(PARTITION by user_id order by login_date) last_login
user_id,
login_date,
last_login,
--2.进行判断,今天登录的日期减去上一次登录的日期,如果大于2的话,就是一个会话的新起点,给这个新起点标记一个1,后面开窗聚合,范围为上无边界到当前行,同一个会话sum的值就会相同
IF(datediff(login_date,last_login)>2,1,0) flag
user_id,
login_date,
--3.这里拼上一个user_id的目的是给每一个会话建立一个唯一标识,方便后面按照会话的唯一标识进行group by
concat(user_id,"-",sum(flag) over(PARTITION by user_id order by login_date )) flagax_day_count
user_id,
--4.这就是每一条子sql都保留login_date这个字段的意义,同一个会话内的最大日期减去最小日期得到的就是连续登录的天数
datediff(max(login_date),min(login_date)) + 1 max_day_count
group by user_id,flag
WITH tmp as( --没啥好说的,做一个数据格式化,同时去重
SELECT
user_id,
date_format(login_datetime,"yyyy-MM-dd") login_date
from login_events
group by user_id,date_format(login_datetime,"yyyy-MM-dd")
)
SELECT
user_id,
--4.这就是每一条子sql都保留login_date这个字段的意义,同一个会话内的最大日期减去最小日期得到的就是连续登录的天数
datediff(max(login_date),min(login_date)) + 1 max_day_count
from(
SELECT
user_id,
login_date,
--3.这里拼上一个user_id的目的是给每一个会话建立一个唯一标识,方便后面按照会话的唯一标识进行group by
concat(user_id,"-",sum(flag) over(PARTITION by user_id order by login_date )) flag
from(
SELECT
user_id,
login_date,
last_login,
--2.进行判断,今天登录的日期减去上一次登录的日期,如果大于2的话,就是一个会话的新起点,给这个新起点标记一个1,后面开窗聚合,范围为上无边界到当前行,同一个会话sum的值就会相同
IF(datediff(login_date,last_login)>2,1,0) flag
from(
SELECT
user_id,
login_date,
--1.注解从这里看起,取出用户上一次登录的日期
lag(login_date,1,'1970-01-01') over(PARTITION by user_id order by login_date) last_login
from tmp
)t1
)t2
)t3 group by user_id,flag
在这个sql里面,我们既需要使用lag,lead函数获取日期的上一行下一行,也需要对日期差值打标记,同时使用concat划分会话,然后使用sum函数。之后需要求最大值与最小值差值