用户行为日志表tb_user_log
id | uid | artical_id | in_time | out_time | sign_cin |
1 | 101 | 0 | 2021-11-01 10:00:00 | 2021-11-01 10:00:42 | 1 |
2 | 102 | 9001 | 2021-11-01 10:00:00 | 2021-11-01 10:00:09 | 0 |
3 | 103 | 9001 | 2021-11-01 10:00:01 | 2021-11-01 10:01:50 | 0 |
4 | 101 | 9002 | 2021-11-02 10:00:09 | 2021-11-02 10:00:28 | 0 |
5 | 103 | 9002 | 2021-11-02 10:00:51 | 2021-11-02 10:00:59 | 0 |
6 | 104 | 9001 | 2021-11-02 11:00:28 | 2021-11-02 11:01:24 | 0 |
7 | 101 | 9003 | 2021-11-03 11:00:55 | 2021-11-03 11:01:24 |
0 |
8 | 104 | 9003 | 2021-11-03 11:00:45 | 2021-11-03 11:00:55 | 0 |
9 | 105 | 9003 | 2021-11-03 11:00:53 | 2021-11-03 11:00:59 | 0 |
10 | 101 | 9002 | 2021-11-04 11:00:55 | 2021-11-04 11:00:59 | 0 |
(uid-用户ID, artical_id-文章ID, in_time-进入时间, out_time-离开时间, sign_in-是否签到)
问题:统计2021年11月每天新用户的次日留存率(保留2位小数)
注:
输出示例:
示例数据的输出结果如下
dt | uv_left_rate |
2021-11-01 | 0.67 |
2021-11-02 | 1.00 |
2021-11-03 | 0.00 |
解释:
11.01有3个用户活跃101、102、103,均为新用户,在11.02只有101、103两个又活跃了,因此11.01的次日留存率为0.67;
11.02有104一位新用户,在11.03又活跃了,因此11.02的次日留存率为1.00;
11.03有105一位新用户,在11.04未活跃,因此11.03的次日留存率为0.00;
11.04没有新用户,不输出。
题解:
第一步:查看每天的活跃用户,因为存在跨天的情况,所以需要把in_time和out_time拼起来
select uid,date(in_time) dt
from tb_user_log
union
select uid,date(out_time) dt
from tb_user_log
第二步:查看每个用户的最小登陆日(每天的新用户)
select uid,min(date(in_time)) dt
from tb_user_log
group by uid
第三步:将上面两张表左连接,得到每天新用户第二天是否登陆表。只有该用户第一天登录并且第2天依旧登陆才有整个记录,否则右表记录为空。
注意:第一天登录并且第2天依旧登陆:on 条件 datediff(t2.dt,t1.dt)=1
select *
from(
-- 两张表左连接,得到每天新用户第二天是否登陆表。只有是同一用户并且该用户第2天依旧登陆才会保留整个记录,否则右表记录为空
-- 每个用户的最小登陆日(每天的新用户,即第一次登录的才是新用户)
select uid,min(date(in_time)) dt
from tb_user_log
group by uid
)t1
left join(
-- 每天的活跃用户,因为存在跨天的情况,所以需要把in_time和out_time拼起来
select uid,date(in_time) dt
from tb_user_log
union
select uid,date(out_time) dt
from tb_user_log
)t2
on t1.uid=t2.uid and datediff(t2.dt,t1.dt)=1
第四步:计算当天新增的用户数中第二天又活跃了的用户数占比
当天新增的用户数:t1.uid
第二天又活跃了的用户数:t2.uid
select t1.dt,round(count(t2.uid)/count(t1.uid),2) uv_rate
from(
-- 两张表左连接,得到每天新用户第二天是否登陆表。只有是同一用户并且该用户第2天依旧登陆才会保留整个记录,否则右表记录为空
-- 每个用户的最小登陆日(每天的新用户,即第一次登录的才是新用户)
select uid,min(date(in_time)) dt
from tb_user_log
group by uid
)t1
left join(
-- 每天的活跃用户,因为存在跨天的情况,所以需要把in_time和out_time拼起来
select uid,date(in_time) dt
from tb_user_log
union
select uid,date(out_time) dt
from tb_user_log
)t2
on t1.uid=t2.uid and datediff(t2.dt,t1.dt)=1
where date_format(t1.dt,'%Y-%m')='2021-11'
group by t1.dt
order by t1.dt