昨晚上老同事聚会,一个同事说道一个面试问题没有一个人做出来,就是求连续日期登录次数最大的用户,同事说借助 rownumber即可求解,由于是喝酒聊天,也没有说详细的解决过程。今天早上想了下,终于想到了具体的解决思路。
登录时间里面有详细的时分秒数据,而我们的题目只要求连续的天数,所以使用DATEDIFF函数可以解决,
DATEDIFF(d,LoginTime,getdate()) as diffDate ,
有多个用户都在登录,因此应该以用户名为分区,登录时间为顺序来计算rownumber,因此,就是下面的表达式:
ROW_NUMBER() over(partition by Name order by LoginTime desc) as rn
关键问题来了,如何求得连续的登录情况?
如果是连续的记录,那么 diffDate- rn 肯定是相同的!
OK,果然这种方式很巧妙,那么我们最终的SQL写出来也不难了。
开始动手,先构造一个表,插入初始数据:
/* 求连续登录次数最多的用户 */ create table UserLoginInfo( ID int IDENTITY primary key, Name varchar(50) not null, LoginTime datetime not null ) go insert UserLoginInfo (Name,LoginTime) values('zhang','2015-11-10 12:01:50') ,('li','2015-11-11 11:01:50') ,('wang','2015-11-9 11:01:50'); go insert UserLoginInfo (Name,LoginTime) values ('zhang','2015-11-11 12:01:50'), ('li','2015-11-11 12:01:50'), ('wang','2015-11-11 11:01:50'), ('zhang','2015-11-12 12:01:50'), ('li','2015-11-13 13:01:50'), ('wang','2015-11-12 11:01:50'), ('zhang','2015-11-13 12:01:50'), ('li','2015-11-14 11:01:50'), ('wang','2015-11-14 11:01:50'); go
然后用下面的SQL得到结果:
select top 1 Name,diffRn,COUNT(diffRn)as LoginCount from( select Name,diffDate,rn, (diffDate-rn) as diffRn from( select ID,Name, DATEDIFF(d,LoginTime,getdate()) as diffDate , ROW_NUMBER() over(partition by Name order by LoginTime desc) as rn from UserLoginInfo ) t1 ) t2 group by diffRn,Name order by LoginCount desc
答案是:
Name diffRn LoginCount zhang 14 4
如果注释掉 top 1,我们就知道这个结果的由来了:
Name diffRn LoginCount zhang 14 4 li 13 3 wang 14 2 wang 15 1 li 14 1 wang 13 1
这个问题也可以衍生出 求连续登录的用户,或者求连续登录15天的用户(比如QQ的签到功能),是不是很熟悉呢?
实际上,上面这个查询,遇到一天登录多次的情况下,统计是不准确的,例如,构造下面的测试数据:
insert UserLoginInfo (Name,LoginTime) values ('zhang' ,'2015-11-10 12:01:50') ,('li' ,'2013-10-05 11:01:50') ,('li' ,'2013-10-06 11:01:50') ,('li' ,'2014-10-05 11:01:50') ,('li' ,'2014-10-06 11:01:50') ,('li' ,'2015-10-05 11:01:50') ,('li' ,'2015-10-06 11:01:50') ,('li' ,'2015-11-10 11:01:50') ,('li' ,'2015-11-11 11:01:50') ,('wang' ,'2015-11-09 11:01:50') ,('zhang' ,'2015-11-11 12:01:50') ,('li' ,'2015-11-11 12:01:50') ,('wang' ,'2015-11-11 11:01:50') ,('zhang' ,'2015-11-12 12:01:50') ,('li' ,'2015-11-13 13:01:50') ,('wang' ,'2015-11-12 11:01:50') ,('zhang' ,'2015-11-13 12:01:50') ,('li' ,'2015-11-14 11:01:50') ,('wang' ,'2015-11-14 11:01:50') ;
这时应该先去除某天的重复数据,才是正确的,所以查询应该做如下改进:
select --top 1 Name,diffRn,COUNT(diffRn)as LoginCount from( select Name,diffDate,rn, (diffDate-rn) as diffRn from( select Name, diffDate, ROW_NUMBER() over(partition by Name order by diffDate asc) rn from ( select distinct Name,DATEDIFF(d,LoginTime,getdate()) as diffDate from UserLoginInfo ) t0 ) t1 ) t2 group by diffRn,Name order by LoginCount desc;
结果是:
Name diffRn LoginCount zhang 14 4 wang 14 2 li 13 2 li 14 2 li 48 2 li 411 2 li 774 2 wang 13 1 wang 15 1
结果符合我们的预期,算是完整的答案了。
不知道别的同学还没有更好的解决方案?
-------------------------------------------
PS:如果你经常会在程序中写这样复杂的SQL,推荐你使用PDF.NET SOD框架的SQL-MAP功能,将SQL写在配置文件中,集中管理,并且方便跨数据库移植。
SOD框架 PDF.NET_SOD Ver 5.3.6.1125 已经发布,喜欢的朋友可以下载当前这个最新的稳定版本,有问题,可以加框架的QQ群:PDF.NET SOD高级群 18215717