【数据分析面试】大厂高频SQL笔试题(三)

更多数据分析思维,工具和实际项目干货文章,请移步共粽号:【数据分析星球】,还有数分资料包领取!

01 写在前面

数据分析SQL笔试题系列第3篇来啦!之前笔试题的文章如果没有看可以戳:

无论你是刚毕业的职场小鲜肉、还是想转行数据分析的小白玩家,只要想进入数据分析的行业,都逃不过数据分析面试的考验,这里最重要也是最关键的一关就是SQL笔试了,不过不用担心,结合作者6年+的工作和面试经验,系统全面地整理了数据分析面试中那些高频出现的以及各大厂的SQL笔试题,学习了这些笔试题的常见套路和解法,把这些题目都刷一遍,在接下来的笔试中应该可以一往无前,收割offer啦!

SQL笔试不仅考查代码的熟练程度,更多的考查的是对业务的理解程度,只有理解了业务背景和逻辑,才能更快速准确地给出答案。本篇选取了PDD的业务笔试题,在某个业务背景下考查SQL能力,赶紧来看看这些题目你都会么?

02 用户行为分析

业务背景

某购物APP最近上线了一个新功能,用户签到后可以跳转到大转盘抽奖,抽奖获得的奖金可以抵消购物的费用,以此来培养用户使用app的习惯。

数据表介绍

现有一张用户行为表user_log,主要字段如下,记录了用户在app上的所有行为日志,即何人user_id在何时event_time进行了什么操作event_id。

图片

需求:

1、计算该app每天的访客数以及每天人均行为次数。

2、统计每天签到之后并进行抽奖的用户数,注意签到和抽奖行为必须相邻(签到和抽奖行为对应的event_id分别为'register','gift')。

思路:

第1问比较简单,计算app每天的访客数,因为用户登录访问app就会在表中产生对应的行为日志,所以每天的访客数只需要按天对用户数去重即可,每天人均行为次数的计算,因为一次行为就会产生一条记录,所以,人均行为次数就是所有的记录计数,除以总的访客数。

代码如下:

select cast(event_time as date) as day,

count(distinct user_id) as active_cnt,

count( event_id)/count(distinct user_id) as avg_opr_cnt

from user_log

group by cast(event_time as date);

第2问升级了难度,虽然也是统计用户数,但是添加了限制:签到之后要大转盘抽奖,两个行为一前一后必须相邻才可以。这个时候我们可以用窗口函数的位移函数lead()over()实现,lead可以取当前记录的下一条记录,如果我们对每个用户user_id分组,按照行为时间event_time升序排列,就可以得到一个用户的连续的行为记录,再用lead()就可以得到下一条记录,从而在当前记录中得到下一条记录,对两个连续行为进行筛选,就可以计算满足这个条件的用户数。

代码如下:

select a.day,count(distinct user_id)

from(

    select user_id,

    cast(event_time as date) as day,

    event_id,

    lead(event_id,1) over(partition by user_id order by event_time ) as next_event_id

    from user_log

)a

where event_id='register' and next_event_id='gift'

group by a.day;

03 活动效果数据分析

业务背景

为了提高某店铺的营业额,最近运营部门上线了多个运营活动,用户参与活动后可以领取不定额的优惠券,以此鼓励用户下单。但每个用户限参与一个活动,不可同时参与多个活动。

数据表介绍

现有一张订单表orders和活动报名表act_join,分别记录了用户的下单明细和用户报名的活动明细。具体字段如下:

订单表orders,大概字段有(user_id‘用户编号’,order_id  '订单编号' ,order_sales‘订单金额’ , order_time‘下单时间’)。

活动报名表act_join,大概字段有(act_id‘活动编号’, user_id‘报名用户’,join_time‘报名时间’)

需求:

1. 统计每个活动报名的所有用户在报名后产生的总订单金额,总订单数。(每个用户限报一个活动,且默认用户报名后产生的订单均为参加活动的订单)。

2. 统计每个活动从开始后到当天(数据统计日)平均每天产生的订单数,活动开始时间定义为最早有用户报名的时间。

思路:

第1问计算总订单金额和总订单数,这两个指标都比较简单sum(order_sales)、count(order_id)就可以,但是关键在于限定条件,是每个活动报名后的用户的汇总,必须是报名了某个活动,且必须在活动开始后的数据统计。可以通过订单表orders和报名表act_join连接,限定订单时间大于等于活动的开始时间即可。

代码如下:

select  t2.act_id,

count(t1.order_time) as order_cnt,

sum(order_sales) as order_sales_sum

from

(

    select user_id,order_id,order_sales,order_time

    from orders

)t1

inner join (

    select user_id,act_id,join_time

    from act_join

)t2

on t1.user_id=t2.user_id

where t1.order_time>=t2.join_time

group by t2.act_id;

第2问与第1问有相似之处,同样是用户报名后的下单,只是多了一些限定条件:同时要满足要小于等于计算日期当天,也就是程序运行的系统时间now(),在此基础上,计算整体的订单数,除以活动进行的天数,就是该活动每天的平均下单数。

代码如下:

select t1.act_id,

count(order_id)/datediff(now(),min(t1.begin_time))--总店单数/活动天数

from

(

    select act_id,

    user_id,

    join_time,

    min(join_time) over(partition by act_id) as begin_time  --当前活动的开始时间

    from act_join

)t1

inner join

(

    select user_id,

    order_id,

    order_time

    from orders

)t2

on t1.user_id=t2.user_id

where t1.join_time between t1.begin_time and now() --活动开始至今的数据

and t2.order_time >= t1.join_time --活动开始后的下单

group by t1.act_id;

说明:这里使用了窗口函数,计算了每个活动的开始时间,然后join 订单表,通过where条件将上面的限定条件满足。当然这只是一种解题思路,还有很多其他的解法,大家可以尝试。

上面通过2个实际的业务场景,不仅考查了SQL的代码能力,更主要的是考查了大家对业务场景的理解能力,如果理解不了业务场景,也就很难写出SQL代码,相反,如果业务场景非常熟悉,代码就比较简单了,所以,我们在练习SQL的时候,一定要结合着业务场景来练,这样才比较贴合实际业务场景,也更能在笔试中有余,脱颖而出啦!

以上就是数分面试宝典系列—SQL高频笔试题第4篇文章的内容,部分历史文章请回翻公众号,更多数据分析面试笔试的文章持续更新中,敬请期待,如果觉得不错,也欢迎分享、点赞和收藏哈~

你可能感兴趣的:(【数据分析面试】大厂高频SQL笔试题(三))