3道数据分析师面试题实录

导读

今天参加了一场数据分析师面试,遴选3道记录以资后鉴。

1. SQL求两表差集

3道数据分析师面试题实录_第1张图片

用SQL实现黄色部分查询

求差集在其他SQL语句中存在关键词Except的用法,而MySQL中没有,所以需要用其他方法折中实现。但实现本身也不难。

以公共字段为id示例,提供两种常规思路

  • 利用子查询

用最常规的语法(说人话的实现语句)是用in:

1SELECT * 
2FROM A 
3WHERE id not in (SELECT id FROM B)

当然,能用关键字in实现的语句基本上都可以用exists实现:

1SELECT * 
2FROM A 
3WHERE not exists (SELECT 1 FROM B WHERE A.id=B.id)

用子查询实现逻辑简单,语句更为直接,但执行效率一般较差,至于用in还是exists又要取决于索引情况和A、B两表数据规模情况。

  • 利用表连接查询

实现两表差集更为可取的做法是用表连接:

1SELECT A.* 
2FROM A left join B 
3    using(id)
4WHERE B.id is null

表连接方式更为高效,如果当B表较大但id列存在有效索引时,实际上还存在一点优化的空间和技巧:

1SELECT A.* 
2FROM A left join 
3    (SELECT id FROM B) C 
4    using(id) 
5WHERE C.id is null

这里假定B表id字段已建立索引,进而通过覆盖索引查询B表id字段形成衍生表C,会大大加速查询过程,进而优化表连接查询结果。


2. 64匹马竞技取前4

实话说,这道题曾经见过,但无奈当时并未仔细思考。面试现场,脑中想到了可能的解决框架:

  • 64匹马用8条赛道,取前4,这是mapreduce模型啊,问题是怎么reduce出TOP4来

  • 64取前4,这是排序算法中快排的套路:无需关注具体排名,仅需查询TOP4即可

实际上,实现起来却尽是浆糊,剪不断理还乱。最后,只能给出中规中矩的晋级策略,也是最常规和最差的方案:每8匹马取前4,逐轮晋级,64→32→16→8→4,共需15轮。

而更为理想的策略仅需10-11轮:

  • 64匹马分8组,每组单独竞技,各取前4作为候选空间

3道数据分析师面试题实录_第2张图片

第1-8轮竞技

  • 为加快区分度,取各组第1名共8匹马进行竞技,记录排名

3道数据分析师面试题实录_第3张图片

第9轮竞技

经过此轮,能得到很多信息量:

  1. 第1名是总冠军,且其原来所在组的2-4名均可能是总排名前4

  2. 第2、3、4名所在组仅需分别保留3-2-1匹马作为总排名前4的候选空间

  3. 此时问题转化为9选3

  • 9匹马中,选择其中的8匹竞技,取前3。这里,9选8的策略有很多,但最好的方案是期望经过此轮后无需考虑剩下的那匹马,也就是说将最不可能进入总排名前4的马作为备选。因此,最为理想的选择是将总冠军那一组的第4名作为备选马,确保该组第2名或第3名未进入8选3结果中,无需再考虑备选的第4名,否则才需加赛。当然,将第二列的第三名作为备选也会得到相同的期望。

3道数据分析师面试题实录_第4张图片

第10轮,选出最终2-3-4名

最终,总轮次仅需10-11轮。


3. 业务异常点分析

业务面中,遇到了一个经典的异常业务数据分析题,虽然是一道主观题,但实际上也是有框架的,不幸的是自己当时陷入了分析陷阱中:想当然的顺着面试官的暗示,将这个问题归结为一定是异常,然后展开具体分析。而更一般的分析框架应该是这样的:

3道数据分析师面试题实录_第5张图片

业务异常点分析思路框架

自己当时就只冲着其中一个点往里钻,缺乏跳出问题看问题的思维……

相关阅读:

  • 临行在即,分享一个自己写的sklearn源码库

  • 从pandas中的这几个函数,我看懂了道家“一生二、二生三、三生万物”

  • python数据科学系列:pandas入门详细教程

  • python数据科学系列:matplotlib入门详细教程

  • python数据科学系列:numpy入门详细教程

你可能感兴趣的:(3道数据分析师面试题实录)