本文结构速览:
一、SQL题
二、机器学习&概率论
三、开放性问题
01
SQL题
面试真题:
现有一张用户签到表(user_sign_d),标记用户每日是否签到,表结构如下
sign_date: 日期
user_id: 用户ID
if_sign:当日是否签到,1表示签到,0表示未签到
问题 ①:
请计算截止到当前每个用户已经连续签到的天数(输出表仅包含当天签到的所有用户,计算其连续签到的天数)
输出表结构如下:
user_id: 用户ID
continuous_days: 连续签到的天数
▼ 解题思路:
计算最近一次未签到的日期,然后和当前日期做时间差,即为连续签到的天数
踩坑点:如果用户每日签到,不存在未签到日期,需要特殊处理
▼ SQL答案参考:
问题 ②:
请计算每个用户历史依赖最大的连续签到天数
输出表结构如下:
user_id: 用户ID
max_continuous_days: 最大连续签到天数
▼ 解题思路1:
解答该题目思路较为巧妙,下面一步步进行拆解:
step1:将每个用户签到的情况根据日期拼接成一个长的字符串,如(0-1-1-0),
step2: 然后根据0进行切割(split)
step3:切割后进行列转行
step4: 再对转好的列进行计算,长度最长的一段字符串
▼ 解题思路2:
借助问题1的思路,找到每两个为签到日期的时间差,然后找最大的时间差作为连续签到的最大天数。
注意:这个答案给答题者留了两个坑:
最近一次连续签到时间没有包含在内
如果用户没有未签到日期,也就是用户每日签到,这种无法计算在内
对于这两个坑,留给大家自行补坑。
02
机器学习&概率论
面试真题1:A/B test如何进行,如何用统计知识看A/B test的结果?
▼ 参考答案:
A/B test一般涉及到现状分析、目标设定/方案输出、设计与开发、流量分配、数据采集及分析。AB结果主要使用假设检验进行评估,根据样本量,指标设定假设检验的统计量等。
注意:这里面试官会根据应聘者的回答,发散性的问其他相关问题。
面试真题2:AB效果不好怎么办?
▼ 参考答案:
增加样本量:根据显著性检验的原理,只要实验组和对照组差值及样本方差不变的情况下,样本量足够大,我们总是可以得到显著性的结果。
减少样本均值的方差:减少样本均值方差的方法有减少离群值的影响,缩减方差(CUPED)的方法。
更换指标:更换一个方差更小的指标,比如某购物平台,实验指标一开始是用户购买的平均金额,我们可以更换为用户是否购买。对同一批样本,是否购买属于0-1分布,样本的均值方差自然比用户购买的平均金额小很多。
面试真题3:在建模的时候,如何进行特征筛选?
▼ 参考答案:通过计算每个特征的信息增益比、随机森林算法等进行特征筛选。
注意:这里面试官可能会根据应聘者的回答结合简历经历问一些问题。
面试真题4:线性回归的前提假设有哪些?
▼ 参考答案:
自变量和因变量呈线性关系。
误差之间相互独立
自变量相互独立
误差项的方差应为常数
误差呈正态分布
03
开放性问题
面试真题1:对于腾讯视频,如何构建一套指标体系去监控业务的增长情况?
▼ 参考思路:
好的指标体系的构建需要既符合业务目标,又可真实反映业务现状。
可以利用OSM理论入手:
O :公司的核心目标是什么?
S :为达到此目标各业务向下拆解所采取的策略/抓手是什么?
M:针对S设计度量标准来衡量/评估效果。
例如:作为视频业务,核心目标是提升营收。围绕营收的抓手可能有用户侧、产品(视频)侧、商业侧。
对于用户侧,可以从拉新类、活跃类,留存类,转化类(VIP体系)等指标结合业务策略考虑进行监控。
视频作为用户使用产品的承载体,需要考虑视频的播放情况(内容指标相关)、丰富度、上架(供给侧指标相关)情况来设计。
商业侧注重广告收益、ROI等指标。
面试真题2:如何定义流失用户?
▼ 参考思路:
常见流失用户的定义有7/30/90天的划分方式,会依据各家公司产品的特点、考核各用户的实际情况而做调整。
有一种思路是:流失用户可以从用户活跃情况进行分析,通过计算用户第N日的留存分布,划分一个留存收敛的切割点。
比如下面是某平台的留存数据,22天内的留存为44.8%,22天之后的留存率趋于稳定,所以我们可以以22天作为切割点,也就是说,22天不访问APP的用户作为流失用户。
面试真题3:为什么要选择数据分析行业?
▼ 参考思路:
可以从自身背景以及兴趣角度+规划进行阐述。
比如自身背景,从相关专业(如统计,商业分析)、相关项目经历(如数学建模)等阐述。
比如兴趣角度,从行业背景进行描述,以及自己对数据分析工作的理解和看法,继而展现自身对该行业的兴趣,以及为此所付出的准备与努力(主修课程、实习、项目等)。
总之,体现出自己热爱的同时,要侧面说出自己的条件 “匹配 ” 。