【面经】数据分析岗_面试题整理总结
必问问题
订单/流量波动(【业务理解(指标定义,如DAU怎么才是活跃)-指标口径(渠道)-数据产出链路(哪份日志、哪些过滤清洗得来的)】;是否存在恶意的刷流量)、三个常用的app、商业模式(之前产品的cpc和cpm)
1、订单/流量波动(【业务理解(指标定义,如DAU怎么才是活跃)-指标口径(渠道)-数据产出链路(哪份日志、哪些过滤清洗得来的)】;是否存在恶意的刷流量)
1、判断是正常?异常?:数据产生链路、拉长时间轴;2、最大概率法则归因:假期、热点、双11、政策;3、形成闭环:持续跟踪、文档化!!!、邮件化。
2、常用app:
网易云音乐(喜欢每日推荐,吐槽没有听歌识曲和语音输入,以及下面的热门搜索跟我的画像不匹配)、知乎。
如何解决吐槽点?先看热门搜索的点击量,如果较低的话说明虽然位置有曝光但没人点击、确实有问题。
怎样评估这样做带来指标的提升?先小流量(灰度-5%)AB测试,然后慢慢放量,如果效果还不错就全量。
3、工具类产品如何商业化:墨迹天气(首页的天气button是主流量入口、下拉出现咨讯、里面有较多的广告app下载链接,这是一个app带量商业化;时景button有景点、住宿app下载推荐,这是一个自身app高相关的商业化推荐;Me这个button,分生活、娱乐、休闲和游戏四大板块)。
方法论:AB测试(正交性)、最大概率法则、幸存者偏差(当取得资讯的渠道,仅来自于幸存者时(因为死人不会说话),此资讯可能会存在与实际情况不同的偏差。用 对照试验 和 贝叶斯公式 来消除幸存者偏差;抛掉对个案的迷信,全面系统的了解才能克服这个偏差)、相关性分析(子产品对大盘的贡献度或影响度——>相关性,并可以进一步作回归分析)等。
二、四大行业数据分析
电商
电商零售的北极星指标:交易额(北极星指标)、首页分发效率、核心转化率/漏斗分析、新用户获取的场景分析;
-
首页分发效率:CTR【CTR = 点击UV / 曝光UV】和人均访问(点击)页面数【=总方位页面数 PV / 总访问UV】;发布新版本更需要关注上述两个指标。
互联网金融(数据建模师)
模型的离线效果(实际工作,还是坏账率这个指标最重要)
游戏行业
- 流失分析:渗透率都是针对具体的功能模块。
- 商业分析(变现):看中收入 + 体验游戏
传统销售行业
核心指标:销售额完成率。
三、具体方法论
1、指标体系搭建方法论:
日功能渗透率=该功能的日点击人数 / 日活
功能渗透率=功能渗透率 / 大盘用户数。
核心指标(日活 VS 有效用户量:打开后几秒算活跃)
2、流量分析方法论(渠道、转化、价值、波动)
前期看有效用户数(排除刷量,即除了看量级,还要看主动行为的用户)、次留;中期看次日、7日、30日留存;后期看ROI
数有没有错(数据采集与统计口径);用户行为、内容与功能/产品;
3、路径分析(漏斗分析不能满足实际需求)方法论
4、产品分析(竞品分析)方法论
画像
产品:生孩子;运营(用户运营:提新增、拉留存、降流失;用户运营需要内容运营和活动运营来支撑):养孩子;数据分析:持续观察孩子的指标。
5、营销活动(拉新、促活、带??)分析方法论
数据分析师主导埋点(含字段名、埋点位置、上报方式)
建议指标:新增、首次、低活(结合业务来定义)带动;并关注上述用户的后续留存。
6、用户流失分析(增长分析)方法论——摩拜和滴滴的案例(漏斗思维分析获客和激活;留存与活跃)
增长黑客AARRR转化漏斗(建立产品壁垒):
- 拉新角度(流量思维、渠道思维;烧钱、野蛮增长的时代):AARRR转化漏斗
- 留存角度(产品 / 用户思维:做好产品与运营服务):留存——变现——推荐——拉新——激活。
- ROI思维(未来资本越来越理性):变现——推荐——拉新——激活——留存。
分析师的任务:做规模和带收入(独立思考,跳出现有模型)、多研究用户数据。
常用的用户增长方法:魔法数字;优化渠道结构、提升新增用户留存;流失用户召回。
实际很好的2个增长思维:北极星指标:MAU=新增+老=本月新增+上月新增留存+上月老用户留存+上月老用户回流;AB测试。
四、专题分析标准化流程
思维(建立逻辑树)、技术、时间管理、ppt、演讲能力。
问题定义与拆解:用户下跌原因的逻辑树拆解
分析角度
结构分析(各渠道)、对比分析(含AB测试)、时间序列分析(二次拆解找波动项)、相关性分析、机器学习。实际上所有的分析都是基于用户的基础属性和行为属性。
真实专题报告撰写
PPT要有数据结论,结论是基于业务方给出的落地项,落地项要非常具体(含时间、人和语气效果)。——基于XX数据,发现XX结论,基于这个结论的建议是XX,基于这个建议的产品落地项是XX。
五、数据分析师的个人素养
行业分析
界定范围(产业链图谱,在全局视野下找切入点)、市场规模(交易额GMV描述、用户数描述)、社会热点事件、头部玩家(产品分析、用户分析)、未来预测。
数据仓库
- 埋点(主动性+文档化):APP日志采集中的埋点,前期建立埋点规范,后期不投入太多时间、但要文档化;数据分析师主导埋点(含字段名、埋点位置、上报方式)。
- 建模:
-
数据管理
计算管理;存储管理;权限管理。
用户研究(快输出——2周内;线上 / 线下调研)
横坐标是态度和行为、纵坐标是定量与定性(定性研究侧重用户分类、定量研究侧重样本量和代表性)来划分四象限。
时间管理
略
非常好的博客:Spring数据分析思维课
【数据分析师八大能力】
分析思维 第二篇:数据指标体系
[转帖]AARRR已是过去式,而RARRA才是更好的增长黑客模型
【互联网产品经理入门】
A/B测试与假设检验
分流模型:通常网站会利用分域、分层(将流量复用)、分桶(圈定用户群:保证用户的完全随机且互斥)的机制保证流量高可用以及分流的灵活性和科学性。
- 分桶(圈定用户群:保证用户的完全随机且互斥):
做实验很重要的一点就是圈定用户群,要圈定两组完全随机且互斥的用户,一组分配给A,一组分配给B ,比较初期的一种做法是根据用户唯一tag(一般使用userid、deviceid,cookie等)对1000取模分成1000个桶,然后选择不同的桶分配给A和B。
流量是有限的,实验数量可以无限的,如果我们选用了60%的流量做了实验一,那只剩下40%的流量做实验二,那实验三怎么办呢? - 分层(将流量复用):
分层是为了将流量复用,即一个用户可以处在多个不同的层上,不同的层的流量完全打散,互不影响。具体来说,在上一层001桶的所有流量,理论上应该均匀地随机地分布在下一层的1000个桶中。常用做法是通过页面来分层。
所以在实验设计时:一般将不同页面的多个功能实验(一般互无影响),放在不同的层上;
而将同一页面的多个功能实验(一般互有影响),放在同一层上的不同实验;从而保持两个实验的流量完全独立;通过可重叠的分层分桶方法,一份流量可通过N层可以同时参与N个实验,而且实验之间互不干扰,显著提升流量利用率。
通常在做实验时我们会考虑一些先决条件,例如我只针对上海地区的用户做实验?此时该怎么控制呢? - 分域:
在正常的实验过程中,我们一般会从总体流量中按照一定的维度去划分一个个流量区域,来做实验,比如一部分实验针对北京用户,一部分针对上海用户。如此,就引出了另外一个概念,“域”。这里划分出的流量池就是一个域,在这个域里还可以进行分层实验,不同域之间流量隔离,所有的流量域加起来共享100%流量。
抽样:应该保证同时性(分流应该是同时的,测试的进行也应该是同时的)、同质性(设备特征、用户属性、用户行为、用户付费特征(消费习惯及贡献度))、唯一性(要求用户不被重复计入测试)、均匀性。
如何判断是不是真的同质?可以采用AAB测试。抽出两份流量进行A版本的测试,进行AA测试,并分别与B版本进行AB测试。通过考察A1和A2组是否存在显著性差异,就可以确定试验的分流是否同质了。
确定检验类型:在判断用什么检验的时候,首要考虑的条件是样本量(检验类型:小于30即T检验),其次是总体服从的分布(抽样分布类型:是否正态分布)。
样本容量大时(统计学上一般认为 n≥30),总体的均值和标准差未知,不要求总体近似服从正态分布。根据中心极限定理,样本容量大,则样本均值的抽样分布服从正态分布,总体标准差可以用样本标准差来估计,可用Z检验;
当样本容量小于30,且满足总体近似服从正态分布时,如果总体标准差已知,可用Z检验;
当样本容量小于30,且满足总体近似服从正态分布时,如果总体标准差未知,可以用样本标准差去估计总体标准差,由此可用T检验;
当样本容量小于30,且不满足总体近似服从正态分布,不能用Z检验和T检验。
改进版:若总体标准差已知(无论样本大小)都用Z检验;若总体标准差未知,都用T检验。不过当样本量够大的时候,T分布也近似于Z分布了,所以最后的结果不会差很多。T分布其实是小样本的Z分布。一个样本的自由度越大,样本方差就越接近总体方差,T分布也就越接近Z分布。因此T分布的形状随自由度的变化而变化,自由度越大,越接近正态分布
T检验的类型
①单样本的T检验:
检验单个样本的平均值是否等于目标值。例如:某大学的学生平均身高是否大于全国平均身高167cm;
②配对样本均数T检验:
检验相关或配对观测之差的平均值是否等于目标值。例如:为了检测减肥药是否起作用,随机抽样出20名测试对象,记录每个人服药前和服药后的体重。(同一组样本。问题:有残留效应);
③两独立样本均数T检验:
检验两个独立样本的平均值之差是否等于目标值。检验闯关游戏教学方法是否有效,分别在两组学生上进行效果测试。
指标选定
- 转化率检验(卡方检验) eg:展现点击转化率,留存……
- 均值检验(T检验) eg:人均使用时长……
实验周期
一般两周。前3天在实验阶段,参考价值不大(不过能看出实验是否有问题);4-10天数据相对稳定,可作为测试结论。
结果比较
最后根据假设检验的结果,判断哪些版本较之原版有统计意义上的差异,并根据效应量选出其中表现最好的版本。
测试存档(复盘)
指标体系与统计口径
AB测试-假设检验的示例
案例1:今日头条app界面的广告位,放在第四位比较好。
项目简介:案例数据是对web新旧页面的A/B测试结果,目标是判断新旧两版页面在用户的转化情况上是否有显著区别。
数据描述与来源:数据来自Udacity的示例案例,数据共计近30万条,可能有意制造了一些脏数据。数据集含5个字段:用户的 user_id、时间戳 timestamp、分组 group(实验组or对照组)、展示的页面版本landing_page(新版or旧版)、该用户是否转化 converted(0-未转化 or 1-转化)。
假设检验(A/B测试)
AB test的一些了解
【数据分析专题】-常见框架(模型)
案例1之异常值:抖音新用户留存整体分析
竞品分析、营销活动分析、用户流失分析