参考链接:
面试数据分析最重要的30+问题
参考书:
《行为统计学基础(第九版)》人民大学出版社2007
豆瓣链接
《时间序列与多元统计分析》上海交通大学出版社2016
注意题目的难度与区分度
描述样本或者总体的基本情况(事实)的一种统计方法
一般包括平均数、中位数、众数、分位数、方差、正态分布、偏度、丰度等
平均数:几何、算术、加权
加权平均数的应用场景:APP用户进行客群划分,多指标重要程度不同,算出一个总的分数出来再平均。
加权平均数的前提:标准化
标准化的目的:将不同指标的评价标准拉到同一个基线上(同比例缩放所有属性)
【补充特征缩放
当我们需要将特征值都归一化为某个范围[a,b]时,选MinMaxScaler
当我们需要归一化后的特征值均值为0,标准差为1,选StandardScaler
】
标准化的方法:求z值,首先减去平均值(所以标准化值的均值总是零),然后除以标准差,从而使得结果的分布具备单位方差。【平均值和标准差可以选择样本统计量或者是总体参数】
标准化应用场景:同一个问题的评价数据有三类——时间类型数据、百分比数据、正整数
评估样本中的异常值
(1)日活多少算异常?方差
(2)给出一大堆数据要求寻找异常值
为什么要计算异常值:当样本量极大的时候,异常值可以显著地影响平均数。
怎样找出异常值:分位数与IQR
Q1-1.5IQR(较小异常值)
Q1+1.5IQR(较大异常值)
数据预处理之异常值处理
分位数:
四分位数(Quartile)是统计学中分位数的一种,即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。
1)第一四分位数(Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字;
2)第二四分位数(Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字;
3)第三四分位数(Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。
第三四分位数与第一四分位数的差距又称四分位距。
IQR = |Q3-Q1|
什么是同比:与同期的一个统计周期进行对比
什么是环比:与相连续的上一个统计周期进行对比
相关:两个或者多个变量之间的相互影响程度,变量与变量之间互为相关,没有所谓的先后顺序,我们是同时存在的。
因果:前一个事件对后一个事件的作用与强度,有严格的先后顺序。
举例:
相关性:
蝴蝶效应
活跃用户越高,注册用户越多
注册用户越多,活跃用户越高
——均没有严格的相关性
EXCEL中的相关性分析输出的是哪一种相关系数:PEARSON
PEARSON分析前提:各个变量之间相互独立(每个指标之间没有相互影响)
PEARSON相关性的值怎么判断相关性的强弱:
PEARSON相关系数取值[-1,1]
通常情况下通过以下取值范围判断变量的相关强度**(理论上如此,还要结合具体问题具体分析)**:
相关系数 0.8-1.0 极强相关
0.6-0.8 强相关
0.4-0.6 中等程度相关
0.2-0.4 弱相关
0.0-0.2 极弱相关或无相关
————————————————
版权声明:本文为CSDN博主「ruthy-wei」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/ruthywei/article/details/82527400
如果A和B相关,会有以下几个推论:
A导致B:充分条件
B导致A:必要条件
C导致A和B:a和b同源,人话就是都有同一个老爸
A和B互为因果:充分且必要
小样本引起的巧合:纯属天上掉馅饼
好玩的题目
Y=0.5X,Y和X是相关还是因果?相关
Y=0.5X+0.5Z,Y和X是相关还是因果?相关
(以上信息均不足以判断因果关系)
好玩的题目
二战期间,对幸存回来的飞机进行中弹部位分析,发现机翼中弹很多,认为飞机的被击落率和机翼的强固程度有关。
无相关!!!
幸存者偏差!!!
下面是幸存者偏差的一个实际应用:
实际应用题目
改进产品的重要参考
用户画像分析对象:活跃用户(可以分析,但不是重点,改成什么样子都会继续用)、流失的用户(重点)
流失的用户:他们从哪个点开始离开产品的,从哪个地方转化就不再进入下一步了
聚类:
将相似的对象通过一些算法划为不同的类别(组内相似度高,组间相异度低)
考察点:
未知分类的数量
只知道分类的特征/规则
业务应用场景:
个性化推荐(可能出现因为某人短期行为的差异导致的错误聚类)
用户画像(年龄分段占比计算过程中不知道具体的数量和年龄起止范围)
特征工程(标签提取,文本特征提取主题词/概念词——余弦夹角的相似性——标记系统的文章【万字长文】【五】知乎独家发布 | 标签系统:大数据的典型应用)
算法:
k-means
分类:
在已有分类标准下,对新数据进行划分
分类算法中存在被抛弃的样本,当被抛弃的样本占比很高,你要重新调整你的分类特征。
考察点:
分类是明确的:类别的个数是确定的,类别的特征是固定的
算法:
逻辑回归
SVM
决策树
概念:
评估两个或者多个变量之间是否相关,以及相关性的方向与强度,同时建立数学模型以定量地去评估。
在样本或者总体中找到最合适的一条平均线,让群体的分布尽可能在回归线的附近分布均匀
业务应用场景:
绝大部分的运营场景都会用到。
1)优惠券的优惠力度对促活跃的效果
2)运营推广中,是不是花的钱越多,买的流量越大,品类越丰富,用户活跃越高,用户留存越高
那么,多到什么程度、大到什么程度、丰富到什么程度,用户的活跃最高,留存最高
智慧城市的交通,预测交通拥塞程度
自变量:时间段、商业指数、住宅指数、城区指数、道路指数
因变量:两个连续信号灯之间道路的通行时间
算法:
线性回归
什么是线性:函数的导数是常数(稳定的)
怎么评估回归的效果:
评估回归的指标?
R2>0.4,拟合效果好,该指标不达标则重新对数据进行分析寻找适合的模型。
R2取值[0,1],决定系数,用x变量进行解释的y变量的变异百分数。
逻辑和原理:
江山易改本性难移
Science 19 February 2010: DOI: 10.1126/science.1177170
Limits of Predictability in Human Mobility
93%的人类行为可预测
EXCEL(2016年版本以上)中基于时间序列分析预测的方法是什么:
指数平滑(“预测数据表”——三指数平滑算法)
即,想要预测未来3个周期,只需要选取历史上10-15个周期即可。
这个算法的核心特点是:
对不同周期的数据进行加权,离现在越近的数据权重越高,离现在越远的数据权重越低(离得远的数据影响作用越低,加进来反而会产生噪声)
业务应用场景:
年度KPI预测
时间序列分析需要注意哪些内容:
1.时间是有间隔的
周期性(季节性,一天中的时段分析)
2.回归预测与时间序列预测的区别
回归:
自变量对因变量的趋势预测,自变量可以是任何数据,包括时间。
不能做季节性的预测。
时间序列:
仅仅考察时间对因变量的影响。
可以做季节性的预测。
了解数据分析整个过程的核心点
产品/需求
↓
整理寻找问题点
↓
描述性统计观察数据表象
↓
标注变化
↓
多维分析
↓
(多指标)交叉分析
↓
预测趋势
↓
生成(一个运营或者产品的)策略
↓
推动落地
↓
复盘效果
基本输出:
数据报告、用户画像
升级:
数据分析落地到业务中执行→跟进执行的效果→执行效果复盘→闭环迭代上升
个人成长关键:
形成个人的数据分析流程并且形成闭环
指标的变化(例如,日活下降),你会怎么分析
为什么这么做,告诉我你的思路和理由
描述性统计:下跌了多少?
观察变化:同比?环比?
评估变化/方差分析:跌幅是否在合理范围?
交叉分析/相关性分析:有哪些指标可能和日活下跌有关系,有关系到什么程度?
业务分析:这些指标的运营部门?他们是否有某些运营策略或者活动对造成了这些指标的变化,间接导致日活下跌
回归分析/预测:还会跌几天?跌幅最坏去到什么程度
风险/损失评估:日活下跌对产品的核心kpi有什么影响
制定策略:如何挽回损失/如何下次避免
上述问题在面试快手运营部数据分析实习生的时候有相似的问题:
现在告诉你抖音美食垂类下的视频在近一个月出现下降,你会怎么分析这个问题?
我的回答:从内部原因(自身产品运营推广角度)、外部原因(竞争对手与市场政策角度)的角度分析在数据下降时点都出现了什么变化。
反思与面试官的提示
在问问题之前面试官曾经提到过抖音的用户分为两类,一类是内容产出者,一类是内容观看者。
(1)听到我的解答后,她提供了一个思路,可以从内容产出者和内容观看者角度对美食垂类的数据下降问题进行思考,是产出的内容有问题?还是观看者对这一时段产出的内容不感兴趣?
(2)同时她指出,拿到一个问题,首先问问自己,得出下降多少之后,可以通过同比/环比等手段进行比较,比较的对象可以是美食垂类或者是其他垂类,在时间维度上也需要有相应的考虑,去判断这个数据到底是不是真正的下降。(也就是说,可能同一时期各个垂类播放量均有不同程度的下降,或者往年同期播放量均有不同程度的下降,即数据的下降是一个普遍现象。)
注册类指标和活跃类指标,你更看重哪一个?
为什么这么做?告诉我你的思路和理由。
北极星指标:评估标准/未来产品发展的大方向
虚荣指标:大部分累计的(只见涨不见跌)指标
产品上线初期:我要用户,更看重虚荣指标
产品过了种子期:看活跃和留存(流量是活跃用户可以用的)
指标
反映业务特征,有业务意义
通过指标反映业务的变化
指标类型
业务类型(表现指标属于哪一个业务模块——行为指标/业务指标/交易指标):
日活:每天打开APP的用户数(业务口径);SQL代码(技术口径)
技术类型
指标一定会关联到维度
例如,日活就会关联到“时间”这个维度
指标是有更新频率的
工程领域指标的生成是有周期的,用t+x来表现
多数互联网公司的指标更新是t+1或者是t+0.5来表现(需要0.5天或者1天对应指标可以生成,今天只能看到昨天或者半天之前的数据)
指标体系
将指标结合起来,具有严格的逻辑和分层(上层指标由下层指标计算得来,越往上越属于战略性的指标,如用户体验指数)
建立方法
从上至下:顶层战略指标/KPI逐步细拆
从下至上:原子指标加减乘除向上汇总
按业务分解
我在面试VIPKID中有遇到与指标相关的问题:
如果让你设计一个指标来衡量百度搜索的用户体验,你会如何设计这个指标?
下面是知乎中相关的答疑解惑汇总:
一
每个数据指标的设计都要涉及对商业场景的理解和熟悉的过程,从每个数据指标开始去熟悉业务痛点。
一个好的数据指标应该符合的特性:
准确性、有效性、周期性、可实现性
数据指标的核心是服务于商业的,数据指标的统计是有逻辑的。
二
写的特别好——如何建立数据指标体系
指标/度量:目前同义,tableau中度量就是表字段的聚合值,也就是指标
维度:是描述指标的角度
语文:维度是定语,指标是主语/宾语
下图的维度是:时间、地域、产品、业务
上卷和下钻对应的是维度,分析的是指标,但是指标和维度之间常常会发生关联
主题
主题是与传统数据库的面向应用相对应的,是一个抽象概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。
每一个主题对应一个宏观的分析领域。
在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。
面向主题的数据组织方式, 就是在较高层次上对分析对象数据的一个完整并且一致的描 述,能刻画各个分析对象所涉及的企业各项数据,以及数据之间的联系。所谓较高层次是相 对面向应用的数据组织方式而言的, 是指按照主题进行数据组织的方式具有更高的数据抽象 级别。 与传统数据库面向应用进行数据组织的特点相对应, 数据仓库中的数据是面向主题进行组织的。主题是根据分析的要求来确定的。这与按照数据处理或应用的要求来组织数据是不同的。
主题域
主题域通常是联系较为紧密的数据主题的集合。可以根据业务的关注点,将这些数据主题划分到不同的主题域。主题域的确定必须由最终用户和数据仓库的设计人员共同完成。
北极星指标:评估标准/未来产品发展的大方向
虚荣指标:大部分累计的(只见涨不见跌)指标