live:https://www.zhihu.com/lives/1106201906455805952?utm_source=wechat_session&utm_medium=social&utm_oi=652151999211114496
补充参考:https://blog.csdn.net/Seal_Wings/java/article/details/103207174
聊什么:
1.逻辑和统计学基础知识
2.数据分析的思路
3.数据分析的技能
4.实战案例
5.几个好玩的问题
不聊什么:
1.算法细节
2.分析软件/工具操作
3.某行业的具体案例
1.逻辑和统计学基础知识
(1)什么是描述性统计?(难度2,区分度3)
我:通过看数据的集中程度和离散程度,比如均值、方差、分布等情况来描述一个数据的特点
磊叔:描述样本或总体的基本情况的统计方法。 基本情况:表象,事实。
一般包括平均数,众数,中位数,方差,偏度,峰度,IQR。
平均数有哪几类?
几何平均数、加权平均数、算数平均数
如A、B(两个数度)的算术平均值知为 (A+B)/2 ,几何平均值 √(AB) ,
加权平道均值 (k1A+k2B)/(k1+k2) ----- k为权版重系数
A、B、C(两个数)的算术平权均值为 (A+B+C)/3 ,几何平均值 ³√(ABC) ---- 开3次方,
加权平均值 (k1A+k2B+k3C)/(k1+k2+k3)加权平均数的前提?
标准化。app的用户有很多指标,算成一起给出一总的分数。多指标进行权重分配后算出一个总分数。什么是标准化,为什么标准化?
目的,不同的数据的基准拉到同一个基准。比如高考分数的分值系统不同加权。播放完成率,播放几分钟时间,播放次数。z值
【补充特征缩放
当我们需要将特征值都归一化为某个范围[a,b]时,选MinMaxScaler
当我们需要归一化后的特征值均值为0,标准差为1,选StandardScaler
】
标准化的方法:求z值,首先减去平均值(所以标准化值的均值总是零),然后除以标准差,从而使得结果的分布具备单位方差。【平均值和标准差可以选择样本统计量或者是总体参数】
数据预处理之异常值处理
- 怎么评估 365天每天的日活,多少算异常?
为什么做异常?
异常会大程度影响
异常判断
IQR=Q3-Q1,Q1-1.5IQR Q3+1.5IQR 1.3或者1.5都可以
(2)什么是同比?什么是环比?(难度2,区分度3)
我:同比:这个月比去年同期这个月。
环比:这个月比上个月。
磊叔:核心:是否连续。
同比:对同期的一个统计段进行对比。不连续的。今天和前天,今天和上周,2019的5月和2018年的5月。
环比:相连续的上一个统计周期进行对比。连续的,今天和昨天,五月份和四月份,2019和2018.
2019的1月的月活,2018的12月的月活?
环比。
同比之前一般会加限定词。2019年5月的月活与2018年5月的同比。
如果是环比,可以直说2019年1月环比提高了多少。
(3.1)相关和因果有什么区别和联系?举例(难度:3,区分度:4)
我:相关是说两个事物有关联,可能通过皮尔森系数等等可以计算出相关性的多少。因果说的是a可以推出b,有逻辑上的推进关系。相关不一定是因果,因果一定是有相关。a与b相关,可能是a推出b因果,b推出a因果,a和b都跟c有关(比如天气热,买空调的和去游泳队的人都多),或者就是纯粹的巧合(萧敬腾和下雨,这个我瞎说的,就是算出相关但其实应该没啥关系)。
我这个还漏了一个互为因果。
磊叔:相关:两个或多个变量的相互影响程度。核心:变量之间是互为相关,没有先后顺序。
因果:前一个事件对后一个事件作用的关系和强度。核心:有严格的先后顺序。
相关没有先后顺序,因果有严格的先后顺序。
蝴蝶效应:相关性,其他因素也会造成海啸
活跃用户越高,注册用户越多
注册用户越多,活跃用户越高
——均没有严格的相关性???
(3.2)excel的相关性分析,输出的是哪种相关系数?(难度1,区分度5)
皮尔森person相关系数。
(3.3)相关性分析的前提?(难度2,区分度3)
前提是:相互独立。
但是工程中,注册、活跃之类的要相互独立,没有影响的,才可以做皮尔森的相关性分析。
如果A和B相关,会有以下几个推论:
A导致B:充分条件
B导致A:必要条件
C导致A和B:a和b同源,人话就是都有同一个老爸
A和B互为因果:充分且必要
小样本引起的巧合:纯属天上掉馅饼
(3.4)person多少是强相关
我:0-0.2弱,0.2-0.6中,0.6-0.8强相关(我怎么觉得我也是对的。。。)
磊叔:>0.5强相关,<0.05或者0.1弱相关。这是理论。实际要再看的。
好玩的题目
Y=0.5X,Y和X是相关还是因果?
Y=0.5X+0.5Z,Y和X是相关还是因果
都是相关,因为缺失信息,因果要知道x先于y发生。
二战期间,对幸存回来的飞机进行中弹部位分析,发现机翼中弹很多,认为飞机的被击落率和机翼的强固程度有关?
无相关,幸存者偏差。要看回不来的飞机中弹如何。
微信月活日活很不错了,想提高,如果研究活跃用户的用户画像是不对的。
因为死忠粉会一直用
要看流失用户为什么流失,从哪些点离开app的
(4)什么是聚类/分类?业务应用场景,常见算法?(难度3,区分度2)
我:聚类是无监督学习,做的探索性分析,把输入根据不同的聚类规则聚成不同的类别,类别可以定不同。业务场景,想探索一下顾客的类型,做针对运营。常用kmeans,dbscan等
分类,监督学习,已知标签样本,已知分成几类。业务场景,已知一系列输入和部分标签,通过学习可以分类剩下的部分。常用决策树,svm,逻辑回归等等。
磊叔考察点在于:自己的理解。
聚类:把相似的化为类别。未知分类的数量,仅制定分类特征
自己定规则。eg用户画像,用户年龄分段的占比,由聚类自动输出的。
例如:今天参加磊叔Live的同志们,我不知道你们的性别,但我想对性别进行聚类。磊叔就定了几个特征:男生有喉结,女生留长发,就按照这个特征去聚类。发现聚出来有三个类:
男、女、其他(无喉结也无长发)
聚类的业务应用?
1)用户画像中的年龄段分布:未知年龄段的数量,也不知道每个年龄段的范围
2)内容特征工程:内容提取出来的标签,会根据标签和标签之间的相似度来生成上一级的主题词/概念词分类(今日头条、UC头条之类的内容分发平台的内容分类体系,参考我的万字长文,标签系统)
kmeans,设定k类别。计算相似性,离中心点的平均距离。
分类:数目和特征都明确,会出现样本被抛弃(比如第三类别),如果比重太高,调整。
(5.1)什么是回归regression?业务应用场景?常见回归算法?(难2,区1)
回归就是预测值为连续变量的监督学习。预测房价之类。gbdt,随机森林,svr,决策树,神经网络,时间序列。
磊叔:
人话1:我和你有没有关系?有关系的话是什么关系?关系深到什么程度。顺便写个方程式来“定量”描述。
植物的抗病性,高抗病性的父代不一定产下高抗病性的子代,并不拔尖的高,但是比平均值还是高一些,低抗病性的父代也不一定产下低抗病性的子代,并不垫底的低,但是比平均值低一点,经过几代的繁殖,整个群体的抗病性都差不多;总是往群体的平均值上走。
也就是回归分析在群体中找到一条最合适的平均线,让整个群体在这条线的上下分布的尽量均匀。
这个就是回归分析。高的和低的都会往统一的一个值靠近。
回归绝大部分的运营场景都会用到。
1)优惠券的优惠力度对促活跃的效果
2)运营推广中,是不是花的钱越多,买的流量越大,品类越丰富,用户活跃越高,用户留存越高
那么,多到什么程度、大到什么程度、丰富到什么程度,用户的活跃最高,留存最高
多因素相关性分析
智慧城市的交通,预测交通拥塞程度
自变量:时间段、商业指数、住宅指数、城区指数、道路指数
应变量:两个连续信号灯之间道路的通行时间
什么是线性?
磊叔:导数为常数。咳嗽一声哭两小时,线性关系稳定。
(5.2)评估回归算法的指标?(难3,区3)
我:r2,rmse,mape,mae
磊叔:评估回归的指标? R^2>0.4,拟合效果好
(6)时间序列分析
(6.1)时间序列分析的核心逻辑和原理?
我:根据历史数据的趋势,预测未来的数据。
磊叔:逻辑和原理
八个字:江山易改,本性难移
Science 19 February 2010: DOI: 10.1126/science.1177170
Limits of Predictability in Human Mobility
93%的人类行为可预测
(6.2)excel中基于时间序列预测的算法是什么?
我:不知道,可能是指数平滑/arima
磊叔:指数平滑,2016版本以上。
(6.3)算法的核心特点是什么?
我:仅考虑过去的时间数据,没有其他维度。
磊叔:指数平滑:对不同周期的数据进行加权。离现在越近的数据权重越高,离现在越远的数据权重越低。三指数平滑,预测2019的kpi只需要近几年,如果预测3个周期,选取历史的10-15周期即可,多了反而噪音多。
(6.4)时间序列预测要注意的是什么
我:平稳性检测,季节特性
磊叔:1.时间是有间隔的 周期性(季节性,一天中的时段分析)
2.回归预测与时间序列预测的区别
回归:
自变量对因变量的趋势预测,自变量可以是任何数据,包括时间。
不能做季节性的预测。
时间序列:
仅仅考察时间对因变量的影响。
可以做季节性的预测。
时间序列分析的基础概念,怎么用的
应用场景:年度kpi预测。基于历史数据,用时间序列来分析
2.数据分析的思路
(1)数据分析的流程?(难1,区分度5)
我:需求理解,数据获取,数据清洗,特征工程,建模,分析验证。
如果是纯分析,那就是指标选取,假设严重/多维度深挖。
第一点:需求分析,有时候一个东西并不值得分析,要看分析背后的诉求是什么,不要被表象蒙蔽。比如某人叫你做一个用户画像,其实本质他背后可能是想看新渠道的用户质量如何,可能是需要跟某些渠道做一些比对,而不需要盲目的马上去做画像吃力不讨好。
磊叔:
(2)数据分析如何体现价值?你怎么做(难1,区分度5)
理解业务,推进业务。不一定是很厉害的方法,但是恰到好处。。。等等
磊叔:参考回答:观察表象,标注变化,多维分析,交叉分析,预测趋势,生成策略,推动落地,跟进执行,复盘效果。
取数是被动的。建立自己的数学分析的流程,主动发现问题。
比如发现日活跌了,什么问题,损失是什么,推动去做,你做的好还是不好,一起复盘提供更好的。
要生成策略,必须要落地业务,同时推动业务切实执行,并跟进执行效果,复盘效果,即必须!必须!闭环
(3)指标的变化(例如日活跌了),你会如何分析
为什么这么做,告诉我你的思路和缘由。
我:先确认数据的准确性。跌了多少。是不是合理。
然后两层分析,外部因素pest,内部因素,可以从人货场,或者拆新老客,手机型号,渠道,等方面来拆。然后计算下降比例最大的是哪个。再细拆。
跟产品、运营、技术沟通,问题在哪里。
重要
磊叔:
- 描述性统计:下跌了多少?
- 观察变化:同比?环比?
- 评估变化/方差分析:跌幅是否在合理范围?
- 交叉分析/相关性分析:有哪些指标可能和日活下跌有关系,有关系到什么程度?
- 业务分析:这些指标的运营部门?他们是否有某些运营策略或者活动对造成了这些指标的变化,间接导致日活下跌
- 回归分析/预测:还会跌几天?跌幅最坏去到什么程度
- 风险/损失评估:日活下跌对产品的核心kpi有什么影响
- 制定策略:如何挽回损失/如何下次避免
上述问题在面试快手运营部数据分析实习生的时候有相似的问题:
现在告诉你抖音美食垂类下的视频在近一个月出现下降,你会怎么分析这个问题?
我的回答:从内部原因(自身产品运营推广角度)、外部原因(竞争对手与市场政策角度)的角度分析在数据下降时点都出现了什么变化。
反思与面试官的提示
在问问题之前面试官曾经提到过抖音的用户分为两类,一类是内容产出者,一类是内容观看者。
(1)听到我的解答后,她提供了一个思路,可以从内容产出者和内容观看者角度对美食垂类的数据下降问题进行思考,是产出的内容有问题?还是观看者对这一时段产出的内容不感兴趣?
(2)同时她指出,拿到一个问题,首先问问自己,得出下降多少之后,可以通过同比/环比等手段进行比较,比较的对象可以是美食垂类或者是其他垂类,在时间维度上也需要有相应的考虑,去判断这个数据到底是不是真正的下降。(也就是说,可能同一时期各个垂类播放量均有不同程度的下降,或者往年同期播放量均有不同程度的下降,即数据的下降是一个普遍现象。)
————————————————
版权声明:本文为CSDN博主「Seal_Wings」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/Seal_Wings/java/article/details/103207174
(4)注册类和活跃类指标,你会看哪个,理由。
我:要看企业目前的目标是什么,是希望有更多的人进来,还是希望活跃的人多。
对于一个新开始的app,早期可能会关注注册用户,希望有更多人知道这个app。但是与此同时,人进来如果留不住其实也没有用,这个指标是虚荣的。
那一般来说,从流程来说,注册就是获客,然后促活,留存,消费转化,转介绍。
那活跃指标一般来说价值会更大一些,因为即使很多人注册了, 但是都是僵尸粉的用处也不是很大。
磊叔:okr的k就是北极星指标。直接回答哪个一般就直接kill了
注册:只见涨不见跌。
考察北极星指标和虚荣指标。
北极星指标:评估标准/未来产品发展的大方向
虚荣指标:大部分累计的(只见涨不见跌)指标
产品上线初期:我要用户,更看重虚荣指标
产品过了种子期:看活跃和留存(流量是活跃用户可以用的)
3.数据分析的技能
我:指标是用来量化业务的水平,从数据的方式可以看到策略或者产品的效果的,也是kpi考核的指标。组成部分怎么说?可能会分aarrr获客的阶段有不同的指标,也要根据公司目前的经营来确定。业务应用的场景,就是你需要制定年度的kpi,那需要敲定最重要的指标之类的。
指标体系大概是aarrr这种,或者是针对比如快手中的生产者消费者有不同体系。
指标比如日活
维度比如不同的渠道,新老客等等
度量的话,可能是不同的时间和。。。。,
北极星指标是最重要的,有高有低可以反应kpi的,虚荣就是看上去很厉害实际没有用,比如下载量只升不降,但高了也没有太高的指导意义。
磊叔:
(1)指标,反应业务特征和含义的,反应业务的变化。
业务类型,技术类型,行为指标/业务指标/行为指标。
1 什么是指标?组成部分?业务应用场景
指标
反映业务特征,有业务意义
通过指标反映业务的变化
指标类型
业务类型(表现指标属于哪一个业务模块——行为指标/业务指标/交易指标):
日活:每天打开APP的用户数(业务口径);SQL代码(技术口径)
技术类型
指标一定会关联到维度
例如,日活就会关联到“时间”这个维度
指标是有更新频率的
工程领域指标的生成是有周期的,用t+x来表现
多数互联网公司的指标更新是t+1或者是t+0.5来表现(需要0.5天或者1天对应指标可以生成,今天只能看到昨天或者半天之前的数据)
2 什么是指标体系?如何建立的?业务应用的场景
指标体系
将指标结合起来,具有严格的逻辑和分层(上层指标由下层指标计算得来,越往上越属于战略性的指标,如用户体验指数)
建立方法
从上至下:顶层战略指标/KPI逐步细拆
从下至上:原子指标加减乘除向上汇总
按业务分解
我在面试VIPKID中有遇到与指标相关的问题:
如果让你设计一个指标来衡量百度搜索的用户体验,你会如何设计这个指标?
下面是知乎中相关的答疑解惑汇总:
一
每个数据指标的设计都要涉及对商业场景的理解和熟悉的过程,从每个数据指标开始去熟悉业务痛点。
一个好的数据指标应该符合的特性:
准确性、有效性、周期性、可实现性
数据指标的核心是服务于商业的,数据指标的统计是有逻辑的。
二
写的特别好——如何建立数据指标体系
————————————————
版权声明:本文为CSDN博主「Seal_Wings」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/Seal_Wings/java/article/details/103207174
3 指标、维度和度量的区别和联系
指标/度量:目前同义,tableau中度量就是表字段的聚合值,也就是指标
维度:是描述指标的角度
语文:维度是定语,指标是主语/宾语
过去三年 广州地区 a产品的 月活增长率
下图的维度是:时间周期、地域、产品、业务
上卷和下钻对应的是维度,分析的是指标,但是指标和维度之间常常会发生关联
主题
主题是与传统数据库的面向应用相对应的,是一个抽象概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。
每一个主题对应一个宏观的分析领域。
在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。
面向主题的数据组织方式, 就是在较高层次上对分析对象数据的一个完整并且一致的描 述,能刻画各个分析对象所涉及的企业各项数据,以及数据之间的联系。所谓较高层次是相 对面向应用的数据组织方式而言的, 是指按照主题进行数据组织的方式具有更高的数据抽象 级别。 与传统数据库面向应用进行数据组织的特点相对应, 数据仓库中的数据是面向主题进行组织的。主题是根据分析的要求来确定的。这与按照数据处理或应用的要求来组织数据是不同的。
主题域
主题域通常是联系较为紧密的数据主题的集合。可以根据业务的关注点,将这些数据主题划分到不同的主题域。主题域的确定必须由最终用户和数据仓库的设计人员共同完成。
4 什么是北极星指标?什么是虚荣指标?
北极星指标:评估标准/未来产品发展的大方向
虚荣指标:大部分累计的(只见涨不见跌)指标
4.什么是abtest
磊叔:
核心逻辑:小样本,后验,随机,对比
基于小样本的后验方法,对样本随机提取后进行对比,通过对比选取最合理的方案。
业务应用场景
在网站和APP的设计、产品的运营中,经常会面临多个设计/运营方案的选择。小到按钮的位置、文案的内容、主题的颜色,再到注册表单的设计、不同的运营方案,都有不同的选择。A/B test可以帮助我们做出选择,消除客户体验(UX)设计中不同意见的争执。
注意的地方:
我:样本量选取够不够,是不是保证除了研究的条件以外其他都是不变的,
a和b的大小。
磊叔:A/B测试是多方案并行的,并不是传统认知上的A、B两种方案。
一个A/B测试只有一个变量,但是一个变量可以有很多值
比如只能动按钮的颜色,位置不动,颜色可以有七个版本。
描述A/B TEST的一些词:灰度、小流量、对照组、控制组
其中灰度就是小流量(先使用小样本进行实验)
5.什么是漏斗分析
我:比如一个产品流程或者网站页面或者获客流程,有步步递进的适合,人数转化率呈现漏斗的形状。可以通过分析每个环节的转换率,去找到哪个部分会下降。还可以看停留时间,
核心逻辑:步骤之间不漏??错
漏斗分析
评估连续业务流程的节点转化率
核心逻辑
连续业务节点
业务应用场景
下面图中红框里面的才是漏斗分析
注意的要点
-步骤一定是连续的
-步骤不要超过5步
-转化率不要小于1%
-两种转化率计算方法
每一步作为下一步的基线;第一步作为后续步骤的基线
除了看转化还要看流失
除了转化,还看页面停留时间
可能会被问
你是怎么用漏斗分析的/怎么理解漏斗分析的?
60分:看转化
80分:还要看流失
90分:每一步还要结合其他指标看,例如每步的停留时间
100分:看转化率的时间变化
120分:每步的用户画像变化
漏斗分析最常用的是转化率和流失率两个互补型指标