大数据产业创新服务媒体
——聚焦数据 · 改变商业
作者介绍
望京东路@赵壮实;
中文系叛徒,数据界信徒;
持续写《数据驱动业务增长》的系列文章,欢迎关注;
Hi,艾瑞巴蒂,我是你的怪力少女——赵壮实!
相信你在看完《5分钟教你get数据指标体系》后,已经对「数据指标体系」有了基本的认识。接下来我们将进入实战实践环节,你准备好了吗?
周会上给boss 做数据统计只是脱发的起点,但是该怎么分析数据上涨、下跌的原因,做出改进方案并进行效果评估呢——这才是头秃的终点。
在数据的监测过程中,我们常常会发现指标数据陡升或是陡降的现象。那么,如何辨别数据涨跌属于异常?怎么分析数据涨跌背后的原因?
来吧,今天让你一顿瞎几把分析也有理有据。
如何识别和确认数据异常
问:分析数据涨跌现象时,分几步?
统计?定框架?分析?
No!No!No!
第一步,我们要先需要确认数据是否存在问题,如数据服务、数据上报或是数据统计上是否存在BUG。所以,在分析数据涨跌原因前,我们要先和技术同事确认是否存在以上问题。(失败不一定是成功之母,大坑绝对是失败之母)
第二步,我们需要判断数据涨跌是否在正常波动范围之内。一般情况下,有两种方法判断,一种是经验法,还有另一种是概率统计法。前者比较常用,后者比较专业,可供有统计学基础的同学使用。
1.经验法
经验法分为两个步骤:
总体检测,总规模、均值等指标,环比同期值、同比值变化阈值是否在合理范围内;
抽样检测,随机抽样样本,和真实值进行一一对比,看两者是否有差异,从而判断数据是否有问题,如果数据没有问题,数据背后业务上面肯定有原因导致数据源的波动过大。
经验法的应用主要取决于分析人员的数据敏感度以及业务能力。
2.概率统计法
数据判定异常,在统计学中,有一个理论基础:假设指标服从均值为μ和标准差为δ的正态分布,μ-3σ和μ+3σ就是异常点,我们叫它们「3倍标准差下的异常点」,且处于(负无穷大, μ-3σ] 和[μ+3σ, 正无穷)范围的概率为0.27%。
所以,我们规定数据落在3倍标准差(3σ)之内是属于正常波动,那么当某一指标值落在3σ之外则属于异常值。
Tips:
标准差(Standard Deviation),在概率统计中是作为统计数据分布程度的测量值。标准差定义是总体各单位标准值与其平均数离差平方的算术平均数的平方根。通常情况下,它反映组内个体间的离散程度。
简单来说,标准差是一组数据平均值分散程度的一种度量。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。
如何分析数据涨跌异常背后原因
不可否认,分析数据涨跌异常是一个“硬功夫”,这需要具备较高数据敏感度。行业大神可以凭借数据分析sense和经验一下子眼光毒辣地看出影响数据涨跌的原因;有的同学凭借较好的逻辑,也可以在数据自身的相对关系中发现异常的原因。
没有天赋的笨小孩,就只能在实践过程中,完善自己分析的框架和角度了。
2.1下沉分析法
下沉分析法是一个常见的思考方法,即当发现某一指标数据出现异常时,对于指标进行拆解。如:
内容点击量下降:
文章点击量=活跃用户量*文章点击率*人均点击次数(文章点击率=文章点击用户量/活跃用户量)
文章点击量=入口A带来的点击量+入口B带来的点击量+入口C带来的点击量
某个用户群下降:
DAU=DNU+昨日的次日留存用户数+前N日的N日回流用户数(N>=2)
用户数=来源A的用户数+来源B的用户数+来源C的用户数
收入下降:
收入=活跃用户*付费渗透率*付费ARPPU(ARPPU是指每付费用户的平均收益);
收入=小R的总付费金额+中R的总付费金额+大R的总付费金额;
我们举个简单的栗子:
某一日,我们发现文章点击量下降。
开始分析:
因为我们没有版本迭代和新功能上线,可以尝试一下这个维度:
文章点击量=活跃用户*文章点击率*人均点击次数
先观察一下「文章点击率」和「人均点击次数」的变化,分析得出,从「文章点击率」和「人均点击次数」来看,同期并未下降,所以二者保持着比较稳定的关系和状态。
再观察一下「文章点击量」和「活跃用户」变化,我们发现两者在同时下降,所以文章点击量的降低的问题就转化成为了活跃用户降低的问题。
2.2多维度综合分析法
有些数据陡降原因不太容易明确,需要我们进行多维度综合分析。这就要考虑到影响指标数据的方方面面,包括内外部的各种因素。那么如何进行体系化的思考,是一个技术活儿。
壮实在这里提供一个思考方式,如下方的表格中,包括横向的自身、竞对和大环境三个角度,纵向的产品、技术、用户与运营四个角度。当数据异常时,我们可以通过观察下降的特点,分析可能影响因素,例如自身产品版本更新、自身运营活动、竞对功能变更等。通过这些思考框架,可以帮助我们更全面的挖掘数据异常背后的原因。
思考框架示例:(其中举了可能遇到的情况供大家参考)
自身 |
竞对 |
大环境 |
|
产品 |
新版本 |
功能变更 |
替代产品出现 |
技术 |
接口不稳定 |
系统故障 |
DNS瘫痪 |
用户 |
用户成长 |
用户成长 |
淡旺季 |
运营 |
运营活动 |
运营活动 |
我们以这个方式继续思考上面例子:
文章点击量下降了,是什么原因呢?假设竞对和大环境没有任何异动,是来自于自身因素的影响。
那么可能存在的问题如下:
新版本上线问题
下降特点:文章点击量突然下降。
分析可能原因:新版本上线后,如果是活跃用户下降,要查询分版本的活跃用户。如果文章点击率下降,则是要考虑分版本的文章点击率情况。
资源投放策略失效
下降特点:文章点击量呈非周期性下降,缓降和陡降都有可能,这可能与资源投放的策略失效有关。
分析可能原因:可以查看是否是资源投放的问题,如PUSH、红点、banner位的投放策略失效、推荐算法优化失败。
产品体验不佳:
原因推测:文章点击量一直缓降。
分析可能原因:这一原因很难从数据上直接推导出就是「产品体验不佳」导致用户慢慢流失或者粘性降低,这通常是分析了所有猜测的原因之后用排除法来确定的。确定是体验不佳就要分析清楚以下2个问题:①哪个模块体验不好?②体验不好影响的是哪个用户群?
通过将下降的指标分“新用户\老用户”、分”高活跃\低活跃”等维度进行横向和纵向对比,如:新用户的点击量比老用户的点击量下降更快,就说明文章对新增用户的吸引力不够,产品策略上需要对新用户采取一些激励活动,页面需要针对新增用户进行差异化设计。
2.3 定性研究
除此之外,单纯的定量研究可能不完全解答数据陡升或是陡降的原因,我们可以采取「定性研究」,如用户深度访谈法、小组座谈会等形式来找到原因。比如某办公型产品的DAU在每周四都会到达周峰值,但是在上述多维度综合分析当中并没有发现显著性归因,经过定性研究,原来,用户习惯在每周四做周报时,使用该产品提供的服务协助办公。
好滴,不知不觉,我们又要一周一会地说再见啦。相信你已经和壮实建立起了「表面兄弟」的情谊,所以,作为兄弟的我,有两句话还是讲讲:
在分析数据涨跌异动的原因时,对于简单的问题,依赖指标涨跌的特点可以快速定位问题原因;而对于复杂的问题,依赖指标涨跌的特点只能排除掉不可能的原因,而真正变化的原因可能不是单一的,是上述原因的结合体,需要具体问题具体对待。
好啦,今天先到这里,白了个白~
2019数据猿年度榜单:
●2019大数据产业趋势人物榜TOP 10
●2019大数据产业创新服务企业榜TOP 15
●2019大数据产业创新服务产品榜TOP 40
2020年度榜单,尽情期待!
—— / END / ——
好书推荐
︾
数据猿公益策划榜
#榜样的力量#
《新冠战“疫”——中国数据智能产业最具社会责任感企业》榜