数据异常是每个数据分析师最常见的工作之一,大部分人缺乏方法论,排查起来没有方向感和层次感,这里看看,那里看看,非常耽误时间,可能最后也没有结果。所以,需要认真去制定一套标准化流程去做这件事。
数据异常主要表现在两个方面,一是数据本身有问题,二是业务本身有问题。
数据异常排查的标准化流程:
一、前期准备
1、业务理解。我们知道,所有离开业务谈数据都是耍流氓。比如某个APP的DAU1000万,这个DAU是什么意思?是进程还在,还是打开APP,还是要有主动行为?这几个都是不一样的。
2、指标口径。数据分析师是负责口径的第一人。比如某个APP的DAU1000万,这个DAU是安卓计算还是苹果计算,是imac计算还是手机号码计算
3、当前数据产出过程。数据全链路需要搞清楚。比如某个APP的DAU1000万,这个数据是通过哪些报表,经过哪些清洗得到的?
二、方法论
1、判断是否异常:根据正确的业务理解,判断别人说的异常是否是真的异常。
(1)一定要亲自去看所谓的数据异常是否是真实的异常,不要业务方说异常就去排查。要亲自去看数据准确性,业务方不一定专业。
(2)将报表的时间轴拉长,看是近期异常(3个月)还是历史异常。单纯一周或者一个月的低谷或者高峰不一定是异常,可能是周期性事件。
(3)看和该指标关联的其他指标或者其他核心指标是否也异常。如有异常,应该一同解决。
(4)找到一个关键人物(产品/数据),提前沟通一下。提前沟通可以得知一些经验的东西
2、最大概率法则归类:就那么几种原因,所以要沉淀,按照概率一项一项排查。
(1)假期效应:开学季、暑假、四大节(春节、清明节、端午节、中秋节)、当地节日
(2)热点事件:常规热点如世界杯、突发热点如某爆款IP
(3)活动影响:双11,618,公司层面的活动
(4)政策影响:互联网金融监管、快递行业实名等
(5)底层系统故障:数据传输、存储、清洗有无问题
(6)统计口径:业务逻辑更改、指标计算方式更改
3、闭环:只有后期得到验证才能说明整个过程没有问题。
(1)持续跟踪后期数据是否再次异常:确定前期排查的原因是否是正确的,给出建议之后问题有没有解决
(2)记录、沉淀、文档化:异常排查是非常重视经验的,所以整个排查过程,需要沉淀成文档,方便以后的快速找出异常原因。
(3)邮件化:只有确认了没有问题再邮件,描述影响范围和主要结论即可。
三、案例
某APP的主要用户再东南亚地区,某日DAU突然涨到5000万,与历史数据相比明显异常,问了一圈内部人员后,发现数据采集、传输、活动、业务口径、常规热点都没有变化。
对照原因归类法则:只有突发热点某爆款IP没有排查,因此进一步深挖。最后发现是一位国宝级的女明星去世,带来大量访问,于是公司紧急调用运营资源,对该女明星的去世事件进行深度剖析,发酵,养成用户口碑,使整体的DAU在短期内提高了10%
通过数据异常、找到新增长点(使用运营手段去运营,提高整个DAU提高了10%)