疫情爆发到现在,你是不是也跟我一样,每天起床都要点开丁香医生,看一下疫情最新情况?如此火爆的背后,更何况领导天天push我学习丁香医生的思路,该项目有没有借鉴性呢?以疫情地图为例,来讲讲数据分析师做项目的思路。
我将项目分析总结为五步法:数据收集、定义问题、数据清洗、数据分析、输出报告。今天我将对每一步进行业务上的拆解。
一、定义问题
分析的重中之重是定义问题。这个项目的需求是什么?想达到的效果是什么?
丁香医生想做一款实时更新疫情数据的产品,方便用户了解实时疫情动态。
那用户是谁?用户最关心什么?
丁香医生的用户是老百姓,咱老百姓最关心的呢,是今天又确诊多少人,疑似多少人,死亡多少人,以及治愈多少人,疫情是不是往好的方向发展……
依照《精益数据分析》提出的“第一关键指标法”,我们提炼出关键指标:确诊人数、疑似人数、死亡人数、治愈人数。
关键指标
同时,咱老百姓除了想知道整个疫情发展,也很关心自己城市的情况,因此将关键指标按省份、城市细分。疫情地图就包含了全国确诊人数热力图,各省、各市的关键指标。
各省份、城市关键指标
二、数据采集
数据真实可信是数据分析的前提。丁香医生的数据来源于国家卫健委、各省市卫健委、各省市政府、港澳台等官方渠道,来源权威。
咱们数据分析师日常怎么收集数据呢?
内部数据:天天需要。公司把数据存放在自家服务器或阿里云等第三方平台,通过SQL获取。
外部数据:也很重要,较难获取。可以用国家统计局、中国人民银行等公布的数据;使用第三方数据库,如万德、国泰安、锐思等数据库下载数据;或使用爬虫,爬到自己想要的数据。
三、数据清洗
数据清洗几乎占用数据分析师80%的时间。在这里,丁香医生主要涉及去重和口径一致。
(1)去重
上面收集来的数据,各个渠道会不会重复统计呢?比如国家卫健委、省卫健委和省政府公布的数据中,肯定有重复部分,需要我们去掉重复值。
丁香医生也曾重复统计过,导致新增确诊人数变多,不过很快纠正了。
(2)口径一致
报表上线后,口径变化是大忌。2月12日,确诊口径由单一核酸检测,新加入临床诊断,确诊人数大增,一下多了1万多人。
如果是数据分析师随意调整统计口径,那就要背锅走人了;如果是老板要改口径,数据分析师就得想想该怎么妥善处理了。
丁香医生是怎么做的呢?
当日确诊人数爆增,丁香医生用虚线表示增长,并且右上方备注“临床诊断病例的影响”。这样做既反映了真实情况,也解释了因统计口径变化,导致数据异常增长。
口径变化导致的激增
四、数据分析
数据收集和清洗是基本能力,数据分析才是核心竞争力。
我们在思考用什么指标来做分析时,可以参考《精益数据分析》里,关于“什么是好的数据指标”的总结:
好的数据指标是比较性的(较昨日、新增疑似、新增确诊……);
好的数据指标是简单易懂的(确诊、死亡、治愈……);
好的数据指标是一个比率(病死率=死亡人数/确诊人数、治愈率=治愈人数/确诊人数);
好的数据指标会改变行为(通过新增确诊走势,了解疫情是否正在缓解,指定方针)。
由于丁香医生疫情地图产品,只向大家展现客观数据,没有输出具体的主观结论。但我们仍然可以根据丁香医生的指标的和图表,对疫情发展情况作出判断。
1. 趋势变化
由新增趋势图,可以看到,新增确诊病例在2月12日修改统计口径后,逐渐下降,新增疑似病例在2月5日后逐渐下降。
由现存疑似、确诊趋势图,可以看到,现存确诊病例从1月19日-2月12日,呈陡峭的直线上升,在2月16日到达峰值以后,逐渐下降,现存疑似在2月8日到达峰值后逐渐下降。
全国疫情新增、现存趋势图
因为湖北是最严重的受灾区,会严重拉高其他省市的数据,因此需要特殊对待。
湖北新增确诊病例2月12日暴增1.5万以后,逐渐下跌,最近几日都维持在新增400人的水平,非湖北新增确诊病例在2月3日之前剧烈增长,2月3日武汉及周边城市封城、大家不外出聚集以后,逐渐下降,最近几日维持在两位数甚至个位数。
湖北、非湖北新增趋势图
2. 比率
知道了每天的新增情况,咱老百姓还关心,这个新型冠状肺炎厉不厉害,死亡率高不高啊?
丁香医生针对这一需求,又设计了病死率趋势图和治愈率趋势图。同样由于湖北是集中爆发区,将湖北和非湖北分别对待。
病死率、治愈率趋势图
五、输出报告
终于到了输出环节,丁香医生最新的版本做得非常好,我们以后做可视化产品时,完全可以借鉴板块的划分。
全国关键指标、较昨日变化情况、分省市统计关键指标、变化趋势、病死率和治愈率等。老百姓关注的点几乎都涵盖在里面。
丁香医生疫情地图版本也是一步步迭代来,我们来看一下修改前,和修改后的对比图。
修改前后对比图1,增加了更多指标和环比数据
初版地图,只有当日累计数值,修改后增加了“较昨日”的变化数据;初版只包含确诊、疑似、死亡和治愈4个指标,修改后增加了现存确诊、现存疑似、现存重症等指标。
修改前后对比图2,数据表格化,维度进一步细分
修改前,按省份的关键指标没有细分到城市,我们其实更关心自己城市的数据。修改后采用折叠的形式,阅读舒适度非常好。
修改前后对比图3,不同数量级指标分图展示
初版将确诊、疑似、死亡和治愈放到一起,由于确诊和死亡人数不在一个数量级,导致死亡人数的趋势无法直观表达出来,修改后将新增、现存、死亡和治愈分别列出,更能各自反映变化趋势。
报告首先呈现的一定是大家最关心的结论(确诊、疑似、死亡、治愈),其次是对结果的拆解分析,包含指标的拆解(现存确诊=昨日确诊+新增确诊-昨日死亡-昨日治愈)和维度(按省市拆关键指标)的拆分两方面,最后才可能加上一些个人分析(疫情什么时候会变好)。
本文总结
“疫情地图案例”基本符合数据分析五步法的套路。
数据分析一定要在数据准确的基础上进行,数据分析=80%清洗+20%分析。
从权健到疫情地图,丁香医生抓热点声名大噪的故事值得小伙伴借鉴。
初版的体系搭建、报告输出、可视化展示都是不成熟的,需要进行多轮迭代。
以上为结合网上信息梳理学习整理的,还搞了一个比较详细的放踩坑思维导图,需要探讨的可以私信互相学习