疫情地图制作复盘-20200327

疫情爆发到现在,你是不是也跟我一样,每天起床都要点开丁香医生,看一下疫情最新情况?如此火爆的背后,更何况领导天天push我学习丁香医生的思路,该项目有没有借鉴性呢?以疫情地图为例,来讲讲数据分析师做项目的思路。

我将项目分析总结为五步法:数据收集、定义问题、数据清洗、数据分析、输出报告。今天我将对每一步进行业务上的拆解。


数据分析五步法

一、定义问题

分析的重中之重是定义问题。这个项目的需求是什么?想达到的效果是什么?

丁香医生想做一款实时更新疫情数据的产品,方便用户了解实时疫情动态。

那用户是谁?用户最关心什么?

丁香医生的用户是老百姓,咱老百姓最关心的呢,是今天又确诊多少人,疑似多少人,死亡多少人,以及治愈多少人,疫情是不是往好的方向发展……

依照《精益数据分析》提出的“第一关键指标法”,我们提炼出关键指标:确诊人数、疑似人数、死亡人数、治愈人数。

关键指标

同时,咱老百姓除了想知道整个疫情发展,也很关心自己城市的情况,因此将关键指标按省份、城市细分。疫情地图就包含了全国确诊人数热力图,各省、各市的关键指标。

各省份、城市关键指标

二、数据采集

数据真实可信是数据分析的前提。丁香医生的数据来源于国家卫健委、各省市卫健委、各省市政府、港澳台等官方渠道,来源权威。

咱们数据分析师日常怎么收集数据呢?

内部数据:天天需要。公司把数据存放在自家服务器或阿里云等第三方平台,通过SQL获取。

外部数据:也很重要,较难获取。可以用国家统计局、中国人民银行等公布的数据;使用第三方数据库,如万德、国泰安、锐思等数据库下载数据;或使用爬虫,爬到自己想要的数据。

三、数据清洗

数据清洗几乎占用数据分析师80%的时间。在这里,丁香医生主要涉及去重口径一致

(1)去重

上面收集来的数据,各个渠道会不会重复统计呢?比如国家卫健委、省卫健委和省政府公布的数据中,肯定有重复部分,需要我们去掉重复值。

丁香医生也曾重复统计过,导致新增确诊人数变多,不过很快纠正了。

(2)口径一致

报表上线后,口径变化是大忌。2月12日,确诊口径由单一核酸检测,新加入临床诊断,确诊人数大增,一下多了1万多人。

如果是数据分析师随意调整统计口径,那就要背锅走人了;如果是老板要改口径,数据分析师就得想想该怎么妥善处理了。

丁香医生是怎么做的呢?

当日确诊人数爆增,丁香医生用虚线表示增长,并且右上方备注“临床诊断病例的影响”。这样做既反映了真实情况,也解释了因统计口径变化,导致数据异常增长。

口径变化导致的激增

四、数据分析

数据收集和清洗是基本能力,数据分析才是核心竞争力。

我们在思考用什么指标来做分析时,可以参考《精益数据分析》里,关于“什么是好的数据指标”的总结:

好的数据指标是比较性的(较昨日、新增疑似、新增确诊……);

好的数据指标是简单易懂的(确诊、死亡、治愈……);

好的数据指标是一个比率(病死率=死亡人数/确诊人数、治愈率=治愈人数/确诊人数);

好的数据指标会改变行为(通过新增确诊走势,了解疫情是否正在缓解,指定方针)。

由于丁香医生疫情地图产品,只向大家展现客观数据,没有输出具体的主观结论。但我们仍然可以根据丁香医生的指标的和图表,对疫情发展情况作出判断。

1. 趋势变化

由新增趋势图,可以看到,新增确诊病例在2月12日修改统计口径后,逐渐下降,新增疑似病例在2月5日后逐渐下降。

由现存疑似、确诊趋势图,可以看到,现存确诊病例从1月19日-2月12日,呈陡峭的直线上升,在2月16日到达峰值以后,逐渐下降,现存疑似在2月8日到达峰值后逐渐下降。

全国疫情新增、现存趋势图

因为湖北是最严重的受灾区,会严重拉高其他省市的数据,因此需要特殊对待。

湖北新增确诊病例2月12日暴增1.5万以后,逐渐下跌,最近几日都维持在新增400人的水平,非湖北新增确诊病例在2月3日之前剧烈增长,2月3日武汉及周边城市封城、大家不外出聚集以后,逐渐下降,最近几日维持在两位数甚至个位数。

湖北、非湖北新增趋势图

2. 比率

知道了每天的新增情况,咱老百姓还关心,这个新型冠状肺炎厉不厉害,死亡率高不高啊?

丁香医生针对这一需求,又设计了病死率趋势图和治愈率趋势图。同样由于湖北是集中爆发区,将湖北和非湖北分别对待。

病死率、治愈率趋势图

五、输出报告

终于到了输出环节,丁香医生最新的版本做得非常好,我们以后做可视化产品时,完全可以借鉴板块的划分。

全国关键指标、较昨日变化情况、分省市统计关键指标、变化趋势、病死率和治愈率等。老百姓关注的点几乎都涵盖在里面。

丁香医生疫情地图版本也是一步步迭代来,我们来看一下修改前,和修改后的对比图。

修改前后对比图1,增加了更多指标和环比数据

初版地图,只有当日累计数值,修改后增加了“较昨日”的变化数据;初版只包含确诊、疑似、死亡和治愈4个指标,修改后增加了现存确诊、现存疑似、现存重症等指标。

修改前后对比图2,数据表格化,维度进一步细分

修改前,按省份的关键指标没有细分到城市,我们其实更关心自己城市的数据。修改后采用折叠的形式,阅读舒适度非常好。

修改前后对比图3,不同数量级指标分图展示

初版将确诊、疑似、死亡和治愈放到一起,由于确诊和死亡人数不在一个数量级,导致死亡人数的趋势无法直观表达出来,修改后将新增、现存、死亡和治愈分别列出,更能各自反映变化趋势。

报告首先呈现的一定是大家最关心的结论(确诊、疑似、死亡、治愈),其次是对结果的拆解分析,包含指标的拆解(现存确诊=昨日确诊+新增确诊-昨日死亡-昨日治愈)维度(按省市拆关键指标)的拆分两方面,最后才可能加上一些个人分析(疫情什么时候会变好)。

本文总结

“疫情地图案例”基本符合数据分析五步法的套路。

数据分析一定要在数据准确的基础上进行,数据分析=80%清洗+20%分析。

从权健到疫情地图,丁香医生抓热点声名大噪的故事值得小伙伴借鉴。

初版的体系搭建、报告输出、可视化展示都是不成熟的,需要进行多轮迭代。

以上为结合网上信息梳理学习整理的,还搞了一个比较详细的放踩坑思维导图,需要探讨的可以私信互相学习


你可能感兴趣的:(疫情地图制作复盘-20200327)