本文继续基于Ben Jones 的新书Avoiding Data Pitfalls,来详细谈下七大数据陷阱。Ben Jones 在他的这本书第二章着重讨论了七大数据陷阱中第一个---认知错误。像以前一样,作者在本章的开始,引用了一句名言,这次是美国小说家Gertrude Stein的 “Everybody gets so much information all day long that they lose their common sense.” ,以此来感叹现在的人们已经为数据海洋所淹没,也暗示着数据细节和关键特征已经很不容易被察觉到了。
认识论是西方哲学的重要部分,具有学科前提的地位,同时也是人类文明的基石之一,其希腊词源有两部分组成,即 episteme (知识) and logos (言辞),字面意为讨论知识,实质上是探讨知识的来源并评价其可靠性。 数据,作为知识和信息的符号,自然也是相关工作的基石。
在某些领域,从业者可以不用了解相关专业基础和原则, 就可以在一定程度上顺利应用。比如,司机,不必了解机车的工程原理或电机的运行机制,就可以正常的开车。然而,数据工作不在此列,其更像是烹饪:只有充分了解火候和味道之间的 变化关系,才能做出美味的食物,否则,就只能靠运气了。
本文先从第一角度,即陷阱1A:数据-现实 差距,开始谈起,相信读者一定会感受到很多似曾相识之
陷阱1A:数据-现实 差距
从认识论角度,数据所代表的是现 本文继续基于Ben Jones 的新书Avoiding Data Pitfalls,来详细谈下七大数据陷阱。Ben Jones 在他的这本书第二章着重讨论了七大数据陷阱中第一个---认知错误。像以前一样,作者在本章的开始,引用了一句名言,这次是美国小说家Gertrude Stein的 “Everybody gets so much information all day long that they lose their common sense.” ,以此来感叹现在的人们已经为数据海洋所淹没,也暗示着数据细节和关键特征已经很不容易被察觉到了。
认识论是西方哲学的重要部分,具有学科前提的地位,同时也是人类文明的基石之一,其希腊词源有两部分组成,即 episteme (知识) and logos (言辞),字面意为讨论知识,实质上是探讨知识的来源并评价其可靠性。 数据,作为知识和信息的符号,自然也是相关工作的基石。
在某些领域,从业者可以不用了解相关专业基础和原则, 就可以在一定程度上顺利应用。比如,司机,不必了解机车的工程原理或电机的运行机制,就可以正常的开车。然而,数据工作不在此列,其更像是烹饪:只有充分了解火候和味道之间的 变化关系,才能做出美味的食物,否则,就只能靠运气了。
本文先从第一角度,即陷阱1A:数据-现实 差距,开始谈起,相信读者一定会感受到很多似曾相识之
实中的事物,可以看作是符号,具有信息载体的作用。由此立即可以追问,数据能否完全或完美反映其所代表的情形?这就是所要讨论的数据与现实的差距。 这当然是一个基础问题,但并不简单,不夸张的说,很多资深从业者都深感这是个很麻烦的问题,而不敢掉以轻心。当拿到一些数据,经过初步分析之后, 应该注意如下问题:数据从哪里来? 谁收集的?这个数据能告诉我们什么?更重要的是,这个数据不能告诉我们什么?
在与数据相关的工作中,由于各种原因,很容易把数据与现实划成等号,因此有必要做一下刻意的区分, 比如在日常生活中应该留意:
在考试成绩单中,不是学生的相应学科的能力,而是学生考卷的分数
在调查报告中,不是人们对该话题的看法,而是参加调查的人们对该话题的反应记录
在媒体报道中,某些人还不是罪犯,只是该报道所认定的嫌疑人
可见人们真的需要在工作语言中尽量细致的刻画每一部分的信息,才能避免掉进认知错误的坑里。Ben Jones 举了四个例子,贯穿全章。我们来一一看下。
例1:所有未入眼帘的陨石
陨石学会(The Meteoritical Society)提供过34,513颗撞击地球表面的陨石的数据,时间跨度在公元前2500年至2012年1月,通过对这一数据集的实验和感受,可以令人明显体会到,预设不正确会直接导致错误的数据解读。有人基于该数据集,做了一张图,如下所示。
现在我们在地图上看这些数据,你注意到了什么?陨石似乎更容易撞击到陆地,而不是海洋,这难道不奇怪吗? 那么像南美的亚马逊河、北欧的格陵兰或中非的部分地区,怎么没有呢?这些区域有什么护盾吗, 或者有什么神来保护这些区域不受伤害吗?于是有人又会脑洞大开了。
答案很简单,看下该图的标题便可知之:“每一次有记录的陨石撞击。“为了让一块陨石冲击的信息进入数据库,就要必须被记录,则必须有人来观察。 但不是所有人都能观察到,也不是哪里都有人观察。显然,这在经济相对发达和人口密度较高的地区更有可能发生。 那么,这张地图并没有告诉我们陨石更可能撞击地球的位置,而是被记录的陨石落在哪里,并由某人观察,谁报告了,谁记录了。
听起来挺拗口的,不是吗?你可能会翻白眼,说这只是一堆技术细节问题。但试想一下,如果不如此思考,一定会有人假设是专家或爱好者观察并记录每一块陨石,而认定这个数据集包含的是所有的客观数据,那可就大错特错了。
这并不是说陨石协会提供的数据是错误的;只不过,自公元前2500年以来,实际撞击地球的陨石数量与被观测、报道和记录的陨石数量之间存在差距。 可以肯定地说,不可知的总数和数据库中的数字之间存在巨大的差异。毕竟,约71%的地球表面被水覆盖,而且部分土地本身也完全无人居住。
然而,由于地理原因而无法被观测到的陨石数量,与那些由于缺乏历史记录的相比,要少得多。 下图显示了历年记录的陨石数量——每年都有自己的圆点——我们可以看到,直到20世纪才有成规模的记录。
已知最古老的陨石记录(可以追溯到公元前2500年的伊拉克)和第二古老的记录(可追溯到公元前600年的波兰)之间存在着巨大的时间差距。1800年之前的任何一年都没有超过两颗的记录。 到了20世纪,这一数字急剧增加,仅1979年和1988年就有超过3000条。可以肯定,在古代也有很多陨石撞击地面;或者人们没有注意它们; 或者即使注意到了,但没有记录;或者记录了,但没有保存至今。
例2:地震真的在增加吗?
接着让我们考虑一种地质现象:地震。1994年1月17日,清晨4:31,美国洛杉矶圣费尔南多谷地区发生6.7级地震, 造成57人死亡,8700多人受伤,并造成多方面损失。
美国地质调查局提供了一个地震档案搜索表单,让访问者可以获取满足各种标准的历史地震列表。 对1900年至2013年6.0级及以上的地震进行查询,得到了一个似乎有点令人担忧的线图,如下图所示。
真的是地震的频率增加了这么多吗?显然不是,因为过去十年的地震测量和收集技术,已经远超20世纪初期水平。
如果我们按照震级将线图分组显示,并添加描述地震学进展的注释, 我们会发现上升只出现在较小的组别中(震级为6.0-6.9),并且与仪器的巨大进步相应。
可以肯定地说,有记录的地震增多,主要是由于我们探测地震的能力提高了。 在这段时间里,实际上,地震也可能有上升的趋势,但由于测量系统的质量在不断变化,我们不可能确切地知道。 就地震而言,数据和现实之间的差距越来越小。尽管这是一项值得称赞的了不起的技术发展, 但依然不足以令人看到地震运动的历史趋势。
此处的认知问题在于,“数据-现实差距”在我们所考虑的这段时间里发生了巨大的变化。 很难确切地知道在某一些特殊年我们错过了多少次6.0级地震,因此无法作进一步推断。
例3:过桥的自行车流量
位于华盛顿州西雅图的弗里蒙特大桥(FremontBridge),具有明亮的蓝色和橙色的双叶,其建于1917年; 由于离水很近,平均每天开放35次,这可能使之成为美国开放次数最多的吊桥。
西雅图是一个自行车之城,市交通局在行人/自行车道上安装了两个感应回路, 计算每天从桥的任意方向穿过的自行车的数量, 还在data.seattle.gov网站上提供了2012年10月2日以来的每小时统计数据。 对该数据集做图如下。
面对图中标识的峰值,追溯原因,即使是Ben Jones也没有头绪。于是他分享给朋友们,以寻求一下启发。很快,各种胡思乱想就飞来了: 是“骑车上班节”吗? 也许是天气异常的好,更多的人都选择骑车出行了吧。 奇怪的是,这个峰值出现在桥的一遍,而另一边却没有。于是脑洞又来了:他们是怎么回家的? 是不是真的有一个钉子让他们的轮胎瘪了,所以他们不能骑车回家? 或者,可能会有一个有组织的自行车比赛或俱乐部活动,其中包括一个环形路线,骑手在另一个地方过河, 而不是在返回的路上转过身再从弗里蒙特桥上回来。
请注意,这些想法都是建立在这样一个假设上的,这两天实际上有更多的自行车穿过大桥。没有人想过去质疑。 终于一个朋友,发来了一条信息,说他查过了,这是设备故障造成的。那年4月,计数器有一段时间出现故障, 发生在桥东侧的计数器
根据相应的博客更新中发布的内容,在2014年4月23日、25日、28日和29日早上,自行车计数实际上有四个小时的高峰。 仔细观察图中的时间线,会看到在巨大峰值之前的蓝色线中较高的值。 可是当时,工作人员没有发现计数器出了什么问题,反而“确认”了它是正常工作的,并更换了一些硬件和电池。
而面对这种数据问题正确做法应该是,首先去确认下计数系统或相关设备是否正常,逐步排查,而不是一头扎进各种想当然之中。
例4:累计数竟然会下降!
2014年,埃博拉病毒在西非肆虐,震惊世界。在危机期间,世界卫生组织(WHO)在每周情况报告中提供相应的数据。让我们来看看由世界卫生组织和美国疾病控制中心(CDC)发布的从2014年3月到2014年年底的埃博拉死亡累计时间轴。 注意累计死亡人数的下降——当直线向下倾斜的时候。
乍一看,这似乎有些奇怪。某一天死于这种疾病的总人数怎么会比前一天结束时少呢? 其实,这种表达问题的方式表明已经掉进了陷阱。让我们换一种方式提问:报告的因该疾病死亡的总人数是如何一天天减少的?
这当然是有原因的:由于设备和工作人员不足,在一些偏远地区诊断疾病和确定死亡是非常困难的。 对于提供数据的专业人士来说,任何一个人的死亡原因也并不总是很容易就能得到的。 通常,几天甚至几周后才会收到的检测结果,而这很可能会改变开始时记录死亡的原因。 事实上,在一场快速传播的大流行病的情况下,临时的猜测或者估计,必须要在一段时间之后被证明是或证伪。
这就是为什么,如果你阅读世界卫生组织的情况报告,你会注意到他们将病例划分为“疑似”、“可能”和“确认”。
这里不是为了批评那些参与抗击和记录埃博拉疫情的人或组织。他们也不应该被批评, 而且很应该赞扬他们在抗击疾病和照顾那些受苦受难和垂死的人方面所作的英勇努力,因为他们清楚的向人们传达了其数据报告中固有的不确定性。 结合时下的Covid-19的数据,也希望人们能有更清醒的认识。
事实证明,在混乱的情况下对疾病和死亡进行分类确实是一件棘手的事情。 这个例子仅仅表明,即使在风险很高、全世界都在关注的情况下,数据和现实之间的差距仍然存在。 这是因为这个差距总是存在的。可见,这不是是否有差距的问题,而是差距有多大的问题。
另外,还有个小例子,是关于汉克·艾伦(Hank Aaron)的《本垒打记录报告》? 他在全美职业棒球大联盟中打出了755个本垒打,创下了33年的纪录。但是当季后赛的时候, 他击出的六支本垒打呢?还有他在1971年和1972年代表国家联盟参加全明星赛时击出的两支全垒打? 让我们来谈谈他在加入亚特兰大勇士队之前,在美国黑人联盟印第安纳波利斯小丑队的职业比赛中, 在26场正式比赛中击出的5支本垒打。这些不应该也算在内吗?但所谓的官方统计只包括美国职业棒球大联盟在常规赛中击出的本垒打,而这些数字并不包括在内。 但有一定人会说,他在职业棒球比赛中额外击出的13支本垒打应该使他的官方职业生涯记录达到768支。
此处涉及不同的统计方式,是数据与现实差距问题的又一种原因。
想获取更多内容,请关注海数据实验室公众号。
本期分享到这里,我们会每天更新内容,咱们下期再见,期待您的再次光临。有什么建议,比如想了解的知识、内容中的问题、想要的资料、下次分享的内容、学习遇到的问题等,请在下方留言。如果喜欢请关注。
社群推荐:
更多有关数据分析的精彩内容欢迎加入海数据在线数据分析交流群,有什么想法
或者疑问都可在里面提出,与同行零距离交流,共同成长进步,请识别下面二维码
加火星小海马微信,邀你进群。
其他文章推荐
如何识破数据陷阱—值得学习的7个经验法则