【干货】坏数据指南精选：处理数据的正确方式一览

我们拿到的数据往往有数值缺失、单位不统一或经人为操纵等问题，要是没有统计学基础，应如何一一解决呢？Quartz的记者Christopher Groskopf总结了我们处理数据时常遇到的棘手难题，结合例子给出了实用建议(Quartz Bad Data Guide,已获得Creative Commons license)，还分成数据源、使用者、第三方专家和程序员处理的类别，易懂好上手。小编经Quartz和“数艺智训”授权，精选其中的经典问题和解决方案，帮你解除数据忧虑。

数据源应该解决的问题

数值缺失

你得谨慎对待任何数据表里出现的空白数据或无效值，除非你百分百确定其含义。如果数据是年度值，看看是不是当年的数据没被收录？如果是份调查，是不是受访者拒绝回答了问题？

每次使用包含缺失值的数据时，你应该问问自己：“我是否知道没有这个数据意味着什么？”要是不清楚，你应该向数据提供方问个明白。

缺失的数值被0代替

比数值缺失更为难办的是用任意值代替了原有数值。这种情况发生要么是因为人为改动数据时没考虑含义，要么是因为自动程序不懂处理无效值。在任何情况下，要是在数字序列中看到0，就该问问自己这个数值是指数字0，还是意味着“无意义”。如果不确定就问问数据提供方。

你所知道的数据遗失

有时候缺了数据，数据表上看不出来，但你还是能知道，是因为了解数据的意义。如果你有一个覆盖整个美国的数据集，检查一下，保证50个州的数据均在其中。（别忘了领土问题——如果数据包含波多黎各，写50就不对了）处理一个棒球运动员的数据集时，就要确保球队数量和预想的一致。拿你知道的几名队员核实看看。如果觉得有些消息缺失了，相信你的直觉，和数据源多核对几遍。你所掌握的数据范围可能比预想的要小得多。

数据粒度太粗

有时你掌握了州的数据，但要精确到县；得到了雇主信息，但需摸清雇员；或是拿到了年度数据，但想了解每月的情况。很多情况下，我们得到的数据远比我们需要的要多要杂。

数据一旦汇总，再分开就难了。如果你得到的数据太粗，就得问数据源要更具体的数字。难就难在，他们也许没有，就算有也可能给不了或者不愿意给。许多联邦级别的数据集不允许地方层级访问，目的是保护特殊人群的隐私。（例如，某个单独的索马里国民生活在西德克萨斯州。）你所要做的就是问清楚。

记住，永远别把一年的数据除以12，把得到的称为“平均每月”数据。无论如何这都是错的，千万别这么做。

你应该自己解决的问题

数据粒度太细

这和“数据粒度太粗”的问题刚好相反。此时，你拿到了县的数据，但想要整个州的，或者你得到了月份数据但你想用年度的。幸好，这问题的解决方法很简单。

数据汇总工具包括Excel或Google文档中的透视表功能、SQL数据库或自己写的代码。透视表是值得每个记者学习的好工具，但它也有局限性。处理非常庞大的数据集或汇总异常数据组时，你应该求教程序员，他们可以制定一个更容易验证和反复使用的解决方案。

人为操纵的时间范围

数据的时间范围是可以动手脚的。数据源可以通过提供含有特定起始时间的数据，有意无意地扭曲事实。2015年广泛报道的“全国犯罪浪潮”就是个有力的例子。实际上根本没有什么犯罪浪潮，只是某些城市的犯罪数量与近几年相比突然上升。如果记者们将观察的时间拉长，就会发现10年前美国各地的暴力犯罪更多，20年前的数量甚至是现在的两倍。

如果数据涵盖的时间范围有限，尽量避免从最开始的时间段开始计算。如果你选取的数据只有几年（或几个月、几天），确保你的对比结果多加一个数据点之后仍能成立。

人为操纵的参考范围

为了政治目的，机构通常将犯罪数字与犯罪率高的年份对比以操纵数据，用变化（自2004年以来下降了60%）或者指数（40，其中2004年 = 100）呈现结果。上述两种情况中，2004年不一定就是合适的对比年份，当年的犯罪率可能高得出奇。

地区比较也是如此。如果想让某个国家的情况显得恶劣，只要把它的数据和表现最优异的国家一比就得逞了。

归根结底，这种现象往往出现含有严重偏见的议题中。（正如犯罪率问题，好多人难免在心里嘀咕“跟我想的一样，犯罪率就是上升了！”）只要有机会，就试试以不同时间为起点，看数字如何随之变化。无论你打算怎么处理数据，千万用这种方法刻意去证明你认为重要的观点。这就太过了。

第三方专业人士应该帮你解决的问题

存在令人费解的离群值

我最近创建了一个数据集来统计互联网信息的传递时长。所有时长都在0.05至0.8秒之间，只有三个例外，且每个都超过了5000秒。通常这是数据生产出错的红色警告。果不其然，这次是因为我写的代码出了错，导致一些计时停止，而其他信息仍在正常传送和接收。

尤其是计算平均数时，像这样的离群值会严重扭曲统计结果。（因此我们应该用中位数）每当得到一个新数据集，最好检查最大值和最小值，确保它们在合理范围内。如果数据合理，你可能也想用标准差或中位差做更严谨的数据分析。

出现离群值还有个好处：离群值往往是寻找新闻头条的绝佳方式。如果真的有个国家在网上发一条消息要花5000倍的时间，这不就是一个好故事吗？

指数掩盖了潜在差异

分析师如果想跟踪某个问题的发展趋势，通常会创建不同标准的指数以追踪进展。指数的解释力很强，用它本身没有问题。但重要的是要格外小心不同度量值组成的指数。

例如，联合国性别不平等指数（Gender Inequality Index）包含了与女性平等进展有关的几个量度。其中一个是“议会中女性代表的比例”。世界上有两个国家的法律规定了议会中的性别代表比例：中国和巴基斯坦。结果这两个国家的指数表现远高于其它国家，尽管所有国家在其它方面都不相上下。这公平吗？这里讨论公不公平意义不大，因为不知道这个影响因素，就不会明白这里的“公平”意味着什么。GII等不平等指数在使用时需严谨分析，以保证潜在变量不会意外地改变指数。

太完美的数据往往不真实

现在还不存在公共舆论的全球数据集，也没有人知道生活在西伯利亚的确切人口数。犯罪数据跨了国界，就毫无可比性。美国政府也不会破天荒地告诉你它持有多少核材料。

以上例子告诉我们，要是遇上任何数据自称能代表你不可能知道的事物，务必要谨慎。它不是数据，而是某些人的估计，很可能是错的。但……它可能是条新闻，因此还是找专业人士验证靠谱。

程序员能帮你解决的问题

数据汇总到错误的分类或地理区域

有时你的数据粗细程度刚好适中（既不太粗也不太细），但有时被汇总到了你不想要的组别。有个经典的例子是，本来数据是按邮政编码汇总的，而你更想按照城市街区来分。在很多情况下，要是不能得到更细粒度的数据，问题就没法解决。但有时数据可以按比例从一个组映射到另一个，可以由此推算数据。在此之前，得弄清楚这个过程可能引入的误差范围。如果你得到的数据汇总错了类别，咨询程序员是否可以重新汇总。

扫描文档中的数据

多亏信息自由法案，很多时候可以要求政府提供数据——即使他们真的不想这么做。这时，政府常见的手法是给你页面的扫描件或照片。它们可能是图像文件，更有可能是集合制成的PDF文件。

我们可以从图像中提取文本、变回数据。这个过程叫做“光学字符识别（OCR）”。现代OCR的准确度常常能接近100%，但很大程度上取决于文档的质量。每次用OCR提取数据，你都得核实一下识别结果是不是和原始文件一致。

现在有很多网站支持文件上传作光学识别。也可以用免费软件，程序员根据文件特点帮你调整软件特性，提高准确度。问问他们你的文件怎么处理最合适。

（文章来源：江苏银行融创智库大数据应用）

更多内容请关注星环科技微信公众号

【干货】坏数据指南精选：处理数据的正确方式一览

你可能感兴趣的:(【干货】坏数据指南精选：处理数据的正确方式一览)