如果数据质量不好，你的机器学习工具就没用了，咋办？

对于机器学习广泛化、盈利化来说，数据质量差是头号敌人。尽管这话有些刻薄，但是，“垃圾数据输入，垃圾数据输出”一直困扰着一代又一代的分析师和决策者，因此，对于机器学习的数据，我们必须给予足够的重视。

机器学习的数据质量要求是非常高的，坏的数据可以在两个方面拖后腿：一个是训练预测模型，另一个是预测未来决策。

为了正确训练预测模型，历史数据必须符合特别广泛和高质量的标准。首先，数据必须正确：它必须是正确标记的，去除重复的，等等。但是，在开发预测模型的整个输入范围内，你还必须拥有正确的，大量无偏差的数据。大多数数据质量工作只需要达到其中一个标准，但对于机器学习来说，必须符合这两个标准。

然而今天，大多数数据未能满足基本的“数据是正确的”标准。原因包括数据创造者不知道要预测什么，测量工具不精确，数据采集过程过于复杂，以及人为错误等。

为了弥补以上不足，数据科学家在训练预测模型之前首先要整理数据。这是一项耗时又乏味的工作(占用了数据科学家80%的时间)，这是科学家们抱怨最多的问题。

即使有这样的努力，整理工作也不能检测或纠正所有的错误，而且目前还无法理解其对预测模型的影响。更重要的是，数据并不总是符合“正确”的标准，关于面部识别和刑事司法的偏见的报道证实了这一点。

为了处理日益复杂的问题，我们不仅需要更多的数据，还需要更多样化，更全面的数据。同时关注数据质量问题，例如，手写的笔记和本土化的首字母缩略词就使得IBM的机器学习(如沃森)应用于癌症治疗变得复杂起来。

在实现过程中保证数据质量也同样麻烦。虽然开发预测模型的数据科学团队可能已经完成了对训练数据的整理工作，但数据集仍有可能被未来出现的糟糕数据所影响。所以必须进行再一次努力，要很多人找到并改正错误。这严重影响了生产率。

此外，随着机器学习技术渗透组织机构，一个预测模型的输出结果将会被各层级使用，从一个层级到另一个层级，甚至跨公司各部门使用。其带来的风险是，一个小的错误将会关联公司每个使用数据的部门，导致更多的错误，并在整个过程中使小错误变大。

这些问题必须有一个积极的，执行良好的数据质量计划来监管，这比日常工作所需要的管理要重要得多。它要求全体负责人采取以下五个步骤来进行管控。

假设一家抵押贷款发放公司，希望将机器学习应用到贷款过程中。公司是否应该给予贷款，如果是，应该符合什么条件?

机器学习的目标可能包括:

1.降低现有决策过程的成本。既然不以做出更好的决策为目标，那么现有的数据可能就足够了。

2.消除对现有决策过程的偏见。这种偏见反映在现有数据中，所以要谨慎行事。

3. 改进决策过程。发放少量的违约贷款，批准先前拒绝的贷款。注意，虽然该公司有大量先前拒绝的抵押贷款的数据，但它不知道这些抵押贷款是否能发挥作用，所以要谨慎行事。

当数据达不到目标时，最好的办法是找新数据，或者缩小目标，或两者兼顾。

对于训练来说，这意味着每个人都要花4个月的时间去做数据处理，因为你必须测量质量水平、评估来源、去重复等，做出干净的训练数据，就像你做任何重要的分析一样。

为了实现目标，消除错误的最好办法，就是尽量减少应用过程中的清理。这样做有助于消除隐藏的数据库中的错误，同时也会节省你的时间和金钱。尽早开始这项工作，应该在你想让你的预测模型投入应用至少6个月之前就开始做这些。

保留你的原始训练数据的副本，包括你在训练中使用的数据，以及从第一阶段到第二阶段所使用的步骤。

尽管许多人不明智地跳过这一步，但它可以帮你在未来的决策中使用预测模型来改进流程。此外，了解模型中的偏差和限制是很重要的，审核跟踪可以帮你解决这个问题。

这个人应该对数据有深入的了解，包括其优点和缺点，并且他的工作有两个重点。

首先，必须日复一日地，为传入数据的质量设置和执行标准。如果数据不够好, 负责人必须进行干预或接管。第二，必须时刻努力寻找根本原因，消除错误。这项工作从一开始就要做，而且必须一直坚持做下去。

质量保证是确保质量计划提供期望结果的过程。这里的关键是要保持独立，所以这项工作应该由其他人来完成——内部质量保证部门，部门之外的团队或合格的第三方。

即使在这五个步骤之后，你也会发现你的数据并不完美。你可以允许预测模型中有一些次要的数据质量问题，如15个最重要的变量中有一个缺失值。为了探索这一领域，在准备数据和训练模型时，要让数据科学家和最有经验的业务人员合作。

创业公司Stratyfy的劳拉•科恩豪泽(Laura Kornhauser)就这样说过:“尽快让你的业务人员和数据科学家们聚在一起。特别是业务人员，他们一直在处理糟糕的数据，你需要把他们的专业知识应用到你建立的预测模型中去。”

这看起来很复杂是吗?的确是这样的。但是机器学习有着不可思议的力量，你需要学会利用这种力量。糟糕的数据质量可能会导致这种力量发挥不出来，或被误用、滥用，这充分说明了你的每一分努力都是值得的。

原文链接：

https://hbr.org/2018/04/if-your-data-is-bad-your-machine-learning-tools-are-useless

来源：哈弗商业评论

作者：Thomas C. Redman

智能观编译

—完—

亲爱的朋友：

我们都知道，想有好的AI应用与研究，需要高质量的数据做基础。

希望本文介绍的关于如何确保数据质量的方法，可以对你有所启发。

祝安！

智能观一米

2018-4-21 于北京中关村

想知道AI加教育领域有哪些最新研究成果？

想要AI领域更多的干货？

想了解更多专家的“智能观”？

请在对话界面点击“找找看”，去获取你想要的内容吧。

声明：

编译文章旨在帮助读者了解行业新思想、新观点及新动态，为原作者观点，不代表智能观观点。