14.误差分析的重要性和大致过程 翻译自 吴恩达新书-Machine Learning Yearning

更多好玩的机器学习教程: 进入袋马学院领一份 ,全部免费.

14.误差分析的重要性和大致过程 翻译自 吴恩达新书-Machine Learning Yearning_第1张图片

当你在玩你的关于猫咪的应用时,你会注意到几个误把狗狗识别为猫咪的例子。有些狗狗看起来真的太像猫了!

你的成员提议整合第三方软件,使系统能够在识别狗的图像上表现的更好。这些改动需要花费一个月的时间,而团队成员却热情高涨。你应该让他们继续吗?

在投资一个月的时间之前,我建议你首先评估一下,这项工作实际上能让你的系统准确率提升多少。然后你可以更理性地决定,是用这一个月来完成这项改动还是做其他更重要的事情。

如何进行评估呢? 具体的做法如下:

  • 收集错误分类的100个示例样本。
  • 手动查看这些例子,并计算它们中有多少是狗的图像。

查看错误分类的过程叫做误差分析。在这个例子中,如果把图片错误分类为狗的情况,只占错误分类的5%,那么,不管针对狗的识别做多少改进,你最多只能减少总错误的5%。假如你的系统有90%的准确度,你对系统所做的更改,很可能最多让系统的准确度达到90.5%(错误率从10%降到了9.5%,10%*5% = 0.5%,在原来10%的错误率基础上减少了5%)。

相反,如果你发现所有识别错误的情况中,有一半出现在狗的图片识别上,那么你就可以确信,队友所提议的项目,会对系统会产生巨大的影响。它可以将准确度从90%提高到95%(50%的误差相对减少,系统出错率从10%下降到5%)。

这个简单的误差分析过程为您提供了一种快速评估方法,决定是否需要整合第三方软件用于狗狗图像的识别。它提供了一个定量判断的依据。

误差分析通常可以帮助你弄清楚不同方向有多大的潜力。我看过许多工程师不愿意进行误差分析。大刀阔斧地实施一些想法总是感觉起来更令人兴奋,很多工程师会不假思索地执行一个想法却不质疑这个想法是否值得花时间投入。这是一个常见的误区:这么做可能导致你的团队花一个月的时间来推动方案后,却发现这个方案几乎没有带来什么好处。

手工检查100个例子并不需要很长时间。即使每张图片花了一分钟,你也会在两小时内完成。这两个小时可以帮你省下一个月白费的努力。

误差分析指的算法错误分类样本的分析过程,这样您就可以理解出现错误的根本原因。这可以帮助设立项目的优先级——就像在这个例子中一样——也有助于你找到新的方向,我们接下来会详细讨论这个问题。接下来的几章将会介绍进行误差分析的最佳实践。

更多好玩的机器学习教程: 进入袋马学院领一份 ,全部免费.

你可能感兴趣的:(吴恩达-YEARNING)