22.向最优的错误率看齐 翻译自 吴恩达新书-Machine Learning Yearning

吴恩达新书《机器学习年鉴》中文版单页版本
吴恩达新书《机器学习年鉴》全书目录导航
让机器学会打游戏系列教程(中文版,含视频)

在我们的猫咪识别器的例⼦中,最理想的情况是实现⼀个最优的识别器,提供接近于0的错误率。如果图片中有猫,人类几乎可以100%识别出来;因此,我们也期望机器可以达到同样的水平。

和猫咪的例子相比,其他的问题相对复杂得多。例设,你正在开发一款语⾳设别系统,但你发现14%的语音片段有太多的背景噪音,还有些连人类都无法识别的无序信息。在这种情况下,即使是最优秀的语⾳识别系统也会产生14%左右的错误率。
假设你的算法在语音识别任务中的效果如下:

  • 在训练样本集上的错误率为15%
  • 在开发样本集上的错误率为30%

算法在训练样本集上的表现非常接近于最优的错误率14%。因此在算法在训练样本集上的已经没有多大的提升空间了。但是,算法在开发样本集上的泛化效果并不理想;因此方差有广阔的提升空间。

这个例子和上⼀章提到的第三个例子很相似,在训练样本集上有15%的错误率,在开发样本集上有30%的错误率。如果最优的错误率接近0%,那么训练样本集上的15%错误率还是有很大的提升空间的。这就意味着偏差方面的优化将会非常有果效。但是如果最优的错误率是14%,那么在训练样本集上,留给我们的分类器的提升空间就非常少了。

对于那些z最优错误率远大于0的问题,需要对算法的错误率做更加详细的分解。让我们继续上面提到的语音识别的例⼦,开发样本集上的总错误率为30%,可以按照如下方法进行分解(同样的方法也可以应用于测试样本集):

  • 最优错误率(不可避免的偏差):14%。此时即使是世界上最最优秀的语音识别系统,
  • 可避免的偏差:1%。通过计算训练集错误率与z最优错误率的差值得来。
  • 方差:15%。开发样本集的错误率与训练样本集上错误率的差值。为了和之前讲到的概念关联,偏差和可避免偏差之间的关系如下:
**偏差 = z最优错误率(不可避免的偏差) + 可避免的偏差**

可避免的偏差反映出,你的算法距离最优的分类器还有多远的距离。

方差的概念和之前描述的相同。从理论上说,我们可以通过使用⼀个庞大的训练样本集,来使方差趋于0。因此,当数据集足够大时,所有的方差都是可以被避免的,也就没有了不可避免方差的概念。

再考虑⼀个例⼦,最优的错误率是14%,我们已知:

  • 训练样本集错误率=15%
  • 开发样本集错误率=16%

依据前几章的定义,我们称这个分类器为高差分类器,但是如果最优的错误率为14%,则可避免的偏差是1%,方差也是1%,这个算法已经做的很好,需要改进的空间很少,只比最优错误率多2%。

我们从这些例⼦可以看出,知道最优错误率,我们之后的步骤,会有很大的帮助。在统计学中,最优错误率也被称为贝叶斯错误率或是贝叶斯率。

我们如何知道最优的错误率是多少呢?对于那些人类擅长的任务,比如图片识别或语音片段转录,你可以让人在训练样本集上对样本进行标记,然后计算人类的准去率。这样你就可以得到大致的最优错误率了。但是,如果你要处理连人类都很难解决的问题(比如,把哪些电影或是广告推荐给⽤户),估计最优错误率就变得困难的多了。

在33章-35章(和人类水平进行对比的章节)中,我们会详细讨论,如何对比机器学习算法性能和人类水平。

在之前的几章中,你学习了如何通过观察训练集和开发集上的错误率,来估计可避免/不可避免偏差和方差。下⼀章将会讨论如何使用这些错误率,通过对错误率的分析,来设立优先级,决定要首先减少偏差还是方差。你的项目是高偏差(可避免的)还是高方差,将决定了你会采用什么样的技术,来解决问题。

更多好玩的机器学习教程: 进入袋马学院领一份 ,全部免费.

你可能感兴趣的:(吴恩达-YEARNING)