26.训练数据集上的误差分析 翻译自 吴恩达新书-Machine Learning Yearning

吴恩达新书《机器学习年鉴》中文版单页版本

吴恩达新书《机器学习年鉴》全书目录导航

机器学习:让机器学会打游戏系列教程(含视频)

在你期待你的算法可以在开发/测试集上表现良好之前,它首先必须能够在训练集上表现出众。

在之前章节介绍的那些可以处理高偏差的方法中,我有时会采用,在训练数据集上进行误差分析,这种分析方法跟在人工观察数据集上的错误分析方法类似。当你的算法偏差很高时-也就是这个算法不适合训练集时,这样的误差分析会很有帮助。

举例来说,假设你正在开发一款语⾳识别系统,并且已经采集了⼀个训练样本集。当你的系统在这个训练集上表现的不好时,你可能会从算法表现很差的语音片段中选择约100个出来,自己用耳朵听⼀下,来找到算法主要出现了哪几类错误。跟之前在开发数据集上的错误分析类似,你可以把错误分成以下几个类别:
26.训练数据集上的误差分析 翻译自 吴恩达新书-Machine Learning Yearning_第1张图片
在这个例⼦中,你可能会发现,你的算法对有背景噪音的训练样本很难处理。这样,你就可以专注于那些擅长处理背景噪音的方法了。

你也可以使用双重的检查,把同样的音频数据(训练集)交给人来进行标记。如果这些包含背景噪音的音频连人类也很难识别他们到底在说什么,那么要求任何的算法来正确的识别这些⾳频,就实在是太强算法所难了。我们会在之后的章节讨论,把算法性能和人类水平进行比较的好处。

更多好玩的机器学习教程: 进入袋马学院领一份 ,全部免费.

你可能感兴趣的:(吴恩达-YEARNING)