29. 将训练错误率用图形绘制出来 翻译自 吴恩达新书-Machine Learning Yearning

吴恩达新书《机器学习年鉴》中文版单页版本

吴恩达新书《机器学习年鉴》全书目录导航

机器学习:让机器学会打游戏系列教程(含视频)

你的开发/测试错误率应该会随着训练样本数量的增加而减少。但是训练错误率通常会随着样本数量的增加而增加。假设你的训练样本集中有两个样本:一张猫咪图片和一张非猫咪图片。这时算法很容易就会记住这两个样本,从而得到0%的训练错误率。即使样本集中一个甚至两个都标记错误了,算法也很容易就能记住它们的标签。

现在假设你的训练样本集中有100个样本。可能还有些样本标记错误了,或者非常模糊,连人都分不清图片上是不是有猫。此时或许模型还是能记住每个样本对应的标签,但是此时很难到达100%的准确率了。样本数量从2个上升到100个,你就会发现训练准确率在下降了。

最后,假如你的训练样本集中有10,000个样本。这时,算法就很难拟合这10,000个样本了,如果样本集合中,还有些是模棱两可的或标记错误的,那就更难拟合了。因此的算法会在这个训练样本集上表现的更差一些。

让我们把训练样本集也加到之前的图形中:
29. 将训练错误率用图形绘制出来 翻译自 吴恩达新书-Machine Learning Yearning_第1张图片
你可以看出随着训练样本的增加,蓝色曲线代表的训练错误率一直在增加。而且,可以看出,算法通常在训练样本集比在开发样本集上的表现更好一些:因此红色曲线代表的开发错误率始终在蓝色曲线代表的训练错误率上方。

下面一章我们将详细解释这个图形。

更多好玩的机器学习教程: 进入袋马学院领一份 ,全部免费.

你可能感兴趣的:(吴恩达-YEARNING)