30. 高偏差时的学习曲线 翻译自 吴恩达新书-Machine Learning Yearning

吴恩达新书《机器学习年鉴》中文版单页版本

吴恩达新书《机器学习年鉴》全书目录导航

机器学习:让机器学会打游戏系列教程(含视频)

假设你的模型开发错误率图形如下图所示:
30. 高偏差时的学习曲线 翻译自 吴恩达新书-Machine Learning Yearning_第1张图片
我们之前说过,如果开发错误率的曲线变平了,则仅仅添加数据,可能无法让你的算法到达预期的水平。

但是很难知道红色的曲线接下来的走势会是什么样子。如果开发样本集中的样本数量特别少,则就更加无法肯定曲线的走势了,因为开发样本集可能会有些干扰数据。

加入我们把训练误差率也绘制出来:
30. 高偏差时的学习曲线 翻译自 吴恩达新书-Machine Learning Yearning_第2张图片
现在,你可以十分确信,添加数据并不会起到效果了。为什么呢?记住我们的两项观察结论:

  • 由于添加了更多的训练数据,训练错误率应该会有所增加,因此蓝色的曲线的高度应该不变或者变得更高。因此它会远离我们期望的水平(绿色的曲线)。
  • 红色的开发错误率通常会高于蓝色的训练错误率。因此当训练错误率高于期望水平时,在怎么增加数据,也无法让开发错误率降低到期望的水平以下。

通过查看绘制在同一图形中的开发错误率曲线和训练错误率曲线,可以让我们更加确信开发错误率的图形走势。

为方便讨论,假设期望的水平就是我们预估的最优错误率。上面的例子是个标准的“教科书式”高偏差的例子:在最大的训练样本集下,训练错误率和预期水平还有很大差距,这预示着算法有很大的可避免偏差。而且,训练错误率曲线和开发错误率曲线很接近,说明偏差很小。

之前,我们计算的训练错误率和开发错误率,只是这个图形最后端的部分,也就是我们使用所有数据的情况。绘制完整的学习曲线,可以让我们更全面地了解,算法在不同大小训练集下的性能表现。

更多好玩的机器学习教程: 进入袋马学院领一份 ,全部免费.

你可能感兴趣的:(吴恩达-YEARNING)