7.开发和测试数据集多大合适 翻译自 吴恩达新书-Machine Learning Yearning

更多好玩的机器学习教程: 进入袋马学院领一份 ,全部免费.

为了检测出不同算法之间的差异,开发数据集应该足够大。比如,分类算法A的准确率为90.0%, 分类算法B的准确率为90.1%,如果开发数据集中只有100个样本,那你无法检测出这0.1%差在哪儿。100个样本的开发数据集实在时太小了。通常,我们会在开发数据集通中,放入1000到10,000个样本。对于10,000个样本来说,找到这0.1%并改进它,就相对容易多了。

别小看这0.1%,对于一些成熟和重要的应用来说,比如广告推荐、网页搜索、产品推荐,这0.1%就直接影响着公司的利润,因此这些团队都非常积极的改进模型,哪怕时0.1%。这种情况下,开发数据集中的样本数量会远大于10,000个,目的就是能让模型获得改善,哪怕是微小的改善。

那对于测试样本集呢?它多大合适呢?它也应该要足够大,这样他给出的评估指标才相对靠谱。通常人们用所有数据的30%作为测试数据集。如果你的数据量相对适中(比如有100到10,000个样本),这么做会非常有效。但是在大数据时代,我们的机器学习模型,往往会处理数10亿个样本,即使少分配一些给开发和测试样本集,但是相对数量也会增加不少。此时,对于开发和测试数据集来说,太大的数据集并没有必要,能评估出你的算法性能即可。

更多好玩的机器学习教程: 进入袋马学院领一份 ,全部免费.

你可能感兴趣的:(吴恩达-YEARNING)