12.总结:构建开发和测试数据集 翻译自 吴恩达新书-Machine Learning Yearning

更多好玩的机器学习教程: 进入袋马学院领一份 ,全部免费.

  • 选择与实际数据(或你期望的数据)一致的开发和测试数据集,这些数据可能与你的训练数据不同

  • 开发数据集和测试数据集中的数据分布应当一致

  • 选择单值衡量指标作为你的团队优化目标,如果要考虑多个目标,可以通过一个表达式(比如求平均)将多个指标合并成一个指标,也可以把指标分为约束性指标和优化性指标‘

  • 机器学习是一个高速迭代的过程,在目标满足前,你可能需要尝试数十个想法

  • 拥有开发/测试集和单值衡量指标后,可以让你快速评估你的算法,从而加速迭代

  • 当开始一个全新的应用时,尽量在一周内,快速的建立开发/测试集和衡量指标。如果时成熟的应用,花长一点时间也没关系。

  • 当你有非常多的数据时,将数据按7:3的比例分成训练和测试样本集并不合适,此时开发和测试样本集中的数量要远低于30%

  • 你需要有足够大的开发数据集(但也不要太大),让你能看出算法精度上有意义的改变。测试样本集中的数据要尽可能的多,这样评估出的结论才能让人信服。

  • 如果你的开发数据集和评估指标,已经不能再给你的团队指明正确的方向了,那你需要迅速的改变它们:

    1. 当开发数据集上发生过拟合时,此时添加更多的数据到开发数据集中
    2. 如果真实的数据与开发/测试集中的数据不一致时,更新开发/测试数据集即可
    3. 如果衡量指标不能衡量你所关心的最重要事情,则需要更换衡量指标

更多好玩的机器学习教程: 进入袋马学院领一份 ,全部免费.

你可能感兴趣的:(吴恩达-YEARNING)