周志华机器学习西瓜书第2章模型评估与选择——精度与模型泛化评估方法,自助法与集成学习

1.间接计算精度

  • 经常是直接计算正确率,间接计算精度:1-错误率
    • 一般模型错误的个数会少于正确的个数,计算错误率的效率会高于计算正确率
    • 训练过程中想观察模型的学习效果,而观察错误率的下降便是很好的办法之一

2.模型的最终目的

  • 我们的目标永远不是去尽可能完美地拟合训练数据,而是去泛化到没见过的数据,在总体数据下追求完美
    • 所以,一定牢记,训练数据不是目的,测试数据才是目的
    • 训练数据本身会有干扰噪声,过好地拟合训练数据往往会学习到这些噪声
  • 没有大一统的评估方法,评估方法应该与具体的模型和具体应用场景有关
    • 时间复杂度
    • 空间复杂度
    • 可解释性
    • 泛化能力
    • ……

3.泛化能力评估

  • 将数据分为训练集、验证集、测试集
    • 训练集:训练不同的模型
    • 验证集:用于评价模型的泛化能力,并以此为标准进行调参和模型选择
    • 测试集:最终评价模型的泛化能力,在一起尘埃落定之前一定不要碰测试集,测试集仅仅是模型彻底敲定后进行唯一一次的最终评价
  • 数据划分时,注意保证各个数据集数据分布的一致性,要记得打乱数据顺序,实践表明学习模型往往会对最后学习的数据印象深刻,有一点点类似于持续学习的灾难性遗忘,只是没有那么严重而已
  • 三个集合的数据量分配往往是在训练开销、训练效果、泛化评估准度间权衡的结果,根据经验,一般2/3-4/5的数据用于训练
  • 在一起都做完后,记得用上所有数据重新训练一次最终选定的模型,以充分利用数据,达到最好的训练效果
  • 常用方法:
    • 留出法
    • K折n次交叉验证:其实是多次进行留出法
      • 不适合场景:数据量少(划分数据集后,数据量更少,训练效果差,而留一法开销又巨大)
    • 自助法:从原始训练数据中不断有放回地抽取样本,都成相同大小的新的训练数据集,未抽出的数据约为1/3,作为测试数据
      • 不适合场景:数据量大(数据量多的时候,可以用K折n次交叉验证,自助法抽取出的训练集与原始数据集有分布差异,会引入估计偏差)
      • 优点:非常适合处理数据集小,或数据集划分困难的情况,并且不同次抽取会生成不同的数据集,适合进行集成学习

你可能感兴趣的:(机器学习,西瓜书,机器学习,人工智能,深度学习,集成学习)