西瓜书读书笔记:第二章 模型评估与选择

2.1经验误差与过拟合

错误率:分类错误的样本数占样本总数的比例

精度accuracy:1-错误率

误差:学习器的实际预测输出与样本的真实输出之间的差异

训练误差training error/经验误差empirical error:学习器在训练集上的误差

泛化误差:在新样本上的误差

过拟合overfitting:泛化性能低,各类学习算法都对过拟合有缓解的措施但无法彻底避免。机器学习面临的问题通常是NP问题甚至更难,有效的学习算法必然是在多项式时间内运行完成的,而P≠NP

欠拟合underfitting:泛化性能低,容易克服,如在决策树学习中扩展分支,在神经网络学习中增加训练轮数

2.2模型评估方法

测试集testing set:尽可能与训练集互斥即测试样本不在训练集中出现和使用过,测试样本是与训练样本独立同分布而得(比如南北方橘子,不iid会导致泛化能力低),测试集上的测试误差作为泛化误差的近似,即评估泛化误差/错误率/精度

2.2.1留出法hold-out

1.将数据集分成互斥的S,T集合,S占2/3或4/5

2.S,T的类别比例应相似,即分层采样stratified sampling

3.采用若干次随机划分,重复进行实验评估后取错误率和精度的平均值

2.2.2交叉验证法(k-fold)cross validation

1.将数据划分为k个大小相似的互斥子集,每次用k-1个子集作训练集,余下的作测试集(k=5,10,20)

2.每个自己都保持数据分布的一致性,即从数据集中通过分层采样得到

3.返回k个测试结果的均值

4.随即进行p次k划分,如10次10折交叉验证

5.留一法leave-one-out:k=m,与用D训练出的模型相似,但计算开销大

2.2.3自助法bootstrapping

以可重复采样/有放回采样/自助采样bootstrap sampling为基础:每次随机从D中选择一个样本拷贝入训练集D'后再放回D,m无限大时某样本始终不被采样的概率约36.8%,即测试集D\D'(D-D')占36.8%,亦称包外估计out-of-bag estimate

优点:适用于D小、难以有效划分训练/测试集时,能从初始数据集中得到多个与D等大的不同的训练集(集成学习)

缺点:自助法产生的数据集与初始数据集D不是同分布,会引入估计偏差,故D足够大时不用自助法

2.2.4调参与最终模型parameter tuning

训练数据:训练集+验证集validation set,基于验证集上的性能进行模型选择和调参

测试数据:测试集,用来估计模型在实际使用时的泛化能力

超参数:模型外的参数,算法的参数,无法从训练集中学习更新的参数,根据经验手动配置的参数,如学习速率、正则化参数、svm中的sigma,神经网络的层数和每层单元数

参数:模型内部的参数,如神经网络的权重

2.3性能度量performance measure

性能度量:衡量模型泛化能力的评价标准,性能度量反映了任务需求,使用不同性能度量导致不同的模型评判结果

由于有公式,剩余剩余章节的读书笔记写在笔记本上

更:西瓜书并不是一本好的机器学习入门书,仅可以作为“目录”复习使用,想入门一定要先看统计学习方法

你可能感兴趣的:(机器学习)