机器学习笔记3:模型评估与选择

模型评估与选择

1、经验误差与过拟合

错误率(err rate)

通常我们把分类错误的样本数占样本总数的比例称为“错误率”(err rate),即如果在m个样本中有a个样本分类错误,则错误率B=a/m;

精度(accuracy)

相应的, 1-a/m称为“精度”(accuracy),即“精度=1-错误率”

误差(eror)

学习器的实际预测输出与样本的真实输出之间的差异称为“误差”(eror)

训练误差(training error)

学习器在训练集上的误差称为“训练误差”(training error)或“经验误差”(empirical error),

泛化误差(generalization eror)

在新样本上的误差称为“泛化误差”(generalization eror).

过拟合(overfitting)

当学习器把训练样本学得“太好”了的时候,很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降.这种现象在机器学习中称为过拟合(overfitting)

欠拟合(underfitting)

是指对训练样本的一般性质尚未学好.

2、评估方法

测试集(testing set) 和测试误差(testing error)

通常,我们可通过实验测试来对学习器的泛化误差进行评估并进而做出选择为此,需使用一个“测试集”(testing set)来测试学习器对新样本的判别能カ,然后以测试集上的“测试误差”(testing error)作为泛化误差的近似.

留出法

“留出法”(hold-outり直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T,即D=S∪T,S∩T=∅.在S上训练出模型后,用来评估其测试误差,作为对泛化误差的估计。

交叉验证法

“交又验证法”(cross validation)先将数据集D划分为k个大小相似的互斥子集.每个子集D1都尽可能保持数据分布的一致性.然后,每次用k-1个子集的并集作为训练集,余下的那个子集作为测试集;这样就可获得k组训练/测试集,从而可进行k次训练和测试,最终返回的是这k个测试结果的均值.


机器学习笔记3:模型评估与选择_第1张图片
image.png

自助法

自助法(bootstrap sampling)为基础.给定包含m个样本的数据集D,我们对它进行采样产生数据集D‘:每次随机从D中挑选一个样本,将其拷贝放入D’,然后再将该样本放回初始数据集D中,使得该样本在下次采样时仍有可能被采到;这个过程重复执行m次后,我们就得到了包含m个样本的数据集D‘,这就是自助采样的结果.

调参与最终模型

参数(parameter)
调参(parameter tuning)

3、性能度量

对学习器的泛化性能进行评估,不仅需要有效可行的实验估计方法,还需要有衡量模型泛化能力的评价标准,这就是性能度量(performance measure)

3.1 错误率与精度

错误率是分类错误的样本数占样本总数的比例,
精度则是分类正确的样本数占样本总数的比例,

3.2 查准率、查全率与F1

混淆矩阵

对于二分类问题,可将样例根据其真实类别与学习器预测类别的组合划分为以下四种情形,令TP、FP、TN、FN分别表示其对应的样例数,则显然有TP+FP+TN+FN=样例总数.
真正例(true positive)、
假正例(false positive)、
真反例(true negative)、
假反例(false negative)


机器学习笔记3:模型评估与选择_第2张图片
image.png

査准率P与查全率R

査准率和査全率是一对矛盾的度量.一般来说,查准率高时,查全率往往偏低;而査全率高时,査准率往往偏低.


机器学习笔记3:模型评估与选择_第3张图片
image.png

P-R曲线

按顺序逐个把样本作为正例进行预测,则每次可以计算出当前的查全率、查准率.以查准率为纵轴、查全率为横轴作图,就得到了查准率-査全率曲线,简称“P-R曲线”,显示该曲线的图称为“P-R图”.


机器学习笔记3:模型评估与选择_第4张图片
image.png

P-R图直观地显示出学习器在样本总体上的查全率、査准率.在进行比较时,若一个学习器的P-R曲线被另一个学习器的曲线完全“包住”,则可断言后者的性能优于前者,例如图2.3中学习器A的性能优于学习器C;如果两个学习器的P-R曲线发生了交又,例如图2.3中的A与B,则难以一般性地断言两者孰优孰劣,只能在具体的査准率或査全率条件下进行比较.

平衡点(Break-avent Point,简称BEP)

就是这样一个度量,它是“查准率=查全率”时的取值,例如图2.3中学习器C的BEP是0.64,而基于BEP 的比较,可认为学习器A优于B

3.3 ROC与AUC

我们根据学习器的预测结果对样例进行排序,按此顺序逐个把样本作为正例进行预测,每次计算出两个重要量的值,分别以它们为横、纵坐标作图,就得到了“ROC曲线”


机器学习笔记3:模型评估与选择_第5张图片
image.png

3.4 代价敏感错误率与代价曲线

非均等代价(unequal cost)

为权衡不同类型错误所造成的不同损失,可为错误赋予“非均等代价”(unequal cost)

4、比较检验

4.1 假设检验

假设检验的基本思想是小概率反证法思想,小概率思想认为小概率事件在一次试验中基本上不可能发生,在这个方法下,我们首先对总体作出一个假设,这个假设大概率会成立,如果在一次试验中,试验结果和原假设相背离,也就是小概率事件竟然发生了,那我们就有理由怀疑原假设的真实性,从而拒绝这一假设。

4.2 交叉验证检验

交叉验证的基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set or test set),首先用训练集对分类器进行训练,再利用验证集来测试训练得到的模型(model),以此来做为评价分类器的性能指标。

4.3 Mcnemar检验

4.4 Friedman检验与Nemenyi后续检验

5、偏差与方差

“偏差-方差分解”(bias- variance decomposition)是解释学习算法泛化性能的一种重要工具.

你可能感兴趣的:(机器学习笔记3:模型评估与选择)