机器学习学习笔记(二)-模型选择与评估

  • 绪论
  • 模型评估与选择(1)
  • 模型评估与选择(2)
  • 模型评估与选择(3)
  • 线性模型(1)线性回归
  • 决策树
  • 神经网络
  • 支持向量机
  • 贝叶斯分类
  • 集成学习
  • 聚类
  • 降维与度量学习
  • 特征选择与稀疏学习
  • 计算学习理论
  • 半监督学习
  • 概率图模型
  • 规则学习
  • 强化学习

模型评估与选择

2.1经验误差与过拟合
错误率:分类错误的样本数占样本总数的比例
精度:1-错误率
把学习器的实际预测输出与样本的真实输出之间的差异称为“误差”,学习器在训练集上的误差称为“训练误差”或“经验误差”,在新样本上的误差称为“泛化误差”。
过拟合:当学习器把训练样本学得“太好”了的时候,很可能已经把训练样本自身的一些特点当做了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降。
欠拟合:对训练样本的一般性质尚未学好
机器学习学习笔记(二)-模型选择与评估_第1张图片

2.2评估方法
通常将使用一个“测试集”来测试学习器对新样本的判别能力,将测试误差作为泛化误差的近似。如何对数据集进行训练集和测试集的划分

2.2.1留出法
直接将数据集划分为两个互斥的集合,其中一个作为训练集,另一个作为测试集,在训练集上得到模型之后,再在测试集上评估测试误差。
训练集与测试集的划分要尽可能的保持数据分布的一致性,避免因数据划分过程引入额外的偏差而对最终结果产生影响,例如在分类任务中至少要保持样本的类别比例相似。保留类别比例的采样方式通常称为“分层采样”。例如通过对D进行分层采样而获得含70%样本的训练集S和含30%的测试集T,若D包括500个正例,500个反例,则分层采样得到的S应包括350个正例、350个反例,而T则包含150个正例和150个反例;若S、T中样本类别比例差别很大,则误差估计将由于训练/测试数据分布的差异而产生偏差。
不同的划分方法将导致不同的训练集和测试集,相应的,模型评估的结果也会有差别。因此单词使用留出法得到的估计结果往往不够稳定可靠,在使用留出法时,一般要采用若干随机划分、重复进行试验评估后取平均值作为留出法的评估结果。例如进行100次随机划分,每次产生一个训练/测试集用于实验评估,100次后就会得到100个结果,而留出法返回的则是这100个结果的平均。

2.2.2交叉验证法
先将数据集D划分为k个大小相似的互斥子集,每个子集Di都尽可能保持数据分布的一致性,即从D中通过分层采样得到。然后,每次用k-1个子集的并集作为训练集,余下的那个子集作为测试集;这样就可获得k组训练/测试集,从而可进行k次训练和测试,最终返回的是这k个测试结果的均值。通常把交叉验证法称为“k折交叉验证”,k最常用的取值是10。
机器学习学习笔记(二)-模型选择与评估_第2张图片
与留出法相似,将数据集D划分为k个子集同样存在多种划分方式。为减少因样本划分不同而引入的差别,k折交叉验证通常要随机使用不同的划分重复p次,最终的评估结果是这p次k折交叉验证结果的均值,例如常见的有“10次10折交叉验证”。
留一法:当数据集D中有m个样本,且k=m时,就是交叉验证法的特例:留一法。

2.2.3自助法
给定包含m个样本的数据集D,我们对它进行采样产生数据集D’;每次随机从D中挑选一个样本,将其拷贝放入D’,然后再将该样本放回初始数据集D中,使得该样本在下次采样时仍有可能被采到;这个过程重复执行m次后,我们就得到了包含m个样本的数据集D’,这就是自助采样的结果。显然,D中有一部分样本会在D’中多次出现,而另一部分样本不出现。可以做一个简单的估计,样本在m次采样中始终不被采到的概率是
在这里插入图片描述
通过自助采样,初始数据集D中约有36.8%的样本未出现在采样数据集D’中,于是我们可将D’用于训练集,D\D’用作测试集。

2.2.4调参与最终模型
大多数学习算法都有参数需要设定,参数配置不同,学得模型的性能往往有显著差异。因此,在进行模型评估和选择时,除了要对适用学习算法进行选择,还需对算法参数进行设定,这就是通常所说的“参数调节”或简称“调参”。

2.3性能度量
机器学习学习笔记(二)-模型选择与评估_第3张图片
2.3.1错误率与精度
错误率是分类错误的样本数占样本总数的比例,精度则是分类正确的样本数占样本总数的比例。对样例集D,分类错误率定义为
机器学习学习笔记(二)-模型选择与评估_第4张图片
在这里插入图片描述

2.3.2查准率、查全率与F1
机器学习学习笔记(二)-模型选择与评估_第5张图片
在很多情况下,我们可根据学习器的预测结果对样例进行排序,排在前面的是学习器认为“最可能”是正确的样本,排在最后的则是学习器认为“最不可能”的样本。按此顺序逐个把样本作为正例进行预测,则每次可以计算出当前的查全率、查准率。以查准率为纵轴、查全率为横轴作图,就得到了查准率-查全率曲线,简称“P-R曲线”,显示该曲线的图称为“P-R图”。
机器学习学习笔记(二)-模型选择与评估_第6张图片
很明显从图中可以看出,A和B学习器的性能是优于C学习器的,但是人们往往需要判断的是A和B学习器的性能比较,因此人们设计了一些综合考虑查准率、查全率的性能度量。
“平衡点”(简称BEP)就是这样的一个度量,它是查准率=查全率是时的取值,例如图中C学习器的BEP=0.64,基于平衡点的比较,可认为学习器A优于B。
平衡点是将查准率与查全率当作同等重要的变量,实际情况下,查准率与查全率的关注度是不一样的。
度量Fb就可以表示出对查准率和查全率的不同偏好
在这里插入图片描述
其中的beta>0度量了查全率对查准率的相对重要性。beta=1时退化为特殊情况F1
在这里插入图片描述
当beta>1时查全率有更大的影响,当beat<1时查准率有更大的影响。
机器学习学习笔记(二)-模型选择与评估_第7张图片

你可能感兴趣的:(机器学习)