机器学习- 西瓜书 - 2.2 评估方法

1. 留出法

训练测试集划分时需要尽可能保持数据分布一致性

单次使用留出法不可靠,应若干次随机划分,重复实验评估取均值

2.交叉验证法

把数据集D分成k等分,每次用k-1个子集作为训练集,余下一个为测试集,这样可得k组训练/测试集,从而可进行k次训练和测试,最后返回的结果为k次测试结果的均值

2.1 留一法

若D中有m个样本,令k=m,则得到特例:留一法。留一法不受随机样本划分方法的影响, 因为m个样本只有唯一的方式划分成m个子集,每个子集包含一个样本。留一法训练数据量大,使得绝大多数情况下,留一法中被实际评估的模型与期望评估用的D训练出来的模型很相似,因此,留一法往往比较准确。 但是, 留一法也有缺陷, 当数据量过大时,将m个模型的计算开销太大,而且留一法未必比其他的评估方法更准确

3.自助法

在留出法和交叉验证法中,难免要把部分训练集划分到测试集,导致因训练样本规模和期望的不同而产生估计偏差。

自助法可每次从数据集D中随机有放回的挑出一个样本,把它拷贝至数据集D’中。 将这个过程重复m次,得到包含m个样本的数据集D’。通过概率计算可得, 初始数据集中约有36.8%的样本未出现在采样数据集D’中。因此,可将D‘作为训练集,D\D’作为测试集。

自助法在数据集较小,难以有效划分训练/测试集的时候很有用。其次,自助法能从初始数据集中产生多个不同的训练集,这对集成学习等方法很有好处。 但是, 自助法产生的数据集会改变数据分布,会产生估计偏差。因此,初始数据集足够时,留出法和交叉验证法更常用一些。

 

 

你可能感兴趣的:(ML自学笔记,机器学习)