这里的关键是:在现有的数据集合中获得可靠的“测试集数据”。这里有一个标准,就是测试集(用于评估)应该与训练集(用于学习)尽可能保持“互斥”。
常用的数据集划分方法有一下几种:
=================分割线==============
在机器学习中,我们是依靠对学习器的泛化误差进行评估的方法来选择学习器。具体方法如下:我们需要从训练集数据中产出学习器,再用测试集来测试所得学习器对新样本的判别能力,以测试集上的测试误差作为泛化误差的近似,来选取学习器。
通常我们假设训练集、测试集都是从样本集中独立同分布采样得到,且测试集、训练集中的样本应该尽可能互斥(测试集中的样本尽量不在训练集中有出现、尽量不在训练过程中被使用)。
测试样本为什么要尽可能不出现在训练集中呢?好比老师出了10道练习题给大家做,考试时候又用这10道练习题考试,这个考试成绩显然“过于乐观”,不能真实的反映同学的学习情况。我们是希望得到泛化性能强的模型,好比同学做完10道练习题能“举一反三”。
===============分割线====================
当我们只有一个包含m个样例的样本集D={(x1,y1),(x2,y2),…,(xm,ym)},既要训练又要测试,我们就要对D进行适当处理,从中产出训练集S、测试集T。
留出法(hold out):将全量数据集 D 划分为训练集 S 和测试集 T。
注意点:
===============分割线================
K折交叉验证(k-fold cross validation)
注意点:
总结:我们理想中希望评估的是用样本集D训练出来的模型,但在留出法、交叉验证法中,由于都需要保留一部分样本用做测试,因此实际评估的模型所用的训练集比D小,这就必然引入误差。留一法受训练样本规模变化影响最小,但是计算复杂度高。下面介绍的方法既可减少训练样本规模不同造成的影响,又可比较高效的进行实验评估。
===================分割线=============================
自助法(bootstrap):是一种基于“自助采样”的方法(bootstrap sampling),别称“有放回采样”、“可重复采样”。
假设样本集D包含m个样本,我们通过采样产生训练集d,具体方法如下:
注意点:
显然样本集D中一部分样本会在训练集d里多次出现,而另一部分样本不出现,这样的训练集d有2个特征:1.训练集与原样本集同规模;2.数据分布有所改变。
经计算,一个样本在m次采样始终不被采到的概率约为36.8%。将没有出现的样本就作为测试集,这样的测试结果,亦称为“包外估计”。
==============分割线=====================
留出法与交叉验证法都是使用分层采样的方式进行数据采样与划分,而自助法则是使用有放回重复采样的方式进行数据采样。
自助法在样本集D较小、难以有效划分训练/测试集时很有用。此外,自助法从初始样本集D中产生多个不同的训练集,这对集成学习等方法很有用。
然而,自助法产生的训练集改变了初始样本集的分布,这会引入估计误差。因此,当初始样本集足够时,留出法和交叉验证法更常用一些。
对于数据集小且可有效划分的时候最好使用留一法来进行划分,因为这种方法最为准确。
=================分割线================
参考文献;
机器学习中,从样本集合分得训练集、测试集的三种方法
机器学习模型性能评估方法笔记
机器学习模型评估方法
=================END==================