机器学习笔记二——模型评估与选择1——评估方法

模型评估与选择1—评估方法

  • 1、留出法
  • 2、交叉验证法
  • 3、 自助法

机器学习的目标就是得到有泛化能力的好模型。然而,泛化误差不好直接获取,又不能把经验误差用作模型评估,否则会存在过拟合。为此,使用测试集(testing set)来测试学习器对新样本的判别能力,然后以测试集上的测试误差(testing error) 作为泛化误差的近似。

评估方法其实就是如何划分训练集,从而获得可靠的测试集数据来验证模型的好坏。

给一个样本数据集,我们需将样本数据集D进行适当的处理,从中产生出训练集S和测试集T。注:测试集应该尽可能与训练集互斥, 即测试样本尽量不在训练集中出现、未在训练过程中使用过,否则就会高估模型的性能。

下面介绍机器学习中常用的评估方法,并通过sklearn和鸢尾花数据集来进行进一步的说明。

from sklearn.datasets import load_iris #导入鸢尾花数据集
dataset = load_iris( )
data_iris=dataset.data#数据
target_iris = dataset.target
feature_iris=dataset.feature_names

1、留出法

“留出法” (hold-out) 直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T

即D=S∪T,S∩T=∅。在S上训练出模型后,用T来评估其测试误差,作为对泛化误差的估计。需注意的是,训练/测试集的划分要尽可能保持数据分布的一致性,避免因数据划分过程引入额外的偏差而对最终结果产生影响,例如在分类任务中至少要保持样本的类别比例相似。如果从采样的角度来看待数据集的划分过程,则保留类别比例的采样方式通常称为“分层采样’

单次使用留出法得到的估计结果往往不够稳定可靠,在使用留出法时,一般要采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果。 例如进行100 次随机划分,每次产生一个训练/测试集用于实验评估, 100 次后就得到100 个结果,而留出法返回的则是这100 个结果的平均。

【分割规则】:如何分割数据集取决于数据集的规模:

  • 通常会将 67% 的数据作为训练集,将 33% 的数据作为评估数据集。
  • 《机器学习》中指出“一般而言,测试集至少应含 30 个样例”。
  • 吴恩达老师的深度学习课程中也提到在传统机器学习中训练集和测试集的划分问题,他认为原始数据集应分为三部分,训练集、验证集和测试集,并按 6:2:2 的比例进行划分。

综上考虑,若数据集规模较小,我们应该要满足测试集至少应含 30 个样例。若数据集规模较大,则 60%~80% 作为训练集都是可以的。

【使用场合】:通常在具有大量数据且数据分布比较平衡,或者对问题的展示比较平均的情况下非常有效。该非常简洁、快速,对某些执行比较慢的算法非常有效。

【代码实现】

from sklearn.model_selection import train_test_split #导入训练集,测试集的划分
#先看一下原数据集D的大小
print(data_iris.shape)#输出(150, 4)

# 按照67%训练集,33%测试集划分数据集D
data_iris_train,data_iris_test,target_iris_train,target_iris_test=\
train_test_split(data_iris,target_iris,test_size=0.33,random_state=4)
print(data_iris_train.shape)#输出(100, 4)
print(data_iris_test.shape)#输出(50, 4)

参数解释:

  • train_data:所要划分的样本特征集

  • train_target:所要划分的样本结果

  • test_size:样本占比,如果是整数的话就是样本的数量

  • random_state:是随机数的种子。

这里的random_state就是为了保证程序每次运行都分割一样的训练集和测试集。否则,同样的算法模型在不同的训练集和测试集上的效果不一样。 当你用sklearn分割完测试集和训练集,确定模型和初始参数以后,你会发现程序每运行一次,都会得到不同的准确率,无法调参。这个时候就是因为没有加random_state。加上以后就可以调参了。

random_state参数主要是为了保证每次都分割一样的训练集和测试机,大小可以是任意一个整数,在调参缓解,只要保证其值一致即可。

关于 train_test_split() 方法更多的介绍,可参考官方文档 train_test_split()

Note!!!测试数据其实就是类比于模型在实际应用中遇到的数据,为了和模型评估中使用的测试数据进行区分,一般会把模型评估用的测试数据称为验证集(validation set)。举个例子,在Kaggle或者天池上参加比赛,我们一般会拿到一份带标记的原始数据集和一份不带标记的测试数据集。我们需要选用一种评估方法来把原始数据集划分成训练集和验证集,然后进行训练,并按照模型在验证集上的性能表现来进行选择,最后挑出最好的模型对测试集的样本进行预测,并提交预测结果。总结一下就是三个数据集:训练集、验证集(训练阶段的测试集)、测试集(最后用于测试模型性能的数据)。

即便给定训练集和测试集的样本比例后,仍存在多种划分方式对原始数据集进行分割。且不同的划分将导致不同的训练集和测试集,模型评估的结果也会有差别。 假设原始数据集满足正态分布,第一次划分过程中将正态分布边缘部分数据划分给了训练集,而第二划分过程则是将核心部分数据划分给了训练集,这两种划分训练所得的模型的评估结果差距会很明显。交叉验证法能够在一定程度上缓解因不同划分引入的误差问题。

2、交叉验证法

“交叉验证法” (cross validation)先将数据集D划分为k个大小相似的互斥子集, 即 D = D 1 ∪ D 2 ∪ … ∪ D k , D i ∩ D j = ∅ ( i ≠ j ) D=D_1∪D_2∪…∪D_k,D_i∩D_j=∅(i≠j) D=D1D2Dk,DiDj=(i=j)。每个子集 D i D_i Di 都尽可能保持数据分布的一致性,即从D中通过分层采样得到。然后,每次用k−1个子集的并集作为训练集余下的那个子集作为测试集;这样就可获得k组训练/测试集,从而可进行k次训练和测试,最终返回的是这k个测试结果的均值。

显然,交叉验证法评估结果的稳定性和保真性在很大程度上取决于k的取值,为强调这一点,通常把交叉验证法称为 “k折交叉验证” (k-fold crossvalidation) 。k最常用的取值是10 ,此时称为10折交叉验证; 在这里插入图片描述
【黄金准则】:

  • K 折交叉验证是用来评估机器学习算法的黄金准则。通常会取 K 为 3、5、10 来分离数据,只有在原始数据集和数据量很小时,才会尝试取 2。
  • 当不知道如何选择分离数据集的方法时,请选择 K 折交叉验证来分离数据集;当不知道如何设定 K 值时,请将 K 值设为 10。

与留出法相似,将数据集D划分为k个子集同样存在多种划分方式。为减小因样本划分不同而引入的差别,k折交叉验证通常要随机使用不同的划分重复p次,最终的评估结果是这p次k折交叉验证结果的均值,例如常见的有“10 次10 折交叉验证”。

10 次10 折交又验证法与100 次留出法都是进行了100 次训练/测试。
【代码实现】:

from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.tree import DecisionTreeClassifier


kfold = KFold(n_splits=10, random_state=None,shuffle=False)
score = cross_val_score(DecisionTreeClassifier(), data_iris, target_iris, cv=kfold)
print("%.3f%% (%.3f)" % (score.mean() * 100, score.std() * 100))  # 输出:94.000% (6.960)

关于KFold() 方法更多的介绍,可参考官方文档

留一法
留一法(Leave-One-Out,简称 LOO),假定数据集 D 中包含 m 个样本,若令 k = m,则得到交叉验证法的一个特例m折交叉验证,即留一法,又被称为“弃一交叉验证”。

【优点】:

  • 不受随机样本划分方式的影响,因为 m 个样本只有唯一的方式划分为 m 个子集——每个子集包含一个样本。
  • 由于留一法使用的训练集与原始数据集相比只少了一个样本,这就使得在绝大多数情况下,留一法评估结果往往被认为比较准确。

【缺陷】

  • 数据集较大时,训练 m 个模型的计算开销太大。
  • 留一法的估计结果也未必永远比其他评估方法准确,没有免费的午餐定理对实验评估方法同样适用。

【代码实现】

from sklearn.model_selection import LeaveOneOut
from sklearn.model_selection import cross_val_score
from sklearn.tree import DecisionTreeClassifier
loo = LeaveOneOut()
score = cross_val_score(DecisionTreeClassifier(), data_iris, target_iris, cv=loo)
print("%.3f%% (%.3f)" % (score.mean() * 100, score.std() * 100))  # 输出:95.333% (21.092)
print(score)

3、 自助法

我们希望评估的是用D训练出的模型。但在留出法和交叉验证法中,我们都需要对数据集进行划分,保留了一部分样本用于测试,从而使得实际评估的模型所用的数据集比D小,引入了一些因训练样本规模不同而导致的估计偏差。 留一法受训练样本规模变化的影响较小,但计算复杂度又太高了。有没有什么办法可以减少训练样本规模不同造成的影响,同时还能比较高效地进行实验估计呢?——自助法

自助法(bootstraping) 直接以自助采样法(bootstrap sampling)为基础。给定包含 m 个样本的数据集 D,对其进行采样产生数据集 D’:

  • 每次随机从 D 中挑选一个样本,将其拷贝放入 D’;
  • 然后再将该样本放回初始数据集 D 中,使得该样本在下次采样时仍有可能被采到,其实就是有放回地采样;
  • 该过程重复执行 m 次后,就得到包含 m 个样本的数据集 D’。

【特点】:

原始数据集 D 中有一部分样本会在 D’ 中多次出现,而另一部分样本不出现。假设,样本在 m 次采样中始终不被采到的概率是 ( 1 − 1 m ) m (1-\frac{1}{m})^m (1m1)m,取极限得

在这里插入图片描述

即通过自助采样,原始数据集 D 中约有 36.8% 的样本未出现在采样数据集 D’ 中。于是可将 D’ 用作训练集,余下的数据D\D’(\表示集合减法)用作测试集。 这样,实际评估的模型与期望评估的模型都使用 m 个训练样本,而我们仍有数据总量约 1 / 3 的、没在训练集中出现的样本用于测试。这样的测试结果,亦称 “包外估计”(out-of-bag estimate)。

【适合场景】:

  • 数据集较小、难以有效划分训练集和测试集时很有用;因为将数据集进行划分会让训练集进一步减小,这可能会影响模型训练效果,而自助法能够维持训练集规模。
  • 自助法能从原始数据集中产生多个不同的训练集,这对集成学习等方法有很大好处,尤其是在减小方差问题方面。

【缺陷】:
自助法产生的数据集改变了原始数据集的分布,这会引入估计偏差。因此,在原始数据集足够大时,留出法和交叉验证法更常用一些。

总结
sklearn 中还有许多评估方法,这些评估方法有的是上述所讲方法的进阶版,有的则是一些新的概念,可以去查阅官方文档做进一步的了解 机器学习笔记二——模型评估与选择1——评估方法_第1张图片

参考资料:
1、《机器学习》,周志华 著。即西瓜书。
2、南瓜书,是西瓜书的辅助,对西瓜书的一些公式的推导进行进行了一些详解。
3、sklearn 模型选择官方文档

你可能感兴趣的:(机器学习,机器学习)