我们希望得到的是泛化误差小的学习器。
但是,实际上我们能做的是先让经验误差最小化,而且通常我们也能得到一个经验误差很小,在训练集上表现很好的学习器。例如甚至对训练集数据做到100%的精度,但这样的学习在多数情况下都不好。因为实际上我们想要的是在新样本上表现得很好的学习器,即前面提到的泛化误差小的学习器。
所以,我们想要学习器获得的是训练集数据的“普遍规律”和一般性质,而不是把样本的一些自身特点也学习到,这样会导致泛化性能下降,这种现象就是过拟合。
与过拟合相对应的就是欠拟合,指的是学习器连训练集的一般性质都没有学习到
西瓜书上的例子就很生动地解释了过拟合和欠拟合的概念
欠拟合:由学习能力低下造成。相对过拟合而言更容易克服(如:决策树扩展分支,神经网络增加训练轮数)
过拟合:由学习能力太过于强大造成。要克服过拟合比较麻烦,过拟合是机器学习面临的关键障碍,各类机器学习算法都带有针对过拟合的措施,但过拟合是无法彻底避免的,我们所能做的只是缓解过拟合。
这里主要指的是对学习器的泛化误差的评估。
通常,我们用一个测试集(testing set)来测试学习器对新样本的分类能力,并以测试集上的测试误差作为该学习器泛化误差的近似
通常我们假设测试集也是从样本真实分布中独立同分布采样而得,且测试集
应尽量与训练集互斥,否则会使我们获得虚低的泛化误差。
我们主要讨论的,便是如何从当前所拥有的数据集进行划分得到训练集和测试集,主要有以下几种方法:
采用留出法将数据集划分为训练集和测试集时的要求如下:
留出法:
以分类任务为例,我们需要保证训练集和测试集中样本类别的比例相似。从采样的角度看,这种保持样本类别比例的采样方式称为分层采样(stratified sampling)。若训练集和测试集的样本类别比例差别太大,则误差估计会由于它们的数据分布差异而产生偏差
在1的前提下,我们仍然有多种划分方式将数据集划分为不同的训练集/测试集,而不同的训练集/测试集会使得训练的模型评估结果有所不同。可见,单次留出法的评估结果不够稳定可靠。故采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果。如进行100次随机划分,每次产生一个训练集/测试集用于评估,100次后就得到100个结果,而留出法返回的就是这100个结果的平均。
此为留出法在划分训练集和测试集数量时的一个窘境。若训练集过小,则评估结果偏差大;若测试集过小,则评估结果方差大(一般而言,测试集至少要有30个样本)
交叉验证法(cross validation)的具体步骤:
交叉验证法评估结果的稳定性和保真性在很大程度上取决于 k k k的取值,通常把交叉验证法称为“ k k k折交叉验证”(k-fold cross validation)。最常用的取值为10(还有5、20等),此时称为10折交叉验证。
假定数据集 D D D中包含 m m m个样本,若令 k = m k=m k=m,则得到了交叉验证法的一个特例:留一法(Leave-One-Out,简称LOO)。显然,留一法的独特之处在于它不受样本随机划分的影响,因为 m m m个样本只能划分成 m m m个数据子集,即每一个样本就为一个子集(也即不需要像其它的交叉验证法那样需要 p p p次随机划分数据集进行 p p p次的实验)。
由于留一法的训练集只比整个数据集少一个样本,故往往认为留一法的评估结果比较准确(但不一定准确)。但是,它的缺陷也十分棘手:
背景:
我们希望评估的模型是用数据集 D D D训练的,但是对于之前的留出法和交叉验证法,我们都保留了一部分作为测试集,这样会引入样本规模不同导致的估计偏差。而留一法虽然相对来说样本规模带来的影响较小(训练集只少一个样本),但是计算复杂度太高。
基于以上背景问题,我们想要一种既能减少样本规模不同带来的影响,又能高效地进行实验估计的方法。而自助法(bootstrapping)是一个比较好的解决方案。
自助法直接以自助采样法(bootstrap sampling)为基础,即以有放回采样的方式采样出训练集 D ′ D' D′。
训练集 D ′ D' D′显然可能会有重复的样本,且只采样了数据集 D D D中的部分数据。可这样做一个估计:样本在 m m m次采样后始终不被采样到的概率是 ( 1 − 1 m ) m (1-\dfrac{1}{m})^m (1−m1)m,对 m m m取极限得:
即通过自助采样, D D D中大约有36.8%的样本未出现在 D ′ D' D′中。于是我们用 D ′ D' D′做训练集,用 D D D \ D ′ D' D′做测试集。
由于 D ′ D' D′中可能有重复样本,它改变了初始数据集的分布,故引入了估计偏差。所以,自助法一般只有在数据集很小(一般为20个以下)时才会使用。当数据量足够时,留出法和交叉验证法更常用一些。
值得注意的是,自助法能从初始数据集中产生多个不同的训练集,这对集成学习等方法有很大的好处。
在进行模型评估与选择时,除了要对适用的学习算法进行选择,还需对算法参数进行设定,即调参。
机器学习涉及两类参数:
学习算法的很多参数是在实值范围内取值,因此对每种参数配置都训练出一个模型是不可行的。现实中的常见做法是在某个范围内以某个步长进行取值,则有若干个候选参数。显然,这样做得到的候选参数不是理论上的最优参数,这只是计算开销和性能估计之间的一种折中。而且即使是在这样的情况下,计算开销依旧很大。
强大的学习算法往往有很多参数需要设定,这将导致极大的调参工程量,以至于在不少应用任务中,参数调得好不好往往对最终模型的性能有关键性影响。
在模型选择完成后,学习算法和参数配置已选定,此时应该用数据集D重新训练模型。这个模型在训练过程中使用了全部的样本,这才是我们最终提交的模型。
对于数据集的划分,之前我们提到的是划分为训练集和测试集。我们用测试集上的泛化误差作为模型在面对新样本的误差的近似。对于训练集,我们这里再把它分出一部分数据作为验证集,基于验证集上的性能来做模型选择和调参。
前面节讲的是估计泛化误差的方法,而这一节讲的是衡量模型泛化能力的标准,这两个部分是对学习器泛化性能进行评估所必需的。
在对比不同模型的性能时,使用不同的性能度量往往会导致不同的评判结果,这意味着模型的评价是相对性能度量而言的。而性能度量则是根据任务需求来选择的。
即模型的评价不仅取决于算法和数据,还决定于任务需求。
如在预测任务中,要评估学习器的性能,就要把预测结果和真实标记进行比较。回归任务常用的性能度量是均方误差。
以下是对分类任务中常用的性能度量:
错误率和精度虽然常用但不能满足所有任务的需求。如对于“挑出的西瓜有多少比例是好瓜”,“所有好瓜中有多少比例被挑出来了”,“检索出的信息有多少比例是用户感兴趣的”,“用户感兴趣的有多少被检索出来的了”等任务,错误率显然无法满足需求,需要其他的性能度量。
查全率(recall)和查准率(precision)是更为适用于此类需求的性能度量。
对于二分类问题,在对样本进行分类之后,产生了以下四种类型的样本:
一般来说,查全率高时,查准率往往偏低;查准率高时,查全率往往偏低。
可以这么想:
通常只有在一些简单的任务中,才可能使查全率和查准率都很高。
按正例可能性将样本排序,依次将排序的样本作为正例计算出查全率和查准率,依次做P-R曲线图
上面的图和书中的图的主要区别在于曲线的两个端点,除非正例在样本占的比例极小,才有可能像书中的图一样最右查准率趋于0:
上图的每条曲线代表一个学习器,即根据每个学习器的分类结果绘制出各自的P-R曲线,可凭借以下两种方法比较学习器的性能优劣:
但其实BEP还是过于简化了,更常用的是F1度量:
F1是基于查准率和查全率的调和平均定义的:
1 F = 1 2 ( 1 P + 1 R ) \dfrac{1}{F}=\dfrac{1}{2}(\dfrac{1}{P}+\dfrac{1}{R}) F1=21(P1+R1)
但是在一些应用中,我们对查准率查全率的重视程度不同,此时F1则不满足我们对查准率或查全率的偏好。
如:
F1度量的一般形式—— F β F_\beta Fβ,能让我们表达出对查准率/查全率的偏好:
F β F_\beta Fβ是加权调和平均 1 F β = 1 1 + β 2 ( 1 P + β 2 R ) \dfrac{1}{F_\beta}=\dfrac{1}{1+\beta^2}(\dfrac{1}{P}+\dfrac{\beta^2}{R}) Fβ1=1+β21(P1+Rβ2)
β > 0 \beta>0 β>0度量了查全率对查准率的相对重要性:
以上是针对于只有一个二分类混淆矩阵(只针对一个数据集进行了一次分类操作)的情况进行的讨论,在现实任务中,我们有以下情况会希望在多个二分类混淆矩阵上综合考察查准率和查全率:
面对多个二分类混淆矩阵,主要有以下两种做法:
先在各个混淆矩阵上计算出查准率和查全率,记为 ( P 1 , R 1 ) ( P 2 , R 2 ) , . . . , ( P n , R n ) (P_1,R_1)(P_2,R_2),...,(P_n,R_n) (P1,R1)(P2,R2),...,(Pn,Rn),再计算平均值,这样得到的即为宏查准率(macro-P),宏查全率(macro-R),以及对应的宏F1(macro-F1):
先将各个混淆矩阵的元素进行平均,得到 T P , F P , T N , F N TP,FP,TN,FN TP,FP,TN,FN的平均值 T P ‾ , F P ‾ , T N ‾ , F N ‾ \overline{TP}, \overline{FP},\overline{TN},\overline{FN} TP,FP,TN,FN,再基于这些平均值算出微查准率(micro-P),微查全率(micro-R),微F1(micro-F1)
我们通过学习器可得到样本对应的预测实值或概率值,将这个预测值与一个分类阈值进行比较,大于阈值为正类,小于则为反类。
根据预测实值或概率值,我们可将样本排序,于是越有可能是正例的样本排在越前面。分类过程就相当于在这个排序中以某个截断点(即阈值)将样本分为两部分,前一部分判作正例,后一部分判作反例。
根据任务需求我们对查准率和查全率有不同的偏好,对此我们采取不同的截断点:
ROC(Receiver Operating Characteristic)全称是“受试者工作特征”曲线,与P-R曲线相似,我们根据预测值进行排序,按此顺序逐个把样本作为正例进行预测,每次计算出真正例和假正例,以它们为坐标作图。
ROC图的横坐标轴为假正例率,纵坐标轴为真正例率
逐个将样本作为正例进行计算,更改的步长为 1 m + 和 1 m − \dfrac{1}{m^+}和\dfrac{1}{m^-} m+1和m−1,具体步骤如下:
之前介绍的性能度量大都隐式地假设了均等代价,如错误率是直接计算错误次数,而没有考虑不同错误所造成的不同后果
为衡量不同错误类型所造成的不同损失,可为错误赋予“非均等代价”(unequal cost);在非均等代价下,我们不再简单地希望最小化错误次数,而是最小化总体代价
同样的,在非均等代价下,ROC曲线显然也不满足总体代价的要求,于是引入代价曲线:
横轴为正例概率代价 P ( + ) c o s t P(+){cost} P(+)cost:
注:对于式(2.25)的推导:
要点:ROC曲线上的每一点对应了代价曲线上的一条线段
前面讲述的是实验评估方法和性能度量,但是单凭这两个就相对学习器进行性能评估还是不够的,原因在于:
这里,我们可以运用统计假设检验(hypothesis test)来佐证我们的性能评估结果
例如,我们在测试集上观察到学习器A性能优于学习器B,则基于统计假设检验结果我们可以推断出A的泛化性能是否在统计意义上优于B,以及这个结论的把握有多大
以下是两种最基本的假设检验方法(性能度量默认为错误率):
假设检验中的假设是对学习器泛化错误率分布的某种判断或猜想。这里,虽然我们只能得到测试集上的测试错误率而不是泛化错误率,但是相差很远的可能性较小,相差很近的可能性较大(这种思路很值得学习),所以我们可以用测试错误率估算推出泛化误差率的分布
我们可以通过实验估计学习算法的泛化性能,同时我们也希望了解为什么该算法具有这样的性能
偏差-方差分解(bias-variance decomposition)是解释学习算法泛化性能的一种重要工具。具体操作是将学习算法的期望泛化错误率进行拆解
以下是推导过程:
注:不考虑噪声,偏差很大可以认为是欠拟合引起的;方差很大可以认为是过拟合引起的
对算法的期望误差进行分解:
式(2.41)的推导不难,以下主要是对其中的两处“最后项为0”进行推导:
也就是说,泛化误差可分解为方差、偏差与噪声之和
回顾偏差、方差和噪声的含义:
泛化误差可分解为偏差、方差与噪声之和
偏差-方差分解说明,泛化性能是由学习算法的能力、数据的充分性和学习任务本身的难度所共同决定的
给定学习任务,为了取得较好的泛化性能,需使方差较小(即使得数据扰动产生的影响小),需使偏差较小(即能够充分拟合数据)
由泛化误差的分解可以看出,我们只需使得偏差和方差都尽量小即可获得较优的泛化性能。但是,一般来说,偏差和方差是有冲突的(不考虑噪声,偏差很大可以认为是欠拟合引起的;方差很大可以认为是过拟合引起的),即偏差-方差窘境。
注:泛化误差为最上面那条曲线
上图的意思是:假设我们能控制算法的训练程度,当训练程度不足(欠拟合),此时由偏差主导了泛化误差率;随着训练程度加深,学习器的拟合能力逐渐增强,训练数据发生的扰动能被学习器学习到,方差逐渐主导了泛化误差率(不考虑噪声,偏差很大可以认为是欠拟合引起的;方差很大可以认为是过拟合引起的)