机器学习(周志华) 学习笔记:第二章 模型评估与选择

文章目录

  • 1. 经验误差与过拟合
    • 误差
    • 过拟合和欠拟合
  • 2. 评估方法
    • 测试集和训练集
      • 留出法
      • 交叉验证法
        • 特例:留一法
      • 自助法
  • 3. 性能度量
    • 查准率和查全率
    • ROC和AUC
      • 课后题2.5
    • 代价敏感错误率与代价曲线
  • 4. 比较检验
    • 假设检验
    • 交叉验证t检验
    • McNemar检验
    • Friedman检验和Nemenyi后续检验
  • 5. 偏差与方差

1. 经验误差与过拟合

m个样本里有a个分类错误
错误率:a/m
精度:1-a/m

误差

预测输出与样本真实值之间的差异
训练误差:在训练集上的误差
泛化误差:在新样本上的误差

训练学习器不光要让训练误差最小化,也要让泛化误差最小化

过拟合和欠拟合

欠拟合:指对训练样本的一般性质尚未学好
解决方法:

  • 决策树中扩展分支
  • 神经网络中增加训练轮数

过拟合:当学习器把训练样本学的“太好”的时候,很可能把一些训练样本自身的特点当成了所有潜在样本都会具有的一般性质,造成泛化性能下降

  • 无法彻底避免的,只能缓解,或者说是减少风险
  • 面对模型选择问题,需要对模型的泛化误差进行评估(理想情况)

2. 评估方法

测试集和训练集

测试集:

  • 来测试学习器对新样本的判别能力,然后以测试集上的测试误差作为泛化误差的近似
  • 测试样本是从真实分布中独立同分布采样而得

若训练集S包含绝大多数样本,则训练出来的模型更接近用样本D训练出的模型,但由于测试集T比较小,评估结果可能不够准确。
若令测试集T包含多一些样本,则训练集S与样本D的差别更多,训练出来的模型差别较大,从而降低了评估结果的保真性。

留出法

一般采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果

交叉验证法

将数据集划分为k个大小相似的互斥子集,每次用k-1个作为训练集,余下的作为测试集,进行k次训练和测试后,返回k个测试结果的均值

特例:留一法

令k=m,即每个子集包含一个样本。由于训练集与初始数据集相比只少了一个样本,因此该方法评估出的模型与期望评估的用D训练出来的模型很接近。
缺陷:m较大时,计算开销难以忍受

自助法

为减少训练样本规模变化带来的影响,可以利用重采样的方式,重复采样m次,保证样本规模的一致性
lim ⁡ m → ∞ ( 1 − 1 m ) m = 1 e ≈ 0.368 \lim\limits_{m\to\infty}\left(1-\frac{1}{m} \right)^m=\frac{1}{e}\approx 0.368 mlim(1m1)m=e10.368
初始数据集中约有36.8%的样本未出现在采样数据集中
缺陷:在数据集较小,难以有效划分训练/测试集时有用。但会改变数据集的分布,引入估计偏差

3. 性能度量

衡量模型泛化能力的评价标准
预测任务中,要评估学习器的性能,就要把预测结果与真实结果进行比较

  • 回归任务中常用的均方误差(mean squared error):

E ( f ; D ) = 1 m ∑ i = 1 m ( f ( x i ) − y i ) 2 E(f;D)=\frac{1}{m}\sum\limits_{i=1}^m (f(x_i)-y_i)^2 E(f;D)=m1i=1m(f(xi)yi)2

  • 分类任务中常用的错误率和精度:
    错误率: E ( f ; D ) = 1 m ∑ i = 1 m I ( f ( x i ) ≠ y i ) E(f;D)=\frac{1}{m}\sum\limits_{i=1}^m \mathbb{I}(f(x_i)\ne y_i) E(f;D)=m1i=1mI(f(xi)̸=yi)
    精度: a c c ( f ; D ) = 1 m ∑ i = 1 m I ( f ( x i ) = y i ) = 1 − E ( f ; D ) acc(f;D)=\frac{1}{m}\sum\limits_{i=1}^m \mathbb{I}(f(x_i)= y_i)=1-E(f;D) acc(f;D)=m1i=1mI(f(xi)=yi)=1E(f;D)

查准率和查全率

真实情况 预测结果
正例 反例
正例 TP(真正例) FN(假反例)
反例 FP(假正例) TN(真反例)

查准率:挑出来的西瓜中好瓜的比例
P = T P T P + F P P=\frac{TP}{TP+FP} P=TP+FPTP
查全率:好瓜中被挑出来的比例
R = T P T P + F N R=\frac{TP}{TP+FN} R=TP+FNTP

通常情况下(有部分西瓜的好坏难以区分),查准率和查全率是矛盾的。如果为了提高查准率,则需要筛选更“严格”以保证挑出来的都是好瓜,但这样会造成一部分好瓜没有被挑出来,所以查全率较低。如果为了提高查全率,则需要筛选更“宽松”以保证能尽可能多地把好西瓜挑出来,但这样会造成很多坏瓜也被挑了出来,所以查准率较低。需要在两者之间寻求一个“平衡”,让查准率和查全率都尽可能地高。

  • P-R曲线

可以用于比较不同学习器的性能。A、B的P-R曲线完全“包住”C的P-R曲线,则A、B的性能优于C。但A和B的的P-R曲线发生交叉,难以一般性地断言优劣。比较合理的判据是比较的P-R曲线下的面积,但由于这个值难以估计,所以引入“平衡点”(Break-Even Point,简称BEP)。它是查准率=查全率时的取值。由于A的BEP大于B的BEP,则可以认为A优于B。

机器学习(周志华) 学习笔记:第二章 模型评估与选择_第1张图片

- F 1 F_1 F1度量:基于查准率与查全率的调和平均值
1 F 1 = 1 2 ( 1 P + 1 R ) \frac{1}{F_1}=\frac{1}{2}\left(\frac{1}{P}+\frac{1}{R}\right) F11=21(P1+R1)
F 1 = 2 P R P + R = 2 T P m + T P − T N F_1=\frac{2PR}{P+R}=\frac{2TP}{m+TP-TN} F1=P+R2PR=m+TPTN2TP
其中,m是样本总数

- F 1 F_1 F1度量的一般形式—— F β F_\beta Fβ:加权调和平均值
1 F β = 1 1 + β 2 ( 1 P + β 2 R ) \frac{1}{F_\beta}=\frac{1}{1+\beta^2}\left(\frac{1}{P}+\frac{\beta^2}{R}\right) Fβ1=1+β21(P1+Rβ2)
F β = ( 1 + β 2 ) P R β 2 P + R F_\beta=\frac{{(1+\beta^2})PR}{\beta^2P+R} Fβ=β2P+R(1+β2)PR

β \beta β度量了查全率对查准率的相对重要性。 β > 1 \beta>1 β>1时,查全率重要性更高,即我们希望尽可能避免漏网之鱼; β < 1 \beta<1 β<1时,查准率重要性更高,即我们希望尽可能避免浑水摸鱼。

ROC和AUC

根据预测结果对样例进行排序,然后逐个将样本的预测值作为分类阈值(即将样本划分为正例)进行预测,计算真正例率(True Positive Rate,简称TPR)和假例率(False Positive Rate,简称FPR),依次将点(FPR,TPR)连接起来,构成ROC曲线。
在样例有限的情况下,ROC曲线并不是平滑的(如图a),而是阶梯函数(如图b)。现将分类阈值设为最大,即将所有样本划分为反例,此时FPR,TPR都为零,将 ( 0 , 0 ) (0,0) (0,0)标记为第一个点。然后依次将样本划分为正例。设前一个标记点为 ( x , y ) (x,y) (x,y),当前若为真正例则对应标记点为 ( x , y + 1 m + ) (x,y+\frac{1}{m^+}) (x,y+m+1)(纵坐标增加 1 m + \frac{1}{m^+} m+1,即真正例总数增加1,真正例率增加 1 m + \frac{1}{m^+} m+1),若为假正例则对应标记点为 ( x + 1 m − , y ) (x+\frac{1}{m^-},y) (x+m1,y)(衡坐标增加 1 m − \frac{1}{m^-} m1,即假正例总数增加1,假正例率增加 1 m − \frac{1}{m^-} m1
机器学习(周志华) 学习笔记:第二章 模型评估与选择_第2张图片
ROC曲线下的面积(Area Under ROC Curve,简称AUC)可以作为比较学习器性能的判据
AUC可通过对ROC曲线下各部分(小梯形)面积进行积分得到:
A U C = 1 2 ∑ i = 1 m − 1 ( x i + 1 − x i ) ⋅ ( y i + 1 + y i ) AUC = \frac{1}{2}\sum\limits^{m-1}_{i=1}(x_{i+1}-x_i)\cdot(y_{i+1}+y_i) AUC=21i=1m1(xi+1xi)(yi+1+yi)

课后题2.5

如果将横坐标乘 m − m^- m,将纵坐标乘 m + m^+ m+,则横纵坐标则分别表示将样本划分为正例时的真正例数和假正例数。若前一个标记点为 ( m − x i , m + y i ) (m^-x_i,m^+y_i) (mxi,m+yi),当前若为真正例则对应标记点为 ( m − x i , m + y i + 1 ) (m^-x_i,m^+y_i+1) (mxi,m+yi+1),正例预测值小于反例的数量增加 m − x i m^-x_i mxi,当前若为假正例则对应标记点为 ( m − x i + 1 , m + y i ) (m^-x_i+1,m^+y_i) (mxi+1,m+yi),正例预测值小于反例的数量不变,即每次增加量可表示为 m + m − 2 ( x i + 1 + x i ) ⋅ ( y i + 1 − y i ) \frac{m^+m^-}{2}(x_{i+1}+x_i)\cdot(y_{i+1}-y_i) 2m+m(xi+1+xi)(yi+1yi)

假设:正例预测值小于反例,记一个罚分,正例预测值等于反例,记0.5个罚分,则罚分数可表示为:
m + m − ℓ r a n k = ∑ x + ∈ D + ∑ x − ∈ D − ( I ( f ( x + ) < f ( x − ) ) + 1 2 I ( f ( x + ) = f ( x − ) ) ) = m + m − 2 ∑ i = 1 m − 1 ( x i + 1 + x i ) ⋅ ( y i + 1 − y i ) m^+m^- \ell_{rank}=\sum\limits_{x^+\in D^+}\sum\limits_{x^-\in D^-} \left(\mathbb{I}(f(x^+)< f(x^-))+\frac{1}{2}\mathbb{I}(f(x^+)=f(x^-))\right) \\ = \frac{m^+m^-}{2}\sum\limits^{m-1}_{i=1}(x_{i+1}+x_i)\cdot(y_{i+1}-y_i) m+mrank=x+D+xD(I(f(x+)<f(x))+21I(f(x+)=f(x)))=2m+mi=1m1(xi+1+xi)(yi+1yi)

ℓ r a n k = 1 2 ∑ i = 1 m − 1 ( x i + 1 + x i ) ⋅ ( y i + 1 − y i ) \ell_{rank}=\frac{1}{2}\sum\limits^{m-1}_{i=1}(x_{i+1}+x_i)\cdot(y_{i+1}-y_i) rank=21i=1m1(xi+1+xi)(yi+1yi)
因为 ( x i + 1 − x i ) ⋅ ( y i + 1 + y i ) + ( x i + 1 + x i ) ⋅ ( y i + 1 − y i ) = 2 ( x i + 1 y i + 1 − x i y i ) (x_{i+1}-x_i)\cdot(y_{i+1}+y_i)+(x_{i+1}+x_i)\cdot(y_{i+1}-y_i) =2(x_{i+1}y_{i+1}-x_{i}y_{i}) (xi+1xi)(yi+1+yi)+(xi+1+xi)(yi+1yi)=2(xi+1yi+1xiyi)
AUC + ℓ r a n k = ∑ i = 1 m − 1 ( x i + 1 y i + 1 − x i y i ) = x m y m = 1 \textbf{AUC}+\ell_{rank}=\sum\limits^{m-1}_{i=1}(x_{i+1}y_{i+1}-x_{i}y_{i})=x_my_m=1 AUC+rank=i=1m1(xi+1yi+1xiyi)=xmym=1,即 AUC = 1 − ℓ r a n k \textbf{AUC}=1-\ell_{rank} AUC=1rank

代价敏感错误率与代价曲线

二分类代价矩阵:

真实情况 预测结果
正例 反例
正例 0 cost01
反例 cost10 0

代价敏感错误率:
E ( f ; D ; c o s t ) = 1 m ( ∑ x i ∈ D + I ( f ( x i ) ≠ y i ) × c o s t 01 + ∑ x i ∈ D − I ( f ( x i ) ≠ y i ) × c o s t 10 ) E(f;D;cost)=\frac{1}{m}\left(\sum\limits_{x_i\in D^+} \mathbb{I}(f(x_i)\ne y_i)\times cost_{01}+\sum\limits_{x_i\in D^-} \mathbb{I}(f(x_i)\ne y_i)\times cost_{10} \right) E(f;D;cost)=m1(xiD+I(f(xi)̸=yi)×cost01+xiDI(f(xi)̸=yi)×cost10)

在非均等代价下,ROC曲线不能直接反映出学习器的期望总体代价,而需要引入代价曲线

代价曲线

  • 横轴:正例概率代价

P ( + ) c o s t = p × c o s t 01 p × c o s t 01 + ( 1 − p ) × c o s t 10 P(+)_{cost}=\frac{p\times cost_{01}}{p\times cost_{01}+(1-p)\times cost_{10}} P(+)cost=p×cost01+(1p)×cost10p×cost01
其中, p p p是样例为正例的概率

  • 纵轴:归一化代价

c o s t n o r m = F N R × p × c o s t 01 + F P R × ( 1 − p ) × c o s t 10 p × c o s t 01 + ( 1 − p ) × c o s t 10 = F N R ⋅ P ( + ) c o s t + F P R ⋅ ( 1 − P ( + ) c o s t ) = ( F N R − F P R ) ⋅ P ( + ) c o s t + F P R cost_{norm}=\frac{FNR\times p\times cost_{01}+FPR \times (1-p)\times cost_{10}}{p\times cost_{01}+(1-p)\times cost_{10}}\\=FNR\cdot P(+)_{cost}+FPR\cdot (1-P(+)_{cost})\\=(FNR-FPR)\cdot P(+)_{cost}+FPR costnorm=p×cost01+(1p)×cost10FNR×p×cost01+FPR×(1p)×cost10=FNRP(+)cost+FPR(1P(+)cost)=(FNRFPR)P(+)cost+FPR

当FPR,FNR确定时,上式表示斜率为FNR-FPR,截距为FPR的线段
由于FNR=1-TPR,则ROC曲线上的每点(FPR,TPR)都对应 c o s t n o r m − P ( + ) c o s t cost_{norm}-P(+)_{cost} costnormP(+)cost平面内的一条线段,线段下的面积表示该条件下的期望总代价,所有线段围成的面积即表示所有条件下学习器的期望总体代价,围成的线段则是代价曲线

机器学习(周志华) 学习笔记:第二章 模型评估与选择_第3张图片

4. 比较检验

(感觉这部分需要一些统计学的知识,之后系统复习一下统计学,再补充一下这部分)

假设检验

已知:泛化错误率为 ϵ \epsilon ϵ的学习器在一个样本上犯错的概率为 ϵ \epsilon ϵ;测试错误率 ϵ ^ \hat{\epsilon} ϵ^意味着在m个样本中有 ϵ ^ m \hat{\epsilon}m ϵ^m个被误分类。则泛化错误率为 ϵ \epsilon ϵ的学习器被测得测试错误率为 ϵ ^ \hat{\epsilon} ϵ^的概率为:
P ( ϵ ^ ; ϵ ) = ( m ϵ ^ m ) e ϵ ^ ( 1 − e ) m ( 1 − ϵ ^ ) P(\hat{\epsilon};\epsilon)=\binom{m}{\hat{\epsilon}m}e^{\hat{\epsilon}}(1-e)^{m(1-\hat{\epsilon})} P(ϵ^;ϵ)=(ϵ^mm)eϵ^(1e)m(1ϵ^)上式为二项分布

假设: ϵ ≤ ϵ 0 \epsilon\le\epsilon_0 ϵϵ0,则在 1 − α 1-\alpha 1α的概率内能观测到的最大错误率为:
ϵ ˉ = max ⁡ ϵ s.t. ∑ i = ϵ 0 m + 1 m ( m ϵ ^ m ) e ϵ ^ ( 1 − e ) m ( 1 − ϵ ^ ) < 1 − α \bar{\epsilon} = \max \epsilon \quad \textbf{s.t.} \sum\limits_{i=\epsilon_0m+1}^m\binom{m}{\hat{\epsilon}m}e^{\hat{\epsilon}}(1-e)^{m(1-\hat{\epsilon})}<1-\alpha ϵˉ=maxϵs.t.i=ϵ0m+1m(ϵ^mm)eϵ^(1e)m(1ϵ^)<1α
此时,若测试错误率 ϵ ^ < ϵ ˉ \hat{\epsilon}<\bar{\epsilon} ϵ^<ϵˉ,则在 α \alpha α的显著度夏,原假设 ϵ ≤ ϵ 0 \epsilon\le\epsilon_0 ϵϵ0不能被拒绝,即学习器的泛化错误率不大于 ϵ 0 \epsilon_0 ϵ0的置信度为 1 − α 1-\alpha 1α;否则原假设被拒绝

如果通过多次重复留出法或交叉验证法等进行多次训练/测试,会得到多个测试错误率,此时可以使用t检验:
对于k个测试错误率,平均测试错误率 μ \mu μ和方差 σ 2 \sigma^2 σ2
μ = 1 k ∑ i = 1 k ϵ ^ i \mu=\frac{1}{k}\sum\limits_{i=1}^k \hat{\epsilon}_i μ=k1i=1kϵ^i
σ 2 = 1 k − 1 ∑ i = 1 k ( ϵ ^ i − μ ) 2 \sigma^2=\frac{1}{k-1}\sum\limits_{i=1}^k(\hat{\epsilon}_i-\mu)^2 σ2=k11i=1k(ϵ^iμ)2
这k个测试错误率可看作泛化错误率 ϵ 0 \epsilon_0 ϵ0的k次独立采样,则变量
τ t = k ( μ − ϵ 0 ) σ \tau_t = \frac{\sqrt{k}(\mu-\epsilon_0)}{\sigma} τt=σk (μϵ0)
服从自由度为k-1的t分布

假设: μ = ϵ 0 \mu=\epsilon_0 μ=ϵ0
若平均错误率 μ \mu μ ϵ 0 \epsilon_0 ϵ0之差 ∣ μ − ϵ 0 ∣ |\mu-\epsilon_0| μϵ0位于临界值范围内[ t − α / 2 , t α / 2 t_{-\alpha/2},t_{\alpha/2} tα/2,tα/2],则不能拒绝原假设 μ = ϵ 0 \mu=\epsilon_0 μ=ϵ0,即可认为泛化错误率为 ϵ 0 \epsilon_0 ϵ0,置信度为 1 − α 1-\alpha 1α,否则拒绝原假设

交叉验证t检验

对两个学习器A和B,若两个学习器的性能相同,则它们使用相同的训练/测试集得到的测试错误率应相同,即 ϵ i A = ϵ i B \epsilon_i^A=\epsilon_i^B ϵiA=ϵiB
可以使用k折交叉验证“成对t检验”进行比较检验:对于k折交叉验证产生的k对测试错误率就差,根据差值 Δ 1 , Δ 2 , . . . Δ k \Delta_1,\Delta_2,...\Delta_k Δ1,Δ2,...Δk来对“学习器A和B性能相同”这个假设进行t检验,计算出差值均值 μ \mu μ和方差 σ 2 \sigma^2 σ2,在显著度 α \alpha α下,若变量 τ t = ∣ k μ σ ∣ \tau_t=|\frac{\sqrt{k}\mu}{\sigma}| τt=σk μ小于临界值 t α / 2 , k − 1 t_{\alpha/2,k-1} tα/2,k1,则假设不能被拒绝,即两个学习器的性能没有显著差异;否则拒绝原假设

McNemar检验

两学习器分类差别列联表

算法B 算法A
正确 错误
正确 e00 e01
错误 e10 e11

若两个学习器的性能相同,则应有 e 01 = e 10 e_{01}=e_{10} e01=e10,那变量 ∣ e 01 − e 10 ∣ |e_{01}-e_{10}| e01e10应该服从正态分布
McNemar检验考察变量:
τ χ 2 = ( ∣ e 01 − e 10 ∣ − 1 ) 2 e 01 + e 10 \tau_{\chi^2 }=\frac{(|e_{01}-e_{10}|-1)^2}{e_{01}+e_{10}} τχ2=e01+e10(e01e101)2
服从自由度为1的 χ 2 \chi^2 χ2分布,即标准正态分布变量的平方
给定显著度 α \alpha α,当以上变量小鱼临界值 χ α 2 \chi_\alpha^2 χα2时,不能拒绝原假设;否则拒绝原假设,且平均错误率较小的那个学习器性能较优

Friedman检验和Nemenyi后续检验

在比较多个算法时,使用基于算法排序的Friedman检验

当算法性能相同时,它们的平均序值应当相同;假定在 N N N个数据集上比较 k k k个算法,令 r i r_i ri表示第 i i i个算法的平均序值,则 r i r_i ri的均值和方差分别为 ( k + 1 ) / 2 (k+1)/2 (k+1)/2 ( k 2 − 1 ) / 12 N (k^2-1)/12N (k21)/12N
变量
τ χ 2 = k − 1 k ⋅ 12 N k 2 − 1 ∑ i = 1 k ( r i − k + 1 2 ) 2 = 12 N k ( k + 1 ) ( ∑ i = 1 k r i 2 − k ( k + 1 ) 2 4 ) \tau_{\chi^2 }=\frac{k-1}{k}\cdot\frac{12N}{k^2-1}\sum\limits_{i=1}^k\left(r_i-\frac{k+1}{2}\right)^2\\=\frac{12N}{k(k+1)}\left(\sum\limits_{i=1}^kr_i^2-\frac{k(k+1)^2}{4}\right) τχ2=kk1k2112Ni=1k(ri2k+1)2=k(k+1)12N(i=1kri24k(k+1)2)
k k k N N N都较大时,服从自由度为 k − 1 k-1 k1 χ 2 \chi^2 χ2分布

变量
τ F = ( N − 1 ) τ χ 2 N ( k − 1 ) − τ χ 2 \tau_F=\frac{(N-1)\tau_{\chi^2}}{N(k-1)-\tau_{\chi^2}} τF=N(k1)τχ2(N1)τχ2服从自由度为 k − 1 k-1 k1 ( k − 1 ) ( N − 1 ) (k-1)(N-1) (k1)(N1) F F F分布

若“所有算法的性能相同”的假设被拒绝,则需要进行后续检验来进一步区分算法,常用的有Nemenyi后续检验:
Nemenyi检验计算出平均序值差别的临界值域
C D = q α k ( k + 1 ) 6 N CD=q_\alpha\sqrt{\frac{k(k+1)}{6N}} CD=qα6Nk(k+1)
若两个算法的平均序值之差超出了临界值域CD,则以相应的置信度拒绝“两个算法性能相同”的假设

例如,算法A和B的差距,以及算法B和C的差距均未超过临界值域,说明算法A和B,以及算法B和C没有显著差异;但算法A和C的差距超过了临界值域,因此算法A和C的性能显著不相同
机器学习(周志华) 学习笔记:第二章 模型评估与选择_第4张图片

5. 偏差与方差

不同训练集产生的方差为
v a r ( x ) = E D [ ( f ( x ; D ) − f ˉ ( x ) ) 2 ] var(x)=\mathbb{E}_D\left[(f(x;D)-\bar{f}(x))^2\right] var(x)=ED[(f(x;D)fˉ(x))2]
噪声为
ϵ 2 = E D [ ( y D − y ) 2 ] \epsilon^2=\mathbb{E}_D\left[(y_D-y)^2\right] ϵ2=ED[(yDy)2]
期望输出与真实标记的差别称为偏差,即
b i a s 2 ( x ) = ( f ˉ ( x ) − y ) 2 bias^2(x)=(\bar{f}(x)-y)^2 bias2(x)=(fˉ(x)y)2

对算法的期望泛化误差进行分解:
机器学习(周志华) 学习笔记:第二章 模型评估与选择_第5张图片
于是
E ( f ; D ) = b i a s 2 ( x ) + v a r ( x ) + ϵ 2 E(f;D)=bias^2(x)+var(x)+\epsilon^2 E(f;D)=bias2(x)+var(x)+ϵ2
即泛化误差可分解为偏差、方差、噪声

  • 偏差:度量了学习算法的期望预测与真实结果的偏离程度,刻画了算法本身的拟合能力
  • 方差:度量了同样大小的训练集的变动引起的学习性能的变化,刻画了数据扰动造成的影响
  • 噪声:是当前任务上任何算法能达到的期望泛化误差的下界,刻画了问题本身的难度

偏差-方差窘境:
在训练不足时,学习器的拟合能力差,训练数据的扰动不足以使学习器产生显著变化,此时偏差主导泛化错误率
随着训练程度加深,学习器的拟合能力逐渐增强,训练数据产生的扰动也会被学习器学到,此时方差主导泛化错误率
机器学习(周志华) 学习笔记:第二章 模型评估与选择_第6张图片

你可能感兴趣的:(machine,learning)