西瓜书——模型评估与选择

泛化能力:我们希望模型在未见样本上表现好。
过拟合和欠拟合:该方法如何缓解过拟合?该缓解拟合的方法什么时候失效?
模型选择的三个关键问题:

评估方法

  • 如何获得测试结果?→评价方法
    -1、留出法:
    保证数据分布一致性,例如分层采样,不能破坏数据的独立同分布原则
    多次重复划分,例如100次随机划分,以避免因为划分造成的模型训练误差
    测试集不能太大,不能太小,一般是1/5或者1/3的测试集,以避免训练集与原数据集相差较大
    2、K折交叉验证法/留一法
    例如10折交叉验证即将原数据集分成10个等量集合, 9个集合用于训练,一个集合用于测试,经过10次这样的切分,生成10个测试结果,平均之后返回结果。随机划分也是10×10=100。西瓜书——模型评估与选择_第1张图片
    3、自助法
    基于自助采样bootstrap sampling,本质是有放回采样/可重复采样,运用极限定理,求出约有36.8%的样本不出现,而这36.8%的样本也称为包外估计out of bag estimation,将这些未在训练集中出现的样本作为测试集。
    优点,训练集与原样本集同规模
    缺点,数据分布有所改变,也可以理解为某个值的重要性发生了改变。
    适用于,学习任务对数据分布的轻微变化比较鲁棒,且数据量较少。
    西瓜书——模型评估与选择_第2张图片

调参与最终模型

算法的参数一般由人工设定,亦称超参数
模型的参数一般由学习确定
调参过程,先产生若干模型,然后基于某种评估方法进行选择
参数调得好不好对最终性能有关键影响

性能度量

  • 如何评价评估性能优劣?→性能度量
  • 性能度量是衡量模型泛化能力的评价标准,反映了任务需求。
  • 使用不同的性能度量,往往会导致不同的评判结果。
  • 什么样的模型是好的,不仅取决于算法和数据,还取决于任务需求

常用的性能度量

  • 回归任务常用均方误差
    e = 1 m ∑ i = 1 m ( f ( x i ) − y i ) e=\frac{1}{m}\sum_{i=1}^{m}(f(x_i)-y_i) e=m1i=1m(f(xi)yi)
  • 错误率即错误的次数,加和求平均。精度即是一减去错误率
  • 查准率和查全率
    查准率
    p = T P T P + F P p=\frac{TP}{TP+FP} p=TP+FPTP
    查全率
    R = T P T P + F N R=\frac{TP}{TP+FN} R=TP+FNTP

F1度量
1 F 1 = 1 / 2 ∗ ( 1 P + 1 R ) \frac{1}{F1}=1/2*(\frac{1}{P}+\frac{1}{R}) F11=1/2(P1+R1)

比较检验

  • 如何判断实质差别?→比较检验,说明模型在统计意义上表现好
    比较两个学习器的常用方法
    通过假设检验,比较假设检验成立的显著性
  1. 交叉验证T检验(基于成对的T检验),比如K轴交叉验证,5×2交叉验证
  2. McNeman检验,基于列联表,卡方检验。

你可能感兴趣的:(西瓜书——模型评估与选择)