模型评估与选择

一、经验误差与过拟合

  1. 误差率
    分类错误的样本数占样本总数的比率。

  2. 精度
    分类正确的样本数占总数的比率。

  3. 误差
    学习器的实际预测输出与样本的真实输出之间的差异。

  4. 训练误差(经验误差)
    学习器在训练集上的误差。

  5. 现状
    很多情况下,可以学的一个经验误差很小、在训练集上表现很好的学习器;甚至对训练样本的分类可以达到100%的准确。

  6. 挑战
    这样的学习器在多数情况下并不好。

  7. 实际期望

  • 目标:让学习器在新样本上表现很好;
  • 方法:从训练样本中尽可能学出适用于所有潜在样本的 “普遍规律” ;
  1. 挑战:
  • 过拟合:把训练样本学得 “太好”,可能把训练样本本身的特性,当做所有潜在样本都会具有的一般性质;导致性能下降;
  • 欠拟合:对训练样本的一般性质尚未学好。
  1. 原因分析
  • 过拟合:学习能力过于强大,把训练样本所包含的特性都学到了;
  • 欠拟合:学习能力低下;
  1. 解决办法:
  • 欠拟合(简单):在决策树学习中,扩展分支;在神经网络学习中,增加训练轮数;
  • 过拟合(复杂):是机器学习面临的关键障碍,各类学校西算法都有针对过拟合的措施,只能缓解,无法彻底避免;
    理解:机器学习面临的问题,通常是NP难的,甚至更难;而有效的学习算法必然是在多项式时间内运行完成,若可彻底避免过拟合,则通过经验误差最小化就能获得最优解。这与 “P=NP” 矛盾;只要相信 “P != NP”,那么过拟合不可避免;
  1. 挑战
  • 挑战:对于同一个任务,有多种学习算法可供选择,同一个学习算法设置不同参数,也会得到不同的模型;
  • 存在的问题:选择哪一个学习算法?选择哪一种参数配置?
  1. 理想解决办法
  • 对候选模型的泛化误差进行评估;
  • 选择繁华误差最小的那个模型。
  1. 现实挑战:
  • 无法直接获得泛化误差;(潜在样本未知)
  • 训练误差不适合作为标准;(过拟合并不好)

二、评估方法

1. 现实中如何选择学习算法和参数配置?

可通过实验测试来对学习器的泛化误差进行评估,进而做出选择。

2. 测试集
  • 作用:测试学习器对新样本的判别能力,然后,以测试集上的 “测试误差” 作为泛化误差的近似;
  • 获得:通常假设测试样本是从样本真实分布中独立同分布采样获得。
  • 注意:测试集应该尽量与样本集互斥,也就是,样本尽量不在训练集中出现,未在训练过程中使用过。
3. 原因

学校的学习锻炼的是学生 “举一反三” 的能力,不应该出之前学过的题目。

4. 获得测试集和训练集
  • 方法:对数据集进行适当的处理,从中产生训练集测试集
5. 获取方法1:留出法

1)留出法
直接将数据划分为两个互斥的集合,其中一个作为训练集,另一个作为测试集。

用训练集训练出模型后,用测试集评估误差。

2)需要的性质

  • 训练集和测试集的划分尽可能保持数据分布的一致性;
  • 避免因数据划分过程引入额外的偏差,而对最终结果产生影响;

3)使用方法
采用随机划分的方法,重复进行实验评估后,取平均值作为留出法的训练结果。

4)比例问题
若训练集太大,则训练处的模型接近了数据集的模型;若训练集太小,那么,评估结果可能不够精确。需要在二者之间做一个均衡;

  • 均衡:一般训练集和测试集的比例:(2/3 - 4/5);
6. 交叉验证法

1)原理

  • 将数据集 D 划分为k个大小相似的互斥子集,每个子集尽量保持数据分布的一致性;
  • 从中选取 k-1 个子集作为训练集,剩下一个子集作为测试集;
  • 从而可以获得 k 个训练集/测试集的组合;
  • 最终获得k个测试结果的均值。

2)子集的划分

  • 挑战:数据集 D 划分为k个子集,存在多种划分方式;需要减少因样本划分不同而引入的差异。
  • 解决:随机使用不同的划分重复 p 次,最终获得的结果是 p 次k折交叉验证结果的均值。

3)特殊案例:留一法
样本有m个,划分子集数 k=m,也就是说,只保留一个样本不训练。

  • 优势:一般认为它评估的结果比较准确
  • 缺陷:样本大时,需要训练的模型太多。
7. 分析
  • 留出法:实际评估的模型使用的训练集比数据集小,引入了因样本规模不同而导致的偏差;
  • 留一法:计算复杂度高;
    动机:需要 ① 减少训练样本规模不同的影响;② 高效的进行实验估计;
8. 自助法

1)步骤

  • 首先,从初始数据集 D 中随机挑选一个样本拷贝放入D'。
  • 重复上述过程,m次,D' 中也包含 m 个元素;
  • D' 作为训练数据,D\D' 作为测试数据。

2)性能

  • D' 包含不重复的元素大约占 2/3,D\D' 大约占1/3;
  • 别称:包外估计;

3)特点

  • 长处:在数据集较小,难以有效划分训练集/测试集的情况下很有用;
    -分析:自助法产生的数据集改变了初始数据及的分布,引入了额外的估计偏差;
  • 短处:在数据量充足的情况下,留出法和交叉验证法更加常用;
8. 调参与最终模型

你可能感兴趣的:(模型评估与选择)