机器学习西瓜书第二章学习笔记--模型评估与选择

经验误差与过拟合

  1. 训练集上产生的误差为经验误差,新样本上产生的为泛化误差,我们希望训练一个泛化误差小的模型,但事先并不知道新样本什么样,只能尽可能的使得经验误差比较小,过拟合就是经验误差小,但泛化误差大的现象,一般出现的原因是模型过于复杂,模型拟合能力太强,导致过多学习了训练样本自身的特点,而忽略了样本的普遍规律,而且过拟合是没法避免的,只能缓解。相应的欠拟合就是模型太简单,不能很好的拟合样本数据,需要增大模型复杂度去解决。

评估方法

  1. 由于无法直接评估样本产生的泛化误差,只能从数据集中挑出部分测试集,用测试集产生的测试误差去近似泛化误差。从数据集中产生训练集和测试集的方法主要有:①留出法; ② 交叉验证法; ③ 自助法。
	留出法:
	就是直接将数据集D划分为两个互斥的子集,S和T,需要注意的是训练和测试集的划分,
	要尽可能的保持数据的一致性,避免因数据划分引入额外的偏差。通常的采样方式为 分层采样,
	一般将2/3或4/5的比例将数据集划为训练集,但即使知道比例,将不同的数据作为训练和测试集,
	仍存在多种划分方式,从而模型评估的结果也有差别,一般进行若干次随机划分,重复实验评估后取平均值作为留出法的最终结果。
	交叉验证法:
	就是直接将数据集D划分为个大小相似的互斥子集,每个子集也是通过分层采样获得,保持数据的一致性,
	然后每次用k-1个子集作为训练集,余下的那个子集作为测试集,进行k次训练和测试,最终返回k次结果的均值,
	特殊情况时样本数量m=k,又称“留一法”。

机器学习西瓜书第二章学习笔记--模型评估与选择_第1张图片

	自助法:
	留出法和交叉验证法都会从训练数据D中选出一部分数据用于测试集,因此实际评估的模型的训练集都比D小,
	这必然会引入一些因训练样本规模不同导致的估计偏差,“自助法”解决了该问题”。
	适用于数据量小,难以有效划分训练集和测试集上

机器学习西瓜书第二章学习笔记--模型评估与选择_第2张图片

  1. 大多数算法需要调整参数,需要注意的是,我们在模型评估中留出了一部分用作训练集,因此在模型选择完毕后,学习算法和参数配置已经选定,次数应该用总数据集D重新训练模型,将最终的模型提交给用户。

性能度量

  1. 模型的”好坏“是相对的,使用不同的性能度量往往也会产生不同的评判结果。

  2. 一般最简单的性能度量就是使用算法模型在测试集上的错误率与精度。eg:错误率 = 预测错误的样本数/样本总数。

  3. 在信息检索中,我们更关心的是”在检索出的信息中有多少比例是用户关心的”;”用户关心的信息中有多少被检测出来了“,错误率和精度就不适用了,需要查准率(准确度)和查全率(召回率)来衡量。
    机器学习西瓜书第二章学习笔记--模型评估与选择_第3张图片
    机器学习西瓜书第二章学习笔记--模型评估与选择_第4张图片
    查准率:就是在模型所有预测为真的样本中,真正为真的比例
    查全率:就是在所有真正为真的样本中,模型检测出来的为真的比例

  4. 查准率和查全率是一对矛盾的度量,针对不同的任务侧重点会不同,在多数情况下,我们可根据模型预测的结果将样例进行排序,前面的是最可能的为正例的样本,后面是最不可能的样本,按此顺序逐个把样本作为正例进行预测,则每次可以计算当前的查准率和查全率,并以查全率为横轴,查准率为纵轴的阿斗“P-R”曲线。如 s1-s8为样本,后面为预测为真实值的概率(从高到低排列),“+” 和 “-” 表示样本真实的正反例:

    机器学习西瓜书第二章学习笔记--模型评估与选择_第5张图片

  5. 曲线A完全包括曲线C,因此模型A的性能由于C,但A和B有交叉,有三种综合考虑的方法:
    机器学习西瓜书第二章学习笔记--模型评估与选择_第6张图片

  6. 很多模型是为测试样本产生一个实值或概率预测,然后将其与分类阈值比较,若大于阈值则判为正例,小于则判为反例,假如将样本的概率排序,最可能的排在前面,最不可能的排在后面,分类的过程就是在这个排序中某个截断点将样本分为正反两部分,不同侧重点的任务,可以设置不同的截断点,注重查准率,则考靠前,注重查全率,则把截断点选择靠后。

  7. 定义真正例率和假正例率分别为如下,则纵轴为真正例率,横轴为假正例率,画图可得ROC曲线,又叫“受试者工作特征”,模型进行比较时,如果模型A的ROC曲线完全包括住B的ROC曲线,则性能A优于B,若发生交叉,则可以比较曲线下的面积,即AUC。
    机器学习西瓜书第二章学习笔记--模型评估与选择_第7张图片
    机器学习西瓜书第二章学习笔记--模型评估与选择_第8张图片8. 在现实生活中不同的错误导致的后果不同,即FP和FN 导致的代价不同,前面的度量大都隐含了均等的代价,在这种情况下,我们优化“总体代价”,画出代价曲线进行评定,横轴是[0, 1]正例概率代价,纵轴是[0, 1]归一化代价。
    机器学习西瓜书第二章学习笔记--模型评估与选择_第9张图片
    机器学习西瓜书第二章学习笔记--模型评估与选择_第10张图片

比较检验

  1. 数理统计假设检验内容,即 若测试集上A是性能优于B,则A真正的泛化性能是否在统计意义上由于B呢,以及概率有多大。

偏差与方差

  1. 偏差为期望输出与真实标记的差别,即刻画了学习算法本身的拟合能力;方差度量了同样大小的数据集的变动所导致的学习性能的变化,即刻画了数据扰动的影响; 噪声则表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度。泛化误差 = 偏差 + 方差 + 噪声,即模型的泛化性能由学习算法的能力,数据的充分性以及学习任务本身的难度共同决定的。
  2. 一般来说,偏差和方差是有冲突的。
    机器学习西瓜书第二章学习笔记--模型评估与选择_第11张图片

你可能感兴趣的:(机器学习,学习,人工智能)