机器学习西瓜书Chapter1&2 绪论与模型评估

Chapter1 绪论

1.2基本术语

1.机器学习中的重要术语,包括:

  • 属性相关:属性/特征、属性值、属性空间、特征向量
  • 标签相关:标记、标记空间、输出空间
  • 样本相关:样例、样本空间
  • 数据划分:训练集、测试集、验证集

2.机器学习中的两大问题

  • 分类,模型结果是离散值
  • 回归,模型结果是连续值

1.4归纳偏好

1.归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好,比如偏好简单的模型,或偏好复杂的模型。若无偏好,否则无法产生确定的学习结果

学习算法——基于归纳偏好产生——>模型

机器学习西瓜书Chapter1&2 绪论与模型评估_第1张图片

 常用的原则有:

  • 奥卡姆剃刀:若有多个假设与观察一致,则选最简单的那个(但往往很难定义什么“更简单的”)

2.没有免费的午餐定理:总误差与学习算法无关,无论一个算法多聪明,另一个算法多笨拙,其期望性能相同。即对于任意两个算法都有:

重要前提:所有问题出现的机会相同,或所有问题同等重要。但在实际中,我们只关注正在试图解决的问题,因此所有模型在特定问题下并不是性能都相同(只是所有问题下的期望相同),模型优化还是有意义的

Chapter2 模型评估与选择

2.1经验误差与过拟合

1.误差:模型的预测输出与样本真实输出间的差异。两种误差:

  • 训练误差/经验误差:学习器在训练集上的误差
  • 泛化误差:学习器在新样本上的误差

2.过拟合:学习器把训练样本学得太好,将训练样本自身的一些特点当做所有潜在样本都具有的一般性质,导致泛化性能下降。过拟合是无法避免的,只能缓解

  • 原因:学习能力过于强大
  • 解决方法:L1和L2正则化、增大数据集、early stopping、dropout、决策树剪枝、

3.欠拟合:学习器把训练样本学得太差,训练样本的一般性质都没学到

  • 原因:学习能力低下
  • 解决方法:提高学习器学习能力,比如在决策树中增加分支,在神经网络中增加训练轮数

2.2评估方法

将样本D划分训练集S和测试集T的方法:

1.留出法:随机选取x%的样本作为训练集,1-x%的样本作为测试集。要注意:

  • 要分层采样
  • 由于一次划分是随机的,结果不够稳定可靠,因此要多次划分取结果的平均
  • 若S过大,则虽结果趋向于用D训练的模型,但由于T过小评估结果不够稳定准确;若S过小,则与用D训练出的模型差异较大,降低了评估模型的保真性。没有完美的解决办法,一般选用2/3-4/5的数据作训练集,剩余做测试集

2.交叉验证法/k折交叉验证法:将数据随机划分为k份(每份里也要注意分层采样),分别令k-1份为训练集,剩下的1份为测试集,实验k次取平均。要注意:

  • k通常可取5、10、20
  • 一次划分要实验k次,由于随机选取问题通常不会只划分一次,因此有10次10折交叉验证
  • 特殊情况留一法,k取m,即每个样本单独成1份,用m-1个样本训练,用剩下1个样本测试。优点:训练结果与用全集D训练的结果很相似,缺点:要训练m次,计算开销大

机器学习西瓜书Chapter1&2 绪论与模型评估_第2张图片

3.自助法:每次独立地从m个样本从选取1个样本到集合中(放回),共选取m次,获得样本作为训练集(集合中会有重复的样本),选取没在训练集中出现的样本作为测试集,测试集的比例大约为36.8%

  • 适用场景:数据集较小、难以有效划分训练/测试集的场景
  • 优点:实际评估的模型与期望评估的模型都使用m个训练样本,同时仍有1/3、没在训练集中出现的样本用于测试;可从初始数据集中产生多个不同的训练集,有助于集成学习
  • 缺点:生成的训练集改变了原始数据的分布,带来估计误差

4.三种方法使用范围的总结

  • 样本数据多的场景:留出法和交叉验证法
  • 样本数据不足的场景:自助法

5.调参:由于算法的很多参数是在实数内取值,因此可选用范围+步长的方法进行参数选择,例如从[0,0.2]以0.05为步长选取参数

2.3性能度量

1.回归任务中常用的度量:均方误差(MSE)

2.分类任务中常用的度量

(1)错误率与精度

  • 错误率:假设判断错误的样本e个,样本总体m个,则错误率为e/m

  • 精度:1-错误率=1-e/m

机器学习西瓜书Chapter1&2 绪论与模型评估_第3张图片

(2)查准率、查全率与PR曲线

机器学习西瓜书Chapter1&2 绪论与模型评估_第4张图片

  • 查准率P:判断为正例的样本中,真正正例的比例

  • 查全率R:真正为正例的样本中,判断为正例的比例

  • 查准率与查全率不可兼得,两者呈反比关系

    将样本以预测为正例的概率由高到低排列,从0个正例开始依次将样本划分为正例,接着以查全率为横轴,查准率为纵轴,绘制出PR曲线

机器学习西瓜书Chapter1&2 绪论与模型评估_第5张图片

    根据PR曲线判断学习器优劣的方法:

  • 包含关系,若曲线A包含曲线C,则曲线A对应的学习器由于曲线C;若两曲线交叉,则无法判断
  • 平衡点,若曲线A的平衡点数值大于曲线B,则曲线A对应的学习器优于曲线B
  • 曲线下面积,若曲线A曲线下面积大于曲线B,则权限A对应的学习器优于曲线B
  • F1度量,F1是查全率和查准率的调和平均;F1越大,则学习器效果越好

  •  Fβ度量, Fβ是查全率和查准率的加权调和平均,β反映查全率相对于查准率的偏好程度。若β=1,则一样重要;若β>1,则查全率更重要;若β<1,则查准率更重要

      多个混淆矩阵如何取平均:

  • 每个混淆矩阵先算一个P、R,最后算平均,称为宏查全率、宏查准率、宏F1

机器学习西瓜书Chapter1&2 绪论与模型评估_第6张图片

  • 先算所有混淆矩阵的平均真正例、假反例、假正例、真反例,最后算P、R,称为微查全率、微查准率、微F1

机器学习西瓜书Chapter1&2 绪论与模型评估_第7张图片

(3)真正例率、假正例率和ROC曲线

机器学习西瓜书Chapter1&2 绪论与模型评估_第8张图片

  • 真正例率:真正例/真实情况为正例的比例

  • 假正例率:假正例/真实情况为反例的比例

    分类阈值:以该阈值为界,大于该值的划为正例,小于该值的划为反例

    将样本以预测为正例的概率由高到低排列,从0个正例开始依次将样本划分为正例,接着以假正例率为横轴,真正例率为纵轴,绘制出ROC曲线。ROC曲线用于衡量学习器的泛化能力。其中,对角线为随机学习器的效果

机器学习西瓜书Chapter1&2 绪论与模型评估_第9张图片

    用ROC曲线判断算法的优劣:

  • 包含关系,如曲线A包含曲线B,则曲线A对应的学习器优于曲线B
  • 曲线下面积,即AUC

  • 曲线上面积,即l_rank,l_rank+AUC=1

 (4)代价敏感错误率与代价曲线

机器学习西瓜书Chapter1&2 绪论与模型评估_第10张图片

  •  代价敏感错误率:不仅考虑判断错误的次数,还考虑不同判断错误的不同损失

机器学习西瓜书Chapter1&2 绪论与模型评估_第11张图片

  •  代价曲线:ROC曲线不能衡量学习器的预期总体代价,因此以正例概率代价为横轴,归一化代价为纵轴,绘制代价曲线

机器学习西瓜书Chapter1&2 绪论与模型评估_第12张图片

你可能感兴趣的:(学习,大数据)