西瓜书chapter1-2

  • chapter1

1.基本术语

  • 样本(sample) x_{i}:某个瓜   
  • 样本的属性/特征(feature) x_{ij}:瓜的属性(大小、颜色……)
  • 特征向量(feature vector)=一个样本        x_{i}  =\left \{ x_{i1},x_{i2}... \right \}
  • 数据集(dataset)样本的集合   D=\left \{ x_{1},x_{2}... \right \}
  • 标记(label) y_{i}    :对应某瓜给出的一个结论(分类)

  • 训练集中的训练数据由训练样本构成。

  • 训练输出的样例  \left ( x_{i},y_{i} \right ):某瓜x_{i}是不是好瓜y_{i} .

  • 验证集、训练集、测试集:{验证数据}+{训练集数据}=训练集,训练集+测试集=数据集


  •  泛化能力:训练模型适用于训练样本的能力,一般而言,训练样本越丰富,泛化能力越强
  • 假设空间:不同特征所有可能的样本集合(三类特征,每类特征包含三种可能,则样本空间大小为3*3*3=27种),一般为有限集。
  • 归纳偏好:对应于好瓜的判断,某种特征更为重要即为偏好。
  • 过拟合:学习器在训练集上的表现极好,好到无法用于新样本
  • 拟合:学习器在训练集上的表现极差,没训练好


    奥卡姆剃刀原则:存在多个假设以观察一致,就选择最简单的那个。

  

2.学习任务的分类

  • 监督学习:

      代表为回归,训练数据有标记信息。

  • 无监督学习:

       代表为聚类,训练数据中没有标记信息




chapter2 

1.学习器的性能指标:

经验误差/训练误差:学习器在训练集上的输出f\left ( x_{i} \right )与样本的真实y_{i}之间的差异

  •  错误率=1-精度                 E = a/m 

        训练集D中m个训练样本中输出f\left ( x_{i} \right )与实际y_{i}不一致的a个训练样本

真实情况 预测结果
正例 反例
正例 TP (真正例) FP (假正例)
反例 FN (假反例) TN(真反例)
  • 查准率P、查全率R、真正例率TPR、假正例率FPR

西瓜书chapter1-2_第1张图片

 

  

  • F1

 

泛化误差:学习器在测试集上的输出与样本的真实之间的差异

训练集或测试集合的选择:

  • 留出法:将数据集划分为两个互斥的子集,分别为测试集和训练集,样例数量比例为2:1~4:1;多次划分,取多次结果的平均作为输出。
  • 交叉验证法:将数据集划分为K个大小相近的互斥子集(按照分布分层抽样),每次选择K-1个子集训练,剩下的作为测试集。进行K轮,取每次结果的平均作为输出。“K折交叉验证”,当k=m(数据集中的样本数时),称为留一法。
  • 自助法:随机采一个样采m次产生训练集(服从独立同分布),最终约有三分之一的样本始终未被选到过,可以作为测试集。一般在数据集较小时比较有效(改变了样本的分布)。

性能评价的指标:

  • 对应于P、R作为学习器性能衡量指标时:

P-R图,分别为y,x坐标,当P=R时,称为BEP点(平衡点break-even point),此时可看做学习器的最佳性能体现。

  • 对应TPR、NPR作为指标时:

 ROC曲线:按照学习器的预测结果对样例排序,按照顺序一次将样本作为正例进行预测,每次计算TPR、NPR作为YX坐标

AUC(area under ROC curve):样本数量较小时的ROC曲线下的面积,以面积大小作为性能优劣的指标。

  • 代价敏感错误率与代价曲线:

非均等代价:例如阳性患者判断为阴性的代价要大于将阴性患者判断为阳性。

真实代价 预测类别
0 1
0 0 cost01
1 cost10 0

cost^{_{01}}> cost^{_{10}

将非均等代价带入错误率,从而获得新的学习器期望总体代价。

  • 比较检验的作用:通过比较检验,可以对学习器的性能进行度量

2.学习器性能的评价方法:

假设检验、交叉验证t检验、McNemar检验、Feriedman检验与Nemenyi后续检验

泛化误差:由预测结果与真实值的偏差和方差、噪声只和共同构成。偏差衡量了预测结果与真实结果之间的偏离程度;方差衡量了同样大小的训练集的选择造成的学习性能的影响;噪声某任务下学习算法所能达到的期望泛化误差下界,即任务的难度。

你可能感兴趣的:(西瓜书chapter1-2)