【西瓜书+南瓜书】学习笔记1

第一章:绪论

第二章:模型评估和选择

2.1经验误差和过拟合

  • 经验误差:学习器在训练集上的误差。
  • 泛化误差:在新样本上的误差。
  • 过拟合:学习器把训练样本自身的一些特点当作了所有潜在样本都具有的一般性质。
  • 欠拟合:学习器连训练样本的一般性质也没有学好。

2.2评估方法

通常通过实验测试来对学习器的泛化误差进行评估模型的优劣,但是泛化误差在实际情况中难以计算,因此取 ** 测试误差 **作为 ** 泛化误差 ** 的近似。

2.2.1留出法

将数据集划分为两个互斥的集合,其中一个集合作为训练集 ,另一个作为测试集,两个集合没有交集。

2.2.2交叉验证法

【西瓜书+南瓜书】学习笔记1_第1张图片
这里把数据集划分为10个互斥的子集,然后每9个子集进行训练,一个进行测试,重复10次,把10次结果算平均。

  • 留一法 :与留出法类似,只不过留一法是使用的训练集与初始数据集相比少了一个样本。

2.2.3自助法

给定样本为m的数据集D,每次有放回的随机从数据集D取一个样本,重复m次,即生成m个样本的训练数据集,剩下没有采取到的数据为测试集。

2.3性能度量

  • 错误率:分类错误的样本数占总样本数的比例

  • 精度:分类正确的样本数占总样本数的比例

  • 混淆矩阵:

  • 查准率: P = T P T P + F P P=\frac{TP}{TP+FP} P=TP+FPTP

  • 查全率(召回率): R = T P T P + F N R=\frac{TP}{TP+FN} R=TP+FNTP

  • F 1 F_{1} F1 F 1 = 2 × P × R P + R F_{1} =\frac{2×P×R}{P+R} F1=P+R2×P×R (统计量的倒数的算术平均数的倒数)

  • F β = ( 1 + β 2 ) × P × R ( β 2 × P ) + R F_{\beta} =\frac{(1+\beta^{2})×P×R}{(\beta^{2}×P)+R} Fβ=(β2×P+R(1+β2)×P×R
    β \beta β大于1时查全率有更大的影响,当 β \beta β小于1时查准率有更大的影响

  • F 1 F_{1} F1:对查全率和查准率取均值在代入 F 1 F_{1} F1公式

  • F 1 F_{1} F1:对TP、FN、FP、TN取均值在代入 F 1 F_{1} F1公式

  • ROC曲线:
    -横轴为假正例率(False Positive Rate,FPR):
    F P R = F P T N + F P FPR =\frac{FP}{TN+FP} FPR=TN+FPFP
    -纵轴为真正例率(True Positive Rate),即查准率:
    T P R = T P T P + F N TPR =\frac{TP}{TP+FN} TPR=TP+FNTP

  • AUC:ROC曲线下的面积

你可能感兴趣的:(学习,机器学习)