模型评估

过拟合

很可能巳经把训练样本自身的一些特点当作了所有潜在样本都
会具有的一般性质,这样就会导致泛化性能下降。

评估方法

通过实验测试来对学习器的泛化误差进行评估并进而做出选择 ,为此, 需使用一个 "测试集" (testing set) 来测试学习器对新样本的判别能力。

留出法

将数据集 D 划分为两个互斥的集合?其中一个集合作为训练集S ,另一个作为测试集 T, 即 D=SUT,S^T=空。

交叉法

模型评估_第1张图片
交叉法

自助法

给定包含 m 个样本的数据集 D , 我们对它进行采样产生数据集 D': 每次随机从 D 中挑选一个样本, 将其拷贝放入 D'。
优点:自助法在数据集较小、难以有效划分训练/测试集时很有用。

性能度量

对学习器的泛化性能进行评估,不仅需要有效可行的实验评估方法,还需要有衡量模型泛化能力的评价标准。

错误率(error)

分类错误的样本占样本总数的比例

精度(accuracy)

精度=1-错误率

| 真实情况 | 预测结果 |
| ------| ------ | ------ |
|| 正例 | 反例|
| 正例 | TP(真正例 True Positive) | FN(假反例 False negative) |
| 反例 | FP (假正例)| TN(真反例) |

准确率也叫查准率(precision)

比如:“检索出的信息中有多少比例是用户感兴趣的”
查准率P=TP/(TP+FP)

召回率也叫查全率(recall)

比如:“用户感兴趣的信息有多少比例被检索出来了”。
召回率R=TP/(TP+FN)
查准率和查全率是一对矛盾的度量。一般来说,查准率高时,查全率往往偏低;而查全率高时,查准率往往偏低。

ROC 全称是"受试者工作特征" (Receiver Operating Characteristic) 曲线

ROC 曲线的纵轴是"真正例率" (True Positive Rate,简称 TPR),横轴是"假正例率" (False Positive Rate,简称 FPR)
TPR=TP/(TP+FN)
FPR=FP/(TN+FP)

AUC (Area Under ROC Curve)

ROC 曲线下的面积,面积越大,模型性能越好

损失(loss)

AUC=1-损失

比较校验

假设检验

假设检验(Hypothesis Testing)是数理统计学中根据一定假设条件由样本推断总体的一种方法。

假设检验

你可能感兴趣的:(模型评估)