分类模型性能的评估

通常在二分类问题中,使用到的评估方法有:正确率和错误率、准确率和召回率、准去率-召回率曲线下的面积、ROC曲线、ROC曲线下的面积(AUC)、F-Measure。

1.正确率和错误率

正确率和错误率是最简单也是最常用的评估方法。
$$正确率=\frac{训练样本中被正确分类的数目}{训练样本总数}$$
$$错误率=\frac{训练样本中被错误分类的数据}{训练样本总数}$$

2.准确率和召回率(Precision and Recall)

在二分类问题中,假设分类结果标签为0和1,且0为负样本,1为正样本,有如下定义,
真阳性(TP,true positive):正确分类为类别1的样本,即真实的类别标签是1且被模型分类为1;
假阳性(FP,false positive):错误分类为类别1的样本,即真实标签是0但是被模型错误地分类为1;
假阴性(FN,false negative):错误分类为类别0的样本,即真实标签是1但是被模型错误地分类为0
真阴性(TN,true negative):被真确分类为类别0的样本。
$$Precision = \frac{TP}{TP+FP}$$
$$Recall= \frac{TP}{TP+FN}$$
注意到,当Precision为100%时,意味着FP=0,即没有任何一个真实标签为0的样本被错误地分类为1;当Recall为100%时,意味着FN=0,即没有任何一个真实标签为1的样本被错误地分类为0,也就是说,训练样本中真实标签为1的样本都被模型正确地分类为1

3.P-R曲线

P-R曲线用来描述,随着模型阈值的改变,准确率和召回率的关系。
P-R曲线是从坐标(0,1)开始画的一条曲线,切割1x1的正方形,得到一块区域。如果有个划分点可以把正负样本完全区分开,那么P-R曲线就是整个1x1的面积。
分类模型性能的评估_第1张图片

4.ROC曲线和AUC

真阳性率(TPR):真阳性的样本除以真阳性和假阴性的样本之和。即真阳性数目占所有正样本的比例,与召回率类似。
假阳性(FPR):假阳性的样本除以假阳性和真阴性的样本之和,即假阳性样本占所有负样本总数的比例。
$$TPR=\frac{TP}{TP+FN}$$

$$FPR=\frac{FP}{FP+TN}$$
ROC(receiver operating characteristic)曲线在概念上和P-R曲线类似,用来描述,随着模型阈值的改变,真阳性率和假阳性率的关系。ROC曲线进过坐标(0,0)和(1,1)。
AUC为ROC曲线下方的面积。
分类模型性能的评估_第2张图片

参考

[1] Machine Learning with Spark (Second Edition), Rajdeep Dua.
[2] scikit-learn官方文档

你可能感兴趣的:(机器学习)