对准确率(Accuracy)、精确率(Precision)、召回率(Recall)、PR曲线、ROC曲线、F1 Score的理解

  • 混淆矩阵
           对于一个二分类问题,预测类别与实际类别有如下表的对应关系,又称为混淆矩阵。
    对准确率(Accuracy)、精确率(Precision)、召回率(Recall)、PR曲线、ROC曲线、F1 Score的理解_第1张图片
  • 准确率(Accuracy)
           是系统最常见的评价指标,公式 ACCR=(TP+TN)/(TP+TN+FP+FN),其含义为,所有样本中预测正确样本(TP+TN)的占比,一般来说系统的准确率越高,性能越好。但是,对于正负样本数量极不均衡的情况,只通过准确率(Accuracy)往往难以反映系统的真实性能。
           举例说明,对于一个地震预测系统,假设所有样本中,1000天中有1天发生地震,记:0:不地震,1:地震,分类器不假思索的将所有样本分类为0,即可得到99.99%的准确率,当地震真正来临时,并不能成功预测,这种结果是我们不能接受的。
  • 精确率(Precision)
           又叫查准率,PR=TP/(TP+FP),其含义为,预测为真的样本中实际为真的样本的占比。
  • 召回率(Recall)
           又称查全率,TPR=TP/(TP+FN),其含义为,所有实际为真的样本中,预测为真的样本的占比。顾名思义,“查全”表明预测为真覆盖到了多少实际为真的样本,换句话说遗漏了多少。
           举例说明:对于预测病人是否患有癌症系统,假如100个人中20个人患有癌症。
           如果为了保证查准率,特别有把握的才诊断为癌症,可能结果是诊断10个人患有癌症,实际9个人患有癌症,那么查准率为9/10=90%,查全率为9/20=45%,查全率较低,说明有11个癌症病人没有被确诊为癌症,会因此延误有效的治疗时机,这个结果是难以接受的。
           如果为了保证查全率,诊断40人患有癌症,实际有18个人患有癌症,那么查全率为18/20=90%,而查准率为18/40=45%,查准率较低,结果是有22个人误诊为癌症,会接受极大损害身体的治疗,也造成经济损失,这样的结果也是不能接受的。
  • 查准率-查全率曲线(PR曲线)
    对准确率(Accuracy)、精确率(Precision)、召回率(Recall)、PR曲线、ROC曲线、F1 Score的理解_第2张图片
           从上面的例子中可以看出,查准率和查全率是一对矛盾的性能指标,我们期望有一个理想的系统使得两者的概率都能无限逼近1。也就是上图中的查准率-查全率曲线(PR曲线),尽可能的接近坐标(1,1)。
           通常情况下,做搜索任务,在保证查全率的情况下,提升查准率;做疾病判别、反垃圾任务,保证查准率的前提下,提升查全率。
  • ROC曲线和AUC
           ROC全称:Receiver Operating Characteristic。ROC有两个指标,分别是:
           1.TPR=TP/(TP+FN),True Positive Rate,又叫查全率,表明将正例分类正确的概率,ROC的纵坐标。
           2.FPR=FP/(FP+TN),False Positive Rate,将负例错分为正例的概率,ROC的横坐标。
           我们期望一个好的系统,TPR尽可能高,FPR尽可能低,所以下图中的曲线最理想的点是(0,1),最差的点是(1,0),图中的虚线代表了随机分类器,一般的分类器的ROC在虚线之上。那么如何评价图中三条曲线的好坏呢?一个通用的办法是比较三者跟横坐标之间的面积,即AUC(Area Under Curve),面积越大,则性能越好。
    对准确率(Accuracy)、精确率(Precision)、召回率(Recall)、PR曲线、ROC曲线、F1 Score的理解_第3张图片
  • ROC曲线和PR曲线的区别
           1.当正负原本数量比较均衡的时候,两者差别不大,当数量比例失衡时,ROC曲线不如PR曲线能更好的反映出分类器的真实性能,通过PR曲线的查准率PR指标反映出来。
           2.PR曲线比ROC曲线更关注正样本,ROC曲线兼顾了两者。
  • F1 Score
    对准确率(Accuracy)、精确率(Precision)、召回率(Recall)、PR曲线、ROC曲线、F1 Score的理解_第4张图片
           如图所示,如何通过查准率和查全率取评定一个分类器算法的好坏?直观的想法是用两者的平均,即(P+R)/2,但这样有个问题,对于无脑判定所有样例为真的垃圾分类器,查全率很高甚至接近1,完全放弃了查准率,或者完全放弃查全率,一味追求查准率,两者通过公式(P+R)/2综合的得分不会太低,这样的结果是我们不希望的。而F1 Score公式(2PR)/(P+R)则引入了对小值的惩罚,当P或R中某项指标很小,分子PR的值则趋近于0,只有当两者比较大,都趋近于1时,公式整体的值才会趋近于1。
  • 参考文章
  1. https://blog.csdn.net/u012879957/article/details/80564148
  2. https://www.cnblogs.com/Zhi-Z/p/8728168.html
  3. https://blog.csdn.net/tsq292978891/article/details/82997808
  4. https://study.163.com/course/courseLearn.htm?courseId=1004570029#/learn/video?lessonId=1051925288&courseId=1004570029

你可能感兴趣的:(机器学习)