如何解释准确率、精确率与召回率?

对于二分类问题,机器预测的和实际的还是会有所偏差,所以我们引入以下几个概念来评价分类器的优良。

首先有关TP、TN、FP、FN的概念。TP与TN都是机器(预测)分类分对了的情况,TP是预测为正类且预测正确,TN是预测为负类且预测正确。FP与FN都是机器(预测)分类分错了的情况,FP是把实际负类分类(预测)成了正类,而FN则是把实际正类分类(预测)成了负类。(T则代表分类正确,F代表分类错误;P代表全体类中实际正类,N代表全体类中实际负类。)

【举例】一个班里有男女生,我们来进行分类,把女生看成正类,男生看成是负类。我们可以用混淆矩阵来描述TP、TN、FP、FN。

混淆矩阵
  相关(Relevant),正类P 无关(NonRelevant),负类N
  预测为正类 True Positives(TP,正类判定为正类。即女生判定为女生。) False Positives(FP,负类判定为正类,即“存伪”。男生判定为女生。)
  预测为负类 False Negatives(FN,正类判定为负类,即“去真”。女生判定为男生。) True Negatives(TN,负类判定为负类。即男生判定为男生。)

明确这三个概念的英文名称:

精确率(Precision),准确率(Accuracy),召回率(Recall)。

1.准确率(Accuracy)。顾名思义,就是所有预测正确的(包括正类和负类)占总的的比例。

2.精确率(Precision),查准率。即正确预测为正类的全部预测为正类的的比例。个人理解:在所有预测为正类中真正为正类的所有预测为正类的的比例。

精确率是针对我们预测结果而言的,它表示的是预测为正类的样本中有多少是真正的正类样本。那么预测为正类就有两种可能了,一种就是把正类预测为正类(TP),另一种就是把负类预测为正类(FP)。

3.召回率(Recall),查全率。即正确预测为正类的全部实际为正类的的比例。个人理解:在所有预测为正类中真正为正类的总体实际为正类的的比例。

召回率是针对我们原始样本而言的,它表示的是全体样本中的所有正类样本有多少被预测正确了。也有两种可能,一种是把正类预测为正类(TP),另一种就是把正类预测为负类(FN)。

对于精确率和召唤率,其实就是分母不同,一个分母是预测为正类的样本数,另一个是原始样本中所有的正类样本数

 

精确率和召唤率的区别:

如何解释准确率、精确率与召回率?_第1张图片

举例:

假设我们手上有60个正样本,40个负样本,我们要找出所有的正样本。系统查找出50个正样本,其中只有40个是真正的正样本,计算上述各指标。

  • TP:将正类预测为正类的样本数 40
  • FN:将正类预测为负类的样本数 20
  • FP:将负类预测为正类的样本数 10
  • TN:将负类预测为负类的样本数 30

准确率(accuracy) = 预测对的/所有 = (TP+TN)/(TP+FN+FP+TN) = 70%
精确率(precision) = TP/(TP+FP) = 80%
召回率(recall) = TP/(TP+FN) = 2/3

 

为什么这样起名?

召回率 (Recall):该类样本有多少被找出来了(召回了多少)。

精确率 (Precision):你认为的该类样本,有多少猜对了(猜的精确性如何)。

 

 

你可能感兴趣的:(ML_DL_CV,机器学习,数据挖掘)