二类分类问题中的精确率(precision)与召回率(recall)

   评价分类器的一般指标是分类准确率(accuracy),其定义是:对于给定的测试数据集,分类器正确分类的样本数与总样本数之比。但对于二类分类问题,尤其是当我们对二类分类中的占少数的一方感兴趣时,准确率基本就会失去其作为评判标准的意义。
   举例来说,当我们做一个癌症检测的分类器时,假设有100个样本,其中99个为正类(无癌症),一个反类(有癌症)。假设我们用一个判定结果永远是正面的模型来进行预测,把么该模型的准确率就是:
    预测正确的个数/总个数=99/100=99%
   但如果我们用这个准确率为99%的模型进行预测,那么一个癌症患者都分辨不出来,这种情况下准确率就失去了评价的意义。
   因此,对于二类分类,更加常用的评价指标是精确率(precision)召回率(recall)。通常,以关注的类为正类,其他类为反类,分类器在测试数据集上的预测或正确或不正确,4种情况出现的总数分别记为:
    TP——将正类预测为正类数;
    FN——将正类预测为负类数;
    FP——将负类预测为正类数;
    TN——将负类预测为负类数;

   精确率定义为:
            这里写图片描述
   召回率定义为:
            这里写图片描述
   精确率和召回率的调和均值:
            这里写图片描述
            这里写图片描述

  • 精确率 : 预测为正例的结果中,正确的个数所占的比例。我们可以理解为,当模型做一次新的预测时,它预测对的概率是多少。

  • 召回率 : 在所有的正样本中,预测对了多少。我们可以理解为,对于一个预测集,我么能将其中正例的多少正确的寻找出来。

  • 精确率和召回率的调和均值 : 一般来说,精确率和召回率是一对矛盾的指标(一方大对应另一方小),因此,需要综合考虑他们,调和均值是精确率和召回率的加权调和平均,当双方的权值都为1时,公式如上述图片。但有时我们会认为精确率更加重要,因此给其一个权值α,此时调和均值公式就为:
             这里写图片描述

你可能感兴趣的:(二类分类问题中的精确率(precision)与召回率(recall))