机器学习中精准率/召回率/PR曲线/AUC-ROC曲线等概念

目录

TP/TN/FP/FN

accuracy(准确率)

precision(精确率/查准率)

recall(召回率/查全率)

F1分数与Fβ分数

PR曲线(precision recall curve)

AUC-ROC曲线

如何将AUC-ROC曲线用于多分类模型

预测类别
实际类别

真正例(TP) 假负例(FN)

假正例(FP) 真负例(TN)

TP/TN/FP/FN

  • TP:真正例,被分类器预测为正类的正样本;
  • TN:真负例,被分类器预测为负类的负样本;
  • FP:假正例,被分类器预测为正类的负样本;
  • FN:假负例,被分类器预测为负类的正样本。

accuracy(准确率)

表示总样本中分类器正确分类的样本数量占比。

 accuracy=\frac{TP+TN}{TP+TN+FP+FN}

precision(精确率/查准率)

表示预测为正的样本中分类器判断正确的样本数量占比。

precision=\frac{TP}{TP+FP}

recall(召回率/查全率)

表示正样本中分类器判断正确的样本数量占比。

recall=\frac{TP}{TP+FN}

F1分数与Fβ分数

F1分数是统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的精确率和召回率,可以看作是精确率和召回率的一种调和平均数,数值介于0-1之间。

F_{1}=\frac{2*precision*recall}{precision+recall}

Fβ是对F1分数的拓展,在统计学中也经常使用F2和F0.5分数。F2分数表示召回率的权重高于精确率,而F0.5分数表示精确率的权重高于召回率。

F_{\beta }=\frac{(1+\beta ^{2})*precision*recall}{\beta ^{2}*precision+recall}

PR曲线(precision recall curve)

纵轴:precision(精确率/查准率);横轴:recall(召回率/查全率)。

对分类器预测正例的概率倒序排列,移动阙值使得预测正例的概率从最大到最小移动(大于阈值的认为是正例,小于阈值的认为是负例),在每个阈值处标记precision和recall,通过这种方式画出一条曲线,即PR曲线。

precision和recall是相互矛盾的一组指标,recall提高,precision就会降低。

如果有两个算法,或者一个算法用两个不同参数进行训练,那么通常曲线与x/y轴相交面积更大的模型会更好。因为面积更大的曲线,每个点的精确率和召回率都可能更好。

机器学习中精准率/召回率/PR曲线/AUC-ROC曲线等概念_第1张图片

AUC-ROC曲线

在机器学习中,性能评估是必不可少的任务。AUC-ROC曲线是针对各种阈值设置下分类问题的性能度量。ROC(the Receiver Operating Characteristic)是概率曲线,AUC(Area Under Curve)表示可分离的程度,它告诉我们模型多大程度上能够正确区分类别。

1)ROC曲线
纵轴:真阳性率(TPR) = TP/(TP+FN) ,与recall等价,即正样本中分类器判断正确的样本数量占比;
横轴:假阳性率(FPR) = FP/(FP+TN) ,即负样本中分类器判断错误的样本数量占比。

类似于PR曲线,不同的点在于ROC曲线是用TPR和FPR来绘制的。

TPR和FPR呈现正向的相关关系,FPR提高,TPR也会提高。

机器学习中精准率/召回率/PR曲线/AUC-ROC曲线等概念_第2张图片

2)AUC指标

AUC越高,正确分类的概率越高。出色的模型的AUC接近1,这意味着它具有良好的可分离性,较差的模型的AUC接近于0,这意味着它的可分离性程度最差。当AUC为0.5时,表示模型没有类别分离能力,与随机分类效果差不多。

如何将AUC-ROC曲线用于多分类模型

在多分类模型中,可以使用One VS All的方法绘制n个分类器的n个AUC-ROC曲线

参考资料:机器学习中的精确率召回率和PR曲线_GwentBoy的博客-CSDN博客_精确率和召回率曲线

你可能感兴趣的:(机器学习)