F1score/P-R曲线/ROC曲线/AUC

1.分类正确的样本占总样本个数的比例。

2.TP/FP/FN/TN

1)True positive(TP): 真正例,将正类正确预测为正类数;

2)False positive(FP): 假正例,将负类错误预测为正类数;

3)False negative(FN):假负例,将正类错误预测为负类数;

4)True negative(TN): 真负例,将负类正确预测为负类数。

3.Precision/Recall/​F1 score

Accuracy:准确率

准确率=预测正确的样本数/所有样本数,即预测正确的样本比例(包括预测正确的正样本和预测正确的负样本,不过在目标检测领域,没有预测正确的负样本这一说法,所以目标检测里面没有用Accuracy的)。

Precision:查准率

Precision表示某一类样本预测有多准。

Precision针对的是某一类样本,如果没有说明类别,那么Precision是毫无意义的(有些地方不说明类别,直接说Precision,是因为二分类问题通常说的Precision都是正样本的Precision)。

Recall:召回率

Recall和Precision一样,脱离类别是没有意义的。说道Recall,一定指的是某个类别的Recall。Recall表示某一类样本,预测正确的与所有Ground Truth的比例。

 Recall计算的时候,分母是Ground Truth中某一类样本的数量,而Precision计算的时候,是预测出来的某一类样本数。

F1 Score:平衡F分数

F1分数,它被定义为查准率和召回率的调和平均数

F1score/P-R曲线/ROC曲线/AUC_第1张图片

 

4.P-R曲线 

Precision-Recall曲线,简称P-R曲线,其横轴是召回率,纵轴是精确率。

即P-R曲线是通过将阈值从高到低移动而生成。

P-R曲线上一个点的含义是,在该阈值下,模型将大于该阈值的结果判定为正样本,小于该阈值的结果判定为负样本,此时返回结果对应的召回率和精确率。

P-R 曲线越靠近右上角性能越好。

F_1​ score综合考虑了P值和R值。

F1score/P-R曲线/ROC曲线/AUC_第2张图片

5.ROC曲线及其绘制/AUC及其计算/FPR/TPR

ROC(receiver operating characteristic

ROC曲线是通过将阈值从高到低移动而生成。

ROC曲线用FPR(假正例率,假样本的召回率)作横轴,用TPR(真正例率,真样本的召回率)作纵轴

FPR:真实负样本被判定为正例的数量 占 全部真实负样本数量 的比例

TPR:真实正样本被判定为正例的数量 占 全部真实正样本数量 的比例

 同样用上面的数据, 用0.9作为阈值,此时TP=1,FP=0,FN=9,TN=10,故TPR=0.1,FPR=0。 用0.8作为阈值,此时TP=2,FP=0,FN=8,TN=10,故TPR=0.2,FPR=0。 用0.7作为阈值,此时TP=2,FP=1,FN=8,TN=9,故TPR=0.2,FPR=0.1。 用0.6作为阈值,此时TP=3,FP=1,FN=7,TN=9,故TPR=0.3,FPR=0.1。 以此类推。。

F1score/P-R曲线/ROC曲线/AUC_第3张图片

AUC的值就是ROC曲线下方围成区域的面积大小。

计算AUC的值只需要沿着ROC横轴做积分即可。

AUC越大,说明分类器越可能把真正的正样本排在前面,分类性能越好。

 

6.ROC和P-R线比较

P-R曲线和ROC曲线都能评价分类器的性能。如果分类器a的PR曲线或ROC曲线包围了分类器b对应的曲线,那么分类器a的性能好于分类器b的性能。

PR曲线和ROC曲线有什么联系和不同: 相同点: 首先从定义上PR曲线的R值是等于ROC曲线中的TPR值。 都是用来评价分类器的性能的。 不同点: ROC曲线是单调的而PR曲线不是(根据它能更方便调参),可以用AUC的值得大小来评价分类器的好坏(是否可以用PR曲线围成面积大小来评价呢?)。 正负样本的分布不平衡时,ROC曲线形状基本保持不变,而PR曲线一般会产生剧烈的变化。

下图(a)和(b)分别是正反例相等的时候的ROC曲线和PR曲线, (c)和(d)分别是十倍反例一倍正例的ROC曲线和PR曲线 。 可以看出,在正负失衡的情况下,从ROC曲线看分类器的表现仍然较好(图c),然而从P-R曲线来看,分类器就表现的很差。 事实情况是分类器确实表现的不好,是ROC曲线欺骗了我们。

F1score/P-R曲线/ROC曲线/AUC_第4张图片

在正负样本分布极不均匀的情况下,PRC比ROC更有效的反应分类器的好坏

参考:

《百面机器学习》诸葛越

《统计学习方法》李航

《机器学习》周志华

机器学习评价指标合辑

PR曲线和F1、ROC曲线和AUC

你可能感兴趣的:(机器学习)