对于二分类问题,机器预测的和实际的还是会有所偏差,所以我们引入以下几个概念来评价分类器的优良。
混淆矩阵
预测的类 | ||||
正类 | 负类 | 合计 | ||
实际的类 | 正样本 | TP | FN | P |
负样本 | FP | TN | N | |
合计 | P’ | N’ | P+N |
T,True;F,False;P,Positive;N,Negative
TP:真阳,将正样本判断为正类。注:阳,意动用法,认为…是阳性。真阳,即判断样本为阳性是正确的。
TN:真阴,将负样本判断为负类。
FP:假阳,将负样本判断为正类。
FN:假阴,将正样本判断为负类。
P:正样本个数 = TP + FN
N:负样本个数
P’:被分类器分为正元组的样本数。
N’:被分类器分为负元组的样本数。
S:总预测样本个数 = P + N = P‘ + N’
首先介绍三个指标。
A c c u r a c y = T P + T N S Accuracy = \frac{TP+TN}{S} Accuracy=STP+TN
P r e c i s i o n = T P P ′ Precision = \frac{TP}{P'} Precision=P′TP
R e c a l l = T P P Recall = \frac{TP}{P} Recall=PTP
深入理解:召回率与精确率用于衡量分类器的漏报(弃真)和虚警(取伪)比例。精确率越低,则虚警的可能性越大。一般在生活中,弃真的后果比取伪严重得多,例如医生诊断病人是否患有肺炎(COVID-19),取伪,也就是虚惊一场,弃真这可就严重了。也就是说,要尽量降低弃真的可能,也就是提高召回率。换而言之,一般情况下,召回率比精确率重要。但只是一般情况,召回率、精确率哪个更重要还是取决于具体应用场景。
查准率(精确率)可以认为是”宁缺毋滥”,适合对准确率要求高的应用,例如商品推荐,网页检索等。查全率(召回率)可以认为是”宁错杀一百,不放过1个”,适合类似于检查走私、逃犯信息等。
人们通常使用准确率和召回率这两个指标,来评价二分类模型的分析效果。
但是当这两个指标发生冲突时,如何权衡?例如以下,A、B 两个模型哪个的综合性能更优?
准确率 | 召回率 | |
---|---|---|
A 模型 | 80% | 90% |
B 模型 | 90% | 80% |
为了解决这个问题,人们提出了 F β F_\beta Fβ 分数。
F β F_\beta Fβ 的物理意义就是将准确率和召回率这两个分值合并为一个分值,在合并的过程中,召回率的权重是准确率的 β \beta β倍。即 W R = β ⋅ W P W_R = \beta\cdot W_P WR=β⋅WP . 则
F β = ( 1 + β 2 ) ⋅ precision ⋅ recall ( β 2 ⋅ precision ) + recall F_{\beta}=\left(1+\beta^{2}\right) \cdot \frac{\text { precision } \cdot \text {recall}}{\left(\beta^{2} \cdot \text { precision }\right)+\text {recall}} Fβ=(1+β2)⋅(β2⋅ precision )+recall precision ⋅recall
F 1 F_1 F1 分数( F 1 S c o r e F_1\ Score F1 Score )认为召回率和准确率同等重要, F 2 F_2 F2 分数认为召回率的重要程度是准确率的2倍,而 F 0.5 F_{0.5} F0.5 分数认为召回率的重要程度是准确率的一半。
当 β = 1 \beta=1 β=1 时,
F 1 = precision ⋅ recall 0.5 ⋅ ( precision + recall) F_{1}= \frac{\text { precision } \cdot \text {recall}}{ 0.5 \cdot(\text { precision }+\text {recall)}} F1=0.5⋅( precision +recall) precision ⋅recall
2 F 1 = 1 P r e c i s i o n + 1 R e c a l l \frac{2}{F_1}=\frac{1}{Precision}+\frac{1}{Recall} F12=Precision1+Recall1
F1 值是P、R的调和平均数,为算数平均数除以几何平均数,且越大越好。
如果有个划分点可以把正负样本完全区分开,那么P-R曲线就是整个1*1的面积。此时的二分类模型是最完美的。
总之,P-R曲线应该是从(0,0)开始画的一条曲线,切割1*1的正方形,得到一块区域。
在进行比较时,若一个学习器A的P-R曲线被另一个学习器B的P-R曲线完全“包住”,则B的性能优于A。但是两个学习器的P-R曲线往往会发生交叉。这时候如何根据P-R曲线比较两个学习器的性能?(其实就是 Precision 和 Recall 率的权衡)
1、平衡点(BEP):我们认为平衡点越靠近(1,1)则性能越好。
2、 F 1 F_1 F1 度量
3、 F β F_β Fβ 度量
不再赘述。
首先引入两个指标,灵敏度和 1-特异度
。
灵敏度(True Positive Rate,TPR)其实就是召回率,公式如下
TPR = T P T P + F N {\text { TPR }=\frac{T P}{T P+F N}} \\ TPR =TP+FNTP
1-特异度(False Positive Rate,FPR)是错判负样本为正类占所有负样本的比例,公式如下:
FPR = F P F P + T N {\text {FPR}=\frac{F P}{F P+T N}} FPR=FP+TNFP
以 TPR 为纵轴,以 FPR 为横轴,画出 ROC 曲线,ROC 曲线下的面积就是 AUC(Area under Curve)。从 FPR 和 TPR 的定义可以理解,TPR 越高,FPR 越小,我们的模型的性能也就越好。也就是说,ROC 曲线越靠近左上角 (1, 1) 模型越好。
AUC 是一个模型评价指标,用于二分类模型的评价。
为什么要用AUC作为二分类模型的评价指标呢?为什么不直接通过计算准确率来对模型进行评价呢?答案是这样的:机器学习中的很多模型对于分类问题的预测结果大多是概率,即属于某个类别的概率,如果计算准确率的话,就要把概率转化为类别,这就需要设定一个阈值,概率大于某个阈值的属于一类,概率小于某个阈值的属于另一类,而**阈值的设定直接影响了准确率的计算。**见下图(b)
AUC值。AUC (Area Under Curve) 被定义为ROC曲线下的面积。
显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围一般在0.5和1之间。
使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而作为一个数值,对应AUC更大的分类器效果更好。
从AUC判断分类器(预测模型)优劣的标准:
AUC = 1,是完美分类器,采用这个预测模型时,存在至少一个阈值能得出完美预测。绝大多数预测的场合,不存在完美分类器。
0.5 < AUC < 1,优于随机猜测。这个分类器(模型)妥善设定阈值的话,能有预测价值。
AUC = 0.5,跟随机猜测一样(例:丢铜板),模型没有预测价值。
AUC < 0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测。
一句话来说,AUC值越大的分类器,正确率越高。
图 a) 和 b) 是原始样本的 ROC曲线和 PR曲线,
图 c) 和 d) 则是将负样本增加10倍后的 ROC曲线和 PR曲线。
1)从 a 和 c 可以看出,负样本增加10倍后,ROC曲线变化不大。分析一下为什么变化不大,其Y轴是TPR,x轴是FPR,当固定一个threshold来计算TPR和FPR的时候,虽然负样本增加了10倍,也就是FPR的分母虽然变大了,但是正常概率来讲,这个时候超过threshold的负样本量也会随之增加,也就是分子也会随之增加,所以总体FPR变化不大,从这个角度来看的话正负样本稍微不均衡的话,对KS影响也不大,因为KS=max(TPR-FPR),这个前提是正负样本的量都比较大的情况下,因为只有样本量比较大的情况下,根据大数定律,计算出来的频率才非常接近于真实的概率值,有资料显示正负样本都超过6000的量,计算的频率就比较接近概率。所以在样本量都不是很大的情况下,如果样本还极端不均衡的话,就会有一些影响。由此可见,ROC曲线能够尽量降低不同测试集带来的干扰,更加客观地衡量模型本身的性能。
2)从 b 和 d 图可以看出,负样本增加10倍后,PR 曲线变化比较大。也分析一下为什们变化大,其 Y 轴是precision,x 轴是 recall,当负样本增加10倍后,在 racall 不变的情况下,必然召回了更多的负样本,所以精确度会大幅下降,b和d图示也非常明显的反映了这一状况,所以PR曲线变化很大,所以PR曲线对正负样本分布比较敏感。
如何选择呢?
在很多实际问题中,正负样本数量往往很不均衡。比如,计算广告领域经常涉及转化率模型,正样本的数量往往是负样本数量的1/1000,甚至1/10000。若选择不同的测试集,P-R曲线的变化就会非常大,而ROC曲线则能够更加稳定地反映模型本身的好坏。所以,ROC曲线的适用场景更多,被广泛用于排序、推荐、广告等领域。
但需要注意的是,选择P-R曲线还是ROC曲线是因实际问题而异的,如果研究者希望更多地看到模型在特定数据集上的表现,P-R曲线则能够更直观地反映其性能。
PR曲线比ROC曲线更加关注正样本,而ROC则兼顾了两者。
AUC越大,反映出正样本的预测结果更加靠前。(推荐的样本更能符合用户的喜好)
当正负样本比例失调时,比如正样本1个,负样本100个,则ROC曲线变化不大,此时用PR曲线更加能反映出分类器性能的好坏。这个时候指的是两个分类器,因为只有一个正样本,所以在画auc的时候变化可能不太大;但是在画PR曲线的时候,因为要召回这一个正样本,看哪个分类器同时召回了更少的负样本,差的分类器就会召回更多的负样本,这样precision必然大幅下降,这样分类器性能对比就出来了。
其实多分类的评价指标的计算方式与二分类完全一样,只不过我们计算的是针对于每一类来说的召回率、精确度、准确率和 F1分数。
对于某一个确定的类别来讲,P 其实就是实际属于这一类中的样本,N 其实就是实际属于其他类的所有样本,P’ 其实就是被分类器分类这一类的所有样本,N’ 就是被分类器分类为其他类的所有样本数。
Micro-F1 和 Macro-F1
最后看Micro-F1和Macro-F1。在第一个多标签分类任务中,可以对每个“类”,计算F1,显然我们需要把所有类的F1合并起来考虑。
这里有两种合并方式:
第一种计算出所有类别总的 Precision和 Recall,然后计算F1。这种方式被称为Micro-F1微平均。
microP = 1 n ∑ 1 n P i microR = 1 n ∑ 1 n R i mircoF 1 = 2 × macroP × macroR macroP + macroR \begin{aligned} &\operatorname{microP}=\frac{1}{n} \sum_{1}^{n} P_{i}\\\\ &\operatorname{microR}=\frac{1}{n} \sum_{1}^{n} R_{i}\\\\ &\operatorname{mircoF} 1=\frac{2 \times \operatorname{macroP} \times \operatorname{macroR}}{\operatorname{macroP}+\operatorname{macroR}} \end{aligned} microP=n11∑nPimicroR=n11∑nRimircoF1=macroP+macroR2×macroP×macroR
第二种方式是计算出每一个类的 Precison 和Recall 后计算F1,最后将F1平均。这种方式叫做Macro-F1宏平均。
microP = T P ‾ T P ‾ × F P ‾ microR = T P ‾ T P ‾ × F N ‾ mircoF 1 = 2 × microP × microR microP + microR \begin{aligned} &\operatorname{microP}=\frac{\overline{T P}}{\overline{T P} \times \overline{F P}}\\\\ &\operatorname{microR}=\frac{\overline{T P}}{\overline{T P} \times \overline{F N}}\\\\ &\operatorname{mircoF} 1=\frac{2 \times \operatorname{microP} \times \operatorname{microR}}{\operatorname{microP}+\operatorname{microR}} \end{aligned} microP=TP×FPTPmicroR=TP×FNTPmircoF1=microP+microR2×microP×microR
[1] https://blog.csdn.net/liuningjie1119/article/details/72855114
[2] P-R曲线及与ROC曲线区别
[3] https://blog.csdn.net/CatCherry/article/details/100576677
[4] https://blog.csdn.net/zhihua_oba/article/details/78677469
[5] https://blog.csdn.net/u013063099/article/details/80964865
[6] https://blog.csdn.net/CatCherry/article/details/100576677
[7] 精确率与召回率,RoC 曲线与 PR 曲线