二元分类中的各种评价指标

二元分类中的各种评价指标

    • 混淆矩阵
    • 1. 准确率 (accuracy)
    • 2. 错误率
    • 3. 召回率(recall)、灵敏度(sensitive)、真正率(true positive rate)
    • 4. 特效度(specificity)
    • 5.假正率(false positive rate)
    • 6. 精确率、精度(Precision)
    • 7. 综合评价指标F-Measure
    • 8. ROC曲线
    • 9. AUC(Area Under Curve)

混淆矩阵

通过混淆矩阵来表示预测值和实际值之间的关系
二元分类中的各种评价指标_第1张图片
其中,TP表示预测结果为Positive且预测正确(实际类别也是Positive),FP表示预测结果为Positive且预测结果错误(实际应该为Negative),以此类推。

1. 准确率 (accuracy)

准确率表示被正确分类的样本占总样本的比例
a c c = T P + T N T P + T N + F P + F N = T P + T N P + N acc = \frac{TP + TN}{TP + TN + FP + FN} = \frac{TP + TN}{P+N} acc=TP+TN+FP+FNTP+TN=P+NTP+TN

2. 错误率

错误率与准确率相反,表示被错误分类的样本占总样本的比例
e r r o r r a t e = F P + F N T P + T N + F P + F N = F P + F N P + N error rate = \frac{FP + FN}{TP + TN + FP + FN} = \frac{FP + FN}{P+N} errorrate=TP+TN+FP+FNFP+FN=P+NFP+FN
也等于1 - acc

3. 召回率(recall)、灵敏度(sensitive)、真正率(true positive rate)

召回率是覆盖率的度量,表示有多少正例被正确分类
R = T P T P + F N = T P P R = \frac{TP}{TP + FN}=\frac{TP}{P} R=TP+FNTP=PTP

4. 特效度(specificity)

特效度表示有多少负例被正确分类
s p e c i f i c i t y = T N T N + F P = T N N specificity=\frac{TN}{TN + FP} = \frac{TN}{N} specificity=TN+FPTN=NTN

5.假正率(false positive rate)

假正率表示负例被错分为正例的比例
F P R = F P F P + T N = F P N FPR = \frac{FP}{FP + TN} = \frac{FP}{N} FPR=FP+TNFP=NFP

6. 精确率、精度(Precision)

精度表示被分为正例的示例中实际为正例的比例
P = T P T P + F P = T P P ′ P = \frac{TP}{TP + FP} = \frac{TP}{P'} P=TP+FPTP=PTP

7. 综合评价指标F-Measure

精度P和召回率R有时候会出现的矛盾的情况,这样就需要综合考虑他们,最常见的方法就是F-Measure(又称为F-Score)。 F-Measure是Precision和Recall加权调和平均
F = ( α 2 + 1 ) P ∗ R α 2 ( P + R ) F = \frac{(\alpha^2 + 1)P * R}{\alpha^2(P + R)} F=α2(P+R)(α2+1)PR
其中 α \alpha α是参数。当 α = 1 \alpha=1 α=1时,就是常用的F1指标
F 1 = 2 P ∗ R P + R F1=\frac{2P*R}{P+R} F1=P+R2PR
α = 2 \alpha=2 α=2
F 2 = 5 ∗ P ∗ R 4 ∗ ( P + R ) F2=\frac{5*P*R}{4*(P+R)} F2=4(P+R)5PR

8. ROC曲线

通常分类的阈值越低(把得分更低的样例判定为正例),则模型对正例识别能力越强,真正率(true positive rate)也越高,但同时对负例的误判率也会越高,假正率(false positive rate)也越高。
ROC曲线形象化表示这一变化。
T P R = T P T P + F N = T P P TPR = \frac{TP}{TP + FN}=\frac{TP}{P} TPR=TP+FNTP=PTP
F P R = F P F P + T N = F P N FPR = \frac{FP}{FP + TN} = \frac{FP}{N} FPR=FP+TNFP=NFP
ROC以FPR为横坐标,以TPR为纵坐标,表示阈值变化时两者的变化。TPR大,且FPR小的点,就是较优的点
二元分类中的各种评价指标_第2张图片

9. AUC(Area Under Curve)

AUC表示ROC曲线下的面积,显然,该面积越大,说明模型越优。
也可以这么理解,随机挑选一个正样本以及一个负样本,分类器判定正样本的值高于负样本的概率就是 AUC值。
当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变。(ACC等其他指标都会变化)

你可能感兴趣的:(机器学习)