衡量二分类模型的统计指标(TN,TP,FN,FP,F1,准确,精确,召回,ROC,AUC)

文章目录

  • -
    • 衡量二分类问题的统计指标
      • 分类结果
      • 混淆矩阵
      • 准确率
      • 精确率
      • 召回率
      • F1评分
        • 推导过程
      • ROC曲线、AUC

-

衡量二分类问题的统计指标

分类结果

  二分类问题,分类结果有以下四种情况:

     - 真阴性(TN,True Negative),事实为阴性并预测为阴性。

     - 真阳性(TP,True Positive),事实为阳性并预测为阳性。

     - 假阴性(FN,False Negative),事实为阳性但预测为阴性。

     - 假阳性(FP,False Positive),事实为阴性但预测为阳性。

真实类别
1 Positive 0 Negative
预测类别 1 Positive True Positive 真阳性 False Positive 假阳性
0 Negative False Negative 假阴性 True Negative 真阴性

混淆矩阵

  混淆矩阵(Confusion Matrix)是将四种情况各自预测结果的计数,以矩阵形式表示出来。

( T N F P F N T P ) \begin{pmatrix} TN & FP \\ FN & TP \end{pmatrix} (TNFNFPTP)

准确率

  准确率(Accuracy)是指所有预测中预测准确的比例:

A c c u r a c y = T P + T N T P + T N + F P + F N Accuracy = {TP + TN \over TP + TN + FP + FN} Accuracy=TP+TN+FP+FNTP+TN

精确率

  精确度(Precision)是指正确预测阳性占所有预测为阳性的比例:

P r e c i s i o n = T P T P + F P Precision = {TP \over TP + FP} Precision=TP+FPTP

召回率

  召回率(Recall)是指正确预测的阳性占所有事实是阳性的比例:

R e c a l l = T P T P + F N Recall = {TP \over TP + FN} Recall=TP+FNTP

F1评分

  F1分数(F1 Score),是统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的精确率和召回率。F1分数可以看作是模型精确率和召回率的一种调和平均,它的最大值是1,最小值是0。

F 1 = 2 R e c a l l ∗ P r e c i s i o n R e c a l l + P r e c i s i o n = 2 T P 2 T P + F N + F P F1 = 2{ Recall * Precision \over Recall + Precision} = { 2TP \over 2TP + FN + FP } F1=2Recall+PrecisionRecallPrecision=2TP+FN+FP2TP

推导过程

F 1 = 2 R e c a l l ∗ P r e c i s i o n R e c a l l + P r e c i s i o n = 2 T P T P + F N ∗ T P T P + F P T P T P + F N + T P T P + F P = 2 ∗ T P 2 ( T P + F N ) ( T P + F P ) T P 2 + T P ∗ F P + T P 2 + T P ∗ F N ( T P + F N ) ( T P + F P ) = 2 ∗ T P 2 2 T P 2 + T P ∗ F P + T P ∗ F N = 2 T P 2 T P + F N + F P F1 = 2{ Recall * Precision \over Recall + Precision} \\ = 2{ {TP \over TP + FN} * {TP \over TP + FP} \over {TP \over TP + FN} + {TP \over TP + FP} } \\ = 2 * { {TP^2 \over (TP + FN)(TP + FP)} \over {TP^2 + TP*FP + TP^2 + TP*FN \over (TP + FN)(TP + FP)} } \\ = 2 * { TP^2 \over 2TP^2 + TP*FP + TP*FN } \\ = { 2TP \over 2TP + FN + FP } F1=2Recall+PrecisionRecallPrecision=2TP+FNTP+TP+FPTPTP+FNTPTP+FPTP=2(TP+FN)(TP+FP)TP2+TPFP+TP2+TPFN(TP+FN)(TP+FP)TP2=22TP2+TPFP+TPFNTP2=2TP+FN+FP2TP

ROC曲线、AUC

  ROC曲线(Receiver Operating Characteristic Curve)显示了分类模型在所有分类阈值下的性能,它描绘了真阳性率(Y轴)和假阳性率(X轴的关系)。

  ROC曲线越“陡峭”,越接近理想结果:最大化真阳性率和最小化假阳性率。即图中左上角是“理想”点-假阳性率为0,真阳性率为1。

  ROC曲线下的面积(Area Under the Roc Curve,AUC)计算从(0,0)到(1,1)的整个ROC曲线下的二维区域的面积,AUC越大越好。

你可能感兴趣的:(机器学习,数据挖掘,机器学习,统计学)