【机器学习】模式识别基本概念

  • 二类分类

    • 真阳性(TP)
    • 假阳性(FP)
    • 真阴性(TN)
    • 假阴性(FN)
预测为正/阳性(Positive) 预测为负/阴性(Negative)
真值为正/阳性 True Positive(TP)/真阳性 False Negative(FN)/假阴性
真值为负/阴性 False Positive(FP)/假阳性 True Negative(TN)/真阴性

以新冠疫情举例:

TP:小Q为新冠患者,核酸试剂检测为阳性

FN:小Q为新冠患者,核酸试剂检测为阴性

FP:小Q并不是新冠患者,核酸试剂检测为阳性

TN:小Q并不是新冠患者,核酸试剂检测为阴性

  • 准确度(Accuracy)

​ 将阳性和阴性综合起来度量识别正确的程度。
A c c u r a c y = T P + T N T P + T N + F P + F N Accuracy = \frac{{TP + TN}}{{TP + TN + FP + FN}} Accuracy=TP+TN+FP+FNTP+TN

举个例子:就以新冠疫情为例,假如有50名阳性患者和50名阴性患者,而核酸试剂只检测出一名阳性患者,其余都检测为阴性。

TP:(真阳性)= 1

FN:(假阴性)= 49

FP:(假阳性)= 0

TN:(真阴性)= 50
A c c u r a c y = 1 + 50 1 + 50 + 0 + 49 = 51 % Accuracy = \frac{{1 + 50}}{{1 + 50 + 0 + 49}} = 51\% Accuracy=1+50+0+491+50=51%

  • 精度(Precision)

​ 预测为阳性样本的准确程度。也称查准率
P r e i s i o n = T P T P + F P Preision = \frac{{TP}}{{TP + FP}} Preision=TP+FPTP

P r e c i s i o n = 1 1 + 0 = 100 % Precision = \frac{1}{{1 + 0}} = 100\% Precision=1+01=100%

  • 召回率(Recall)

​ 全部阳性样本中被预测为阳性的比例。也称敏感度/查全率
Re ⁡ c a l l = T P T P + F N \operatorname{Re} call = \frac{{TP}}{{TP + FN}} Recall=TP+FNTP

Re ⁡ c a l l = 1 1 + 49 = 2 % \operatorname{Re} call = \frac{1}{{1 + 49}} = 2\% Recall=1+491=2%

通常,精度高,同时召回率高,可以说明模型性能好!

但是,有些情况下,精度和召回率是相互矛盾的(上面那个例子就很好说明!)这时就需要F1Score的指标来分析~

  • F-Score

​ 通过加权平均,综合precision和recall。
F =  ( a 2  +  1 ) × precision × recall a 2 × precision + recall {\text{F = }}\frac{{({a^2}{\text{ + }}1) \times {\text{precision}} \times {\text{recall}}}}{{{a^2} \times {\text{precision + recall}}}} F = a2×precision + recall(a2 + 1)×precision×recall
​ 当a = 1,则得到F1-Score
F =  2 × precision × recall precision + recall {\text{F = }}\frac{{2 \times {\text{precision}} \times {\text{recall}}}}{{{\text{precision + recall}}}} F = precision + recall2×precision×recall

F = 2 × 100 % × 2 % 100 % + 2 % = 3.92 % F = \frac{{2 \times 100\% \times 2\% }}{{100\% + 2\% }} = 3.92\% F=100%+2%2×100%×2%=3.92%

  • PR曲线(Precision-Recall Curve)

    • 横轴:召回率(Recall)
    • 纵轴:精度(precision)
    • PR曲线约往右上凸,说明性能越好。
      在这里插入图片描述
  • ROC曲线(Receiver-operating-characteristic curve)

    • 横轴:False positive rate(FPR),所有阴性样本中被错误识别为阳性的比率,FPR = 1 - specificity
    • 纵轴:True positive rate(TPR),所有阳性样本中被识别为阳性的比率,也就是Recall
    • ROC曲线越往左上凸,说明模型的性能越好。
    • 对角线:随机识别的ROC曲线。

FPR =  F P F P + T N {\text{FPR = }}\frac{FP}{{{FP+TN}}} FPR = FP+TNFP

Re ⁡ c a l l = T P T P + F N \operatorname{Re} call = \frac{{TP}}{{TP + FN}} Recall=TP+FNTP
【机器学习】模式识别基本概念_第1张图片

  • AUC

    • 曲线下方的面积(Area under the Curve)
    • AUC = 1 :完美分类器
    • 0.5
    • AUC = 0.5:跟随机猜测一样,没有预测价值
    • AUC < 0.5 :比随机猜测还差

【机器学习】模式识别基本概念_第2张图片

你可能感兴趣的:(机器学习,机器学习,人工智能)