机器学习分类中的评判标准

分类评判

首先,介绍几个关键词:

混淆矩阵: 0 1
0 True Neigative, TN False Positive, FP
1 False Neigative, FN True Possitive, TP

其中,TN 和 TP都被正确分类

分类的优劣:ACC、PR、F1score、ROC曲线

1. Acc = Npre / Ntotal

其中,Npre = TP + TN,Ntotal = TP+FP+TN+FN

2. 精度Precisoin & 召回率Recall,简称PR

recall = TP / (TP+FN) = TP / P,反映正样本的识别能力

precision = TP / (TP+FP),反映负样本区分能力

机器学习分类中的评判标准_第1张图片

两者权衡

​ 鱼和熊掌不可兼得:不能同时增加精度并减少召回率,反之亦然,成为精度/召回率权衡。

3. F1 score

F1 = 2/((1/Presicion)+(1/Recall)) = 2TP / (2TP+FN+FP) = 2(Precision*Recall) / (Precision + Recall)

这里1可以为β,Fβ = (1+β2)TP/(1+β2)TP+β2FN+FP = (1+β2)Presicion*Recall / β2*Presicion + Recall

  • β = 1,即F1
  • β > 1 ,precision权重更大,为了使得Fβ增加,期望Precision下降,Recall增大,说明模型更加偏向recall增加,看重正样本的识别能力。
  • β < 1,recall权重大,希望recall下降,而Precision上升。说明模型更偏好提升Precision,看重负样本的区分能力。

这里举个实际的例子说明一下:

  • 分类器通过图像检测小偷:希望有异常就报警,一句话“宁可错杀一千,也不可放过一个”。侧重Recall的前提下,而尽量提高Precision。
  • 检测儿童可以观看的视频:更青睐能够准确分辨,侧重就是Precision

ROC 受试者工作特征曲线

灵敏度 Sensitivity = TP / TP + FN

特异度 Specificity = TN / FP + TN

真正率 TPR = Sensitivity = TP / TP + FN

假正率 FPR = 1 - Specificity = FP / FP + TN

机器学习分类中的评判标准_第2张图片

当TPR增加,FPR下降。 曲线越远离随机分类器,效果越好。

AUC 曲线下面积

基于排序的高效算法

一般标准

0.5~0.7 差

0.7~0.85 一般

0.85~0.95 好

0.95~1 极好

你可能感兴趣的:(机器学习)