机器学习中的模型评价策略metric(ROC,PR,AUC,F1)

TP(真阳性 true positives) TN(真阴性 true negatives) FP(假阳性 false positives) FN(假阴性 false negatives)

分布图:

机器学习中的模型评价策略metric(ROC,PR,AUC,F1)_第1张图片

混淆矩阵:

机器学习中的模型评价策略metric(ROC,PR,AUC,F1)_第2张图片

准确率(accuracy):acc =\frac{TP+TN}{TP+TN+FP+FN}

精准率(precision):pre = \frac{TP}{TP+FP}

模型判别出来是阳性,但是不是所有都对,精准率就是检查在这些阳性里的真正为阳性的比率。一句话:检索出的信息中有多少比例是用户感兴趣的(西瓜书)

召回率(recall):re = \frac{TP}{TP+FN}

原来阳性总数,模型只能判别出来一部分,召回率就是检查模型对原来阳性的判别程度。一句话:用户感兴趣的信息中有多少被检索出来了(西瓜书)

PR 曲线:(PR curve):越靠近右上角(top right)的点越好

机器学习中的模型评价策略metric(ROC,PR,AUC,F1)_第3张图片

precision和recall是相互排斥的,只能折中取,所以就有了F值的判别策略

F1值:F1 = \frac{2*precision*recall}{precision+recall}=\frac{2\times TP}{ALL+TP-TN}

F_{\beta }值:F_{\beta }=\frac{(1+\beta ^{2})\times P\times R}{(\beta ^{2}\times P)+R}

\beta>1召回率更有影响,\beta<1精准率更有影响

有时会有多个二分类,例如多次训练/测试、多分类任务。这时需要一个综合的策略

微平均(micro-average):把所有类别的一次性都考虑进来,计算类别预测的准确率。

宏平均(macro-average):每个类别分开考虑,计算单独每个类别的准确率,最后再进行算术平均得到该测试集的准确率。

微平均 recall = precise = f1-score 无论是二分类还是多分类, 因为要统计所有的类别, 所以TP为各个类别分对的数目的总和, FP= FN 为各个类别分错数目的总和,recall = precise = 正确分类 / (正确分类 + 错误分类) 

所以:宏平均会比微平均好一些,因为macro会受minority class影响更大,也就是说更能体现在small class上的performance。

(摘自:微平均 宏平均 微平均(准确率、召回率、f1-score相等) 以及 TP、TN、FP、FN的理解_Lord_sh的博客-CSDN博客)

多对P.R:(P_{1},R_{1}),(P_{2},R_{2}),(P_{3},R_{3}),``````(P_{n},R_{n})

宏查准率(macro-P):macro-P=\frac{1}{n}\sum_{i=1}^{n}P_{i}

宏查全率(macro-R):macro-R=\frac{1}{n}\sum_{i=1}^{n}R_{i}

宏F1:(macro-F1):macro-F1=\frac{2\times macro-P\times macro-R}{macro-P+macro-R}

微查准率(macro-P):micro-P=\frac{\overline{TP}}{\overline{TP}+\overline{FP}}

微查全率(macro-R):micro-R=\frac{\overline{TP}}{\overline{TP}+\overline{FN}}

微F1:(macro-F1):micro-F1=\frac{2\times micro-P\times micro-R}{micro-P+micro-R}

真正例率(True Positive Rate):TPR=\frac{TP}{TP+FN}

假正例率(False Positive Rate):FPR=\frac{FP}{TN+FP}

ROC曲线(ROC curve):ROC曲线中,离左上角(top left)最近的点为最好的阈值点 

机器学习中的模型评价策略metric(ROC,PR,AUC,F1)_第4张图片

灵敏度(sensitivity):sencitivity = \frac{TP}{TP+FN} = true\, positive\, rate

特异性(specificity):specificity = 1-false\, positive\, rate = 1-\frac{FP}{TN+FP} = \frac{TN}{TN+FP}

AUC(曲线下面积):不考虑其他因素下,AUC越大,模型越好。PR和ROC都适用

你可能感兴趣的:(机器学习)