F1-score值计算

F1分数(F1 Score),是统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的精确率和召回率。F1分数可以看作是模型精确率和召回率的一种加权平均,它的最大值是1,最小值是0。

1. TP、TN、FP、FN解释说明

真实情况 预测结果
正例 反例
正例 TP(真正例) FN(假反例)
反例 FP(假正例) TN(真反例)
  • 行表示预测的label值,列表示真实label值
  • TP:True Positive, 被判定为正样本,事实上也是正样本。
  • FP:False Positive,被判定为正样本,但事实上是负样本。
  • TN:True Negative, 被判定为负样本,事实上也是负样本。
  • FN:False Negative,被判定为负样本,但事实上是正样本。

2. precision 和 recall 的计算

  • Accuracy:表示预测结果的精确度,预测正确的样本数除以总样本数。
  • precision: 准确率,又称为查准率,表示预测结果中,预测为正样本的样本中,正确预测为正样本的概率;
  • recall: 召回率,又称为查全率,表示在原始样本的正样本中,最后被正确预测为正样本的概率;

 Accuracy=\frac{TP+TN}{TP+FT+TN+FN}

Precision= \frac{TP}{TP+FP}

Recall = \frac{TP}{TP+FN}

3. 分类模型的评估方法-F分数(F-Score)

精确率(Precision)和召回率(Recall)评估指标,理想情况下做到两个指标都高当然最好,但一般情况下,Precision高,Recall就低,Recall高,Precision就低。

4. P-R曲线、平均精度(Average-Precision,AP)

F1-score值计算_第1张图片

P-R图直观地显示出学习器在样本总体上的查全率、查准率.总体趋势,精度越高,召回越低,进行比较

  • 若一个学习器的P-R曲线被另一个学习器的曲线完全“包住”,则可断言后者的性能优于前者,如图中学习器A的性能优于学习器C;
  • 如果两个学习器的P-R曲线发生了交叉,如图中的A与B,则难以一般性地断言两者孰优孰劣? 只能在具体的查准率或查全率条件下进行比较.

“平衡点”(Break Event Point,简称BEP )就是这样一个度量,它是“查准率=查全率”时的取值, 如图中学习器C的BEP 是0.64, 而基于BEP的比较,可认为学习器A 优于B.

但BEP 还是过于简化了些,更常用的是Fl 度量

5. 分类模型的评估方法-F分数(F-Score)

精确率(Precision)和召回率(Recall)评估指标,理想情况下做到两个指标都高当然最好,但一般情况下,Precision高,Recall就低,Recall高,Precision就低。

所以在实际中常常需要根据具体情况做出取舍,例如一般的搜索情况,在保证召回率的条件下,尽量提升精确率。而像癌症检测、地震检测、金融欺诈等,则在保证精确率的条件下,尽量提升召回率。引出了一个新的指标F-score,综合考虑Precision和Recall的调和值.

F-Score= (1+\beta ^{2})\ast \frac{Precision\ast Recall}{\beta ^{2}Precision+Recall}

  • β=1时,称为 F1-score或者 F1-Measure,这时,精确率和召回率都很重要,权重相同。
  • 当有些情况下,我们认为精确率更重要些,那就调整β的值小于1,
  • 如果我们认为召回率更重要些,那就调整β的值大于1。

F1指标(F1-score):F1-score表示的是precision和recall的调和平均评估指标。

F1-Score= 2\ast \frac{Precision\ast Recall}{Precision+Recall}

举个例子:癌症检查数据样本有10000个,其中10个数据祥本是有癌症,其它是无癌症。假设分类模型在无癌症数据9990中预测正确了9980个,在10个癌症数据中预测正确了9个,此时真阳=9,真阴=9980,假阳=10,假阴=1。

Accuracy = 99.89%

Precision = 47.3%

Recall = 90%

F1-Scoce = 62%

F2-Score = 76.2%

本文部分内容来自一位前辈,非常感谢分享!谢谢!

你可能感兴趣的:(NLP,自然语言处理,机器学习)