测评指标中的 微平均F-micro 和 宏平均 F-macro 真正的意义

背景

出学校没多久,之前学机器学习(西瓜书)的时候对于测评几个测评指标一直不是很清晰,恰好最近的组内有一个多标签的分类任务,在写评测指标的时候,又重新学了这两组指标的定义和实现。

先上几个简单的定义:

准确率:accuracy
查准率:Precision
召回率:Recall
F值:F-measure

从二分类开始:对于二分类问题,可将样例根据其真实类别和分类器预测类别划分为:

真正例(True Positive,TP):真实类别为正例,预测类别为正例。
假正例(False Positive,FP):真实类别为负例,预测类别为正例。
假负例(False Negative,FN):真实类别为正例,预测类别为负例。
真负例(True Negative,TN):真实类别为负例,预测类别为负例。

然后可以构建混淆矩阵(Confusion Matrix)如下表所示。混淆矩阵是实际类别结果和预测分类结果的对比矩阵,在单标签的分类问题上常用于对验证数据集的各类分类结果的查看。

测试集中 预测结果、正例 预测结果、负例
正例 TP FN
负例 FP TN

查准率P:

P=TPTP+FP P = T P T P + F P

召回率R:
P=TPTP+FN P = T P T P + F N

F-measure的一般形式为:
F=(1+β2)PRβ2p+R F = ( 1 + β 2 ) ∗ P ∗ R β 2 ∗ p + R

在β= 1时,即为F-1的计算公式,F-1也是被应用在许多任务上,但是在某些任务上(如在对预测

当如果只有一个二分类混淆矩阵,那么用以上的指标就可以进行评价,没有什么争议,但是当我们在n个二分类混淆矩阵上要综合考察评价指标的时候就会用到宏平均和微平均。

你可能感兴趣的:(机器学习)