关于机器学习评价指标AUC,召回率,准确率(ACC),MRR的白话讲解

准确率(ACC)

指在分类中,使用测试集对模型进行分类,分类正确的记录个数占总记录个数的比例,计算公式如下所示:

{\rm{Acc}}uracy = \frac{{{n_{correct}}}}{{{n_{tatal}}}}

其中,\[{{n_{correct}}}\]代表分类正确的记录个数,\[{{n_{tatal}}}\]代表全部测试数据的个数

 

ROC曲线下方的面积大小(AUC)

AUC(Area Under Curve)[3]被定义为ROC曲线下的面积,使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而作为一个数值,对应AUC更大的分类器效果更好。

对于ROC曲线是基于样本类别和预测概率,具体来说,ROC曲线的x轴为伪阳性率,y轴是真阳性率。对于二分类问题,一个样本的有0,1两种类别,即阴性和阳性,为我们使用分类器进行预测时,有如表1所示四种可能性:

 

真实类别

1

0

预测类别

1

真阳性(TP)

伪阳性(FP)

0

真阴性(FN)

伪阴性(TN)

表1 混淆矩阵

即:

TP: 预测为正,实际为正

TN: 预测为负,实际为负

FP:预测为正,实际为负

FN: 预测为负,实际为正

召回率(TPR

{\rm{TPR = }}\frac{{TP}}{{TP + FN}}

其意义为所有实际类别为1的样本,预测类别为1的比例

FPR = \frac{{FP}}{{FP + TN}}

以x轴为FPR,y轴为TPR,建立ROC曲线,该曲线下的面积即为AUC,其意义为随机挑选一个正样本以及一个负样本,分类器判断正样本的值高于负样本的值的概率,AUC越接近1,正确率越高。

MRR(Mean reciprocal rank)

是一个国际上通用的对搜索算法进行评价的机制,即第一个结果匹配,分数为1,第二个匹配分数为0.5,第n个匹配分数为1/n,如果没有匹配的句子分数为0。最终的分数为所有得分之和。其计算公式如下所示:

 

MRR = \frac{1}{n}\sum\limits_{i = 1}^n {\frac{1}{{{r_i}}}n}

其中,n 为测试集所有答案的数量 ,  \[{r_i}\]为第 i 个问题的第一个正确答案的位置。

 

你可能感兴趣的:(机器学习日志,机器学习)