信息检索的评价指标 precision recall F1 mAP NDCG MRR ROC

对网上查阅到的关于IR评价指标的信息做了一个简单汇总。
整理自:
有一篇比较全的综述 信息检索的评价指标
多标签图像分类任务的评价方法-mAP
信息检索(IR)的评价指标介绍 - 准确率、召回率、F1、mAP、ROC、AUC
Learning to Rank for IR的评价指标—MAP,NDCG,MRR
信息检索的评价指标(Precision, Recall, F-score, MAP)
《统计学习方法》 李航 1.8节

Precision 精确率

还有一个accuracy是准确率,是正确样本/总样本个数,不同于精确率
TP:true positives 将正类预测为正类数
FN : false negatives 将负类预测为负类数
FP : false positives 将负类预测为正类数
TN : true negatives 将正类预测为负类数

P=TPTP+FP

准确率(Precision)= 系统检索到的相关文件 / 系统所有检索到的文件总数,亦即等于预测为真实正例除以所有被预测为正例样本的个数

Recall 召回率/查全率

R=TPTP+FN

召回率(Recall)= 系统检索到的相关文件 / 系统所有相关的文件总数,亦即预测为真实正例除以所有真实正例样本的个数
注意:
1. 准确率和召回率是互相影响的,理想情况下肯定是做到两者都高,但是一般情况下准确率高、召回率就低,召回率低、准确率高,当然如果两者都低,那是什么地方出问题了。
2. 如果是做搜索,那就是保证召回的情况下提升准确率;如果做疾病监测、反垃圾,则是保准确率的条件下,提升召回。

F1

是Precision和Recall的调和均值

2F=1P+1R

F=2PRP+R

P和R都高的时候,F 1值就会高。
可以简单理解成为:recall求全,precision求对。

mAP

mAP:mean average precison 平均准确率,mAP是为解决P,R,F1值的单点值局限性的,同时考虑了检索效果的排名情况。单个主题的平均准确率是每篇相关文档检索出后的准确率的平均值。主集合的平均准确率(MAP)是每个主题的平均准确率的平均值。 MAP 是反映系统在全部相关文档上性能的单值指标。系统检索出来的相关文档越靠前(rank 越高),MAP就可能越高。如果系统没有返回相关文档,则准确率默认为0。

mAP=10P(R)dR

计算如下:
假设有两个主题,主题1有4个相关网页,主题2有5个相关网页。某系统对于主题1检索出4个相关网页,其rank分别为1, 2, 4, 7;对于主题2检索出3个相关网页,其rank分别为1,3,5。对于主题1,平均准确率为(1/1+2/2+3/4+4/7)/4=0.83。对于主题 2,平均准确率为(1/1+2/3+3/5+0+0)/5=0.45。则MAP=(0.83+0.45)/2=0.64。
例: 信息检索的评价指标 precision recall F1 mAP NDCG MRR ROC_第1张图片

计算实例多标签图像分类任务的评价方法-mAP

NDCG

Normalized Discounted Cumulative Gain。
排在位置n处的NDCG的计算公式:
信息检索的评价指标 precision recall F1 mAP NDCG MRR ROC_第2张图片
在MAP中,四个文档和query要么相关,要么不相关,也就是相关度非0即1。NDCG中改进了下,相关度分成从0到r的r+1的等级(r可设定)。当取r=5时,gain的值为25 -1,24 -1,23 -1,22 -1,21 -1,20 -1。
归一化部分不太懂,用到再说吧。

MRR

MRR是把标准答案在被评价系统给出结果中的排序取倒数作为它的准确度,再对所有的问题取平均。

ROC

receiver operating characteristic
ROC关注两个指标
True Positive Rate ( TPR ) = TP / [ TP + FN] ,TPR代表能将正例分对的概率
False Positive Rate( FPR ) = FP / [ FP + TN] ,FPR代表将负例错分为正例的概率
在ROC 空间中,每个点的横坐标是FPR,纵坐标是TPR。
关于ROC的一片博客,分类器模型评价指标

另:计算机视觉】目标检测中的指标衡量Recall与Precision

你可能感兴趣的:(机器学习)