对网上查阅到的关于IR评价指标的信息做了一个简单汇总。
整理自:
有一篇比较全的综述 信息检索的评价指标
多标签图像分类任务的评价方法-mAP
信息检索(IR)的评价指标介绍 - 准确率、召回率、F1、mAP、ROC、AUC
Learning to Rank for IR的评价指标—MAP,NDCG,MRR
信息检索的评价指标(Precision, Recall, F-score, MAP)
《统计学习方法》 李航 1.8节
还有一个accuracy是准确率,是正确样本/总样本个数,不同于精确率
TP:true positives 将正类预测为正类数
FN : false negatives 将负类预测为负类数
FP : false positives 将负类预测为正类数
TN : true negatives 将正类预测为负类数
是Precision和Recall的调和均值
mAP:mean average precison 平均准确率,mAP是为解决P,R,F1值的单点值局限性的,同时考虑了检索效果的排名情况。单个主题的平均准确率是每篇相关文档检索出后的准确率的平均值。主集合的平均准确率(MAP)是每个主题的平均准确率的平均值。 MAP 是反映系统在全部相关文档上性能的单值指标。系统检索出来的相关文档越靠前(rank 越高),MAP就可能越高。如果系统没有返回相关文档,则准确率默认为0。
计算实例多标签图像分类任务的评价方法-mAP
Normalized Discounted Cumulative Gain。
排在位置n处的NDCG的计算公式:
在MAP中,四个文档和query要么相关,要么不相关,也就是相关度非0即1。NDCG中改进了下,相关度分成从0到r的r+1的等级(r可设定)。当取r=5时,gain的值为25 -1,24 -1,23 -1,22 -1,21 -1,20 -1。
归一化部分不太懂,用到再说吧。
MRR是把标准答案在被评价系统给出结果中的排序取倒数作为它的准确度,再对所有的问题取平均。
receiver operating characteristic
ROC关注两个指标
True Positive Rate ( TPR ) = TP / [ TP + FN] ,TPR代表能将正例分对的概率
False Positive Rate( FPR ) = FP / [ FP + TN] ,FPR代表将负例错分为正例的概率
在ROC 空间中,每个点的横坐标是FPR,纵坐标是TPR。
关于ROC的一片博客,分类器模型评价指标
另:计算机视觉】目标检测中的指标衡量Recall与Precision