问题源于我在重现一篇信息检索方面顶会论文实验的时候,始终计算不出与论文中相同的实验结果。论文的实验用到了P@10,MAP,NDCG@10三种指标。我先是用了Galago提供的计算工具,发现除P@10一项指标结果一致外,MAP,NDCG@10两项都有很大的不同。经过观察发现虽然实验结果的数据不同,但是实验结果的趋势是相同的(实验是对几种排名算法进行评比,尽管得到了不同的数据,但是用这些数据对算法进行排名,算法的好坏同样能比较出来)。有趣的是,
我同样使用了Galago提供的MAP,NDCG计算工具,对这篇论文引用的另外一篇论文同样的复现了一下实验,结果是完全一致。因此我认为虽然使用了同一种,但是对这种指标的计算存在的一些差别,哪怕同样是同一领域顶级会议的两篇论文,计算方式也不尽相同。接着我就开始自己编写计算MAP,NDCG的代码,不断的去修改尝试,终于试出了差别在哪了。
1、P@10
在说同一指标计算的差别之前,我先顺带说一下信息检索的几个常用评价指标。
P@10意思是:返回前10个结果的精确度。P英文为
Precision。直接看下图例子。
准确的说,这里演示的是P@5。一次查询中返回了上图所示的5个答案,其中第1、3、5个答案是正确的,第2、4个答案是错误的,因此这次查询的P@5=0.6。
对于一个系统而言,评价它的精确度,常用多个不同种类的查询进行测试,对每个查询分别计算P@10,取这些查询P@10的平均值作为系统的P@10。这个计算比较固定,没有什么歧义,所以各个论文中对于P@10的计算方式我看到的都是一样的。
2、MAP
MAP因为为Mean Average Precision,就是说对一个叫Average Precision(AP)的东西取平均值。检测一个系统的性能,常用多个不同种类的查询对它进行测试,每个查询的结果都能计算出一个AP值,把所有AP取平均值就是系统的MAP。
那么问题就变成了如何对一次查询结果计算AP值。AP值其实是对P@n的一个扩展。上述的P@10是吧n固定为10,而AP的计算是平均P@1,[email protected]@n所有的值。
感谢网友提醒,之前对AP平均的对象说明不严谨。AP是对 每个相关文档出现时的
精度 做平均,而不是对从1到n每个精度求和算平均。查阅了论文有如下定义:
上图中的公式,r是每个相关文档的排名,R是相关文档的总数,P@r 是前r个检索到的相关文档的精度。
这里再对分母R做一个说明,R又可分为两种,一种是整个文档集合中所有相关文档的总数,包括了未出现再返回的Top-N结果内的所有相关文档,这种方式考虑到了召回率。另一种是R只算了返回的Top-N个结果内的相关文档的总数。
下面展示一个例子:
上图为对一个系统的两次查询。对于结果1,AP@10=(1.0+0.67+0.75+0.8+0.83+0.6)/6=0.78,对于结果2,AP@10=(0.5+0.4+0.5+0.57+0.56+0.6)/6=0.52。
对于一次查询,AP值可以判断优劣,但是如果涉及到一个系统整体的效果,就需要用到MAP(Mean Average Precision),简单的说,MAP的计算的是搜索查询结果AP值的均值。如上图如果表示的MAP = (0.78+0.52)/2。
不同论文中计算需要注意的区别
MAP的计算也是很简单的,但是需要注意的就是AP@n这个n的取值。MAP不像P@10这样明确的表达了要用返回结果的前10个进行计算,多数论文都没有具体写明要取前多少个计算MAP。我遇到的论文就是,实验结果得到了前1000个答案,但是它只选了前100个进行计算MAP值,虽然简单,但是没注意到的话还是会让人摸不着头脑的答案不一致。
3、NDCG@n
NDCG可以拆解为四个部分,分别是N(Normalization)标准化、D(D
iscounted)折减、C(C
umulative)累积、G(G
ain)增益。四个部分通过下式表示NDCG。
其中x表示一个查询,n表示用返回的前n个答案计算本次查询的NDCG,i表示第几个答案。
G可以理解为一个返回的答案对于本次查询质量的加分。G的大小与i无关,只取决于这个答案的质量。
D可以理解为对于一个加分的适当减分。因为越靠前的答案应该加分越多,越靠后的答案加分越少,加分G是与答案的位置前后无关的,所以需要通过D来控制加分大小。所以D是一个随答案位置i增大而增大的量。
C是对1到n个位置的G/D进行累加,得到这次查询的质量得分。
N是对得分进行归一化处理,可以理解为N是理想情况下的得分,及能够取得的最高得分。
计算NDCG存在的差异
NDCG相对于前两种指标公式会更复杂,所以计算方式存在差异的可能性更大。除了C是进行累加没有什么争议以外,N、D、G三项计算都可能存在差别
G的差别比较大,有的是直接取相关度得分rel作为G的值,有的是取2^rel-1作为G的值,当然还存在有其他的表达方式。相同的是相关度得分都是rel = {0,1,2......}。
对于D相同的都是以log(i)的形式取值,显然i=1时D=0,不可作为分母。因此发现有两种不同的方式。第一种,当i=1时,D取1,其余的取log(i)。第二种D=log(1+i)。
对于N也发现了两种计算方式。相同的是都使用了相同的DCG方式计算,不同的在于取哪些值计算。
第一种,取当前返回结果的前n的最优排序计算DCG作为N的值。例如,一组NDCG@5的相关度为X={1,0,2,2,1},将其变化成X={2,2,1,1,0}计算DCG的值作为N。也就是说集合X的取值一定出现在答案中。但是假设返回的前n个的相关度得分都是0,N也变成了0,那么答案将出错。网络上的计算方式大多是这种。
第二种,是将整个搜索空间中的最优n个答案形成集合X,从高到低排列后计算DCG作为N的值。集合X的值不要求出现在系统返回的答案中。我在论文中遇到的是这种。