召回评价指标NDCG、MAP

【MAP】

1、AP
A P = ∑ i = 1 n r e l ( i ) p i AP = \sum_{i=1}^{n}\frac{rel(i)}{p_i} AP=i=1npirel(i)
其中 n 表示候选序列长度, p i p_i pi表示第 i 个 item 的位置

  • 本质是对每个位置item的分数加一个基于位置的筛选.
  • 简单粗暴,直接除以位置的排序,位置越靠后,衰减越大
  • 符合直观感受,展示位置越靠前,权重应该越大,比如[1,1,0,0,0]优于[0,0,0,1,1]

2、MAP:先计算每个用户的AP,然后再求平均值。

M A P = 1 m ∑ i = 1 m A P i MAP = \frac {1}{m} \sum_{i=1}^{m}AP_i MAP=m1i=1mAPi
其中m表示用户数目,先计算每个用户的AP,然后再求平均值。
召回评价指标NDCG、MAP_第1张图片

【NDCG】

一、NDCG是什么?

NDCG的全称是:Normalized Discounted Cumulative Gain(归一化折损累计增益)

在搜索和推荐任务中,系统常返回一个item列表。如何衡量这个返回的列表是否优秀呢?

例如,当我们检索【推荐排序】,网页返回了与推荐排序相关的链接列表。列表
可能会是:[A,B,C,G,D,E,F]
也可能是:[C,F,A,E,D]
现在问题来了,当系统返回这些列表时,怎么评价哪个列表更好?

没错,NDCG就是用来评估排序结果的。搜索和推荐任务中比较常见。

二、一点点来理解NDCG~

G->CG->DCG->NDCG

1、Gain: 一个列表中所有item的相关性分数,rel(i)表示item(i)相关性得分。
G a i n = r e l ( i ) Gain=rel(i) Gain=rel(i)

2、Cumulative Gain: 表示对K个item的Gain进行累加。
G G k = ∑ i = 1 k r e l ( i ) GG_k = \sum_{i=1}^{k}rel(i) GGk=i=1krel(i)
CG只是单纯累加相关性,不考虑位置信息。

假设A,B,C,D,E对应的rel(i)分别为0.5(A), 0.9(B), 0.3, 0.6(D), 0.1(E),那么

如果返回一个list_1=[A,B,C,D,E],那list_1的CG为0.5+0.9+0.3+0.6+0.1=2.4

如果返回一个list_2=[D,A,E,C,B],那list_2的CG为0.6+0.5+0.1+0.3+0.9=2.4

所以,顺序不影响CG得分。如果我们想评估不同顺序的影响,就需要使用另一个指标DCG来评估。
3、 Discounted Cumulative Gain: 考虑排序顺序的因素,使得排名靠前的item增益更高,对排名靠后的item进行折损(展示越靠前,收益越高

CG与顺序无关,而DCG评估了顺序的影响。

DCG的思想是:list中item的顺序很重要,不同位置的贡献不同,一般来说,排在前面的item影响更大,排在后面的item影响较小。(例如一个返回的网页,肯定是排在前面的item会有更多人点击)。所以,相对CG来说,DCG使排在前面的item增加其影响,排在后面的item减弱其影响
D C G k = ∑ i = 1 k r e l ( i ) l o g 2 ( i + 1 ) ( 1 ) DCG_k = \sum_{i=1}^{k} \frac{rel(i)}{log_2(i+1)} (1) DCGk=i=1klog2(i+1)rel(i)1

怎么实现这个思想呢?DCG在CG的基础上,给每个item的相关性比上log2(i+1),i越大,log2(i+1)的值越大,相当于给每个item的相关性打个折扣,item越靠后,折扣越大(真数大于1,保证折扣力度也就是log2(i+1)取值大于0)。

如果相关性分数r(i)只有(0,1)两种取值时,DGC有另一种表达。其实就是如果算法返回的排序列表中的item出现在真实交互列表中时,分子加1,否则跳过。
还是上面那个例子:
那么
r e l ( i ) = 2 r ( i ) − 1 = { 2 0 − 1 = 0 ,    i f   l a b e l = 0 2 1 − 1 = 1 ,    i f   l a b e l = 1 ( 2 ) rel(i)=2^{r(i)} - 1 = \left\{\begin{matrix} 2^0 - 1 = 0, \ \ if \ label = 0 & \\ 2^1 - 1 = 1, \ \ if \ label = 1 & \end{matrix}\right.(2) rel(i)=2r(i)1={201=0,  if label=0211=1,  if label=12
将(2)带入(1),则有
D C G k = ∑ i = 1 k 2 r ( i ) − 1 l o g 2 ( i + 1 ) DCG_k = \sum_{i=1}^{k} \frac{2^{r(i)} - 1}{log_2(i+1)} DCGk=i=1klog2(i+1)2r(i)1

list_1=[A,B,C,D,E], 其对应计算如下:
召回评价指标NDCG、MAP_第2张图片list_1的 DCG_1= 0.5+0.57+0.15+0.26+0.04=1.52

list_2=[D,A,E,C,B],其对应计算如下:
召回评价指标NDCG、MAP_第3张图片
list_2的 DCG_2= 0.6+0.31+0.05+0.13+0.35=1.44

DCG_1 > DCG_2, 所以在这个例子里list_1优于list_2。

到这里,我们可以知道,使用DCG方法就可以对不同的list进行评估,那为什么后面还有一个NDCG呢?

4. NDCG(Normalized DCG): 归一化折损累计增益
在NDCG之前,先了解一些IDGC(ideal DCG)–理想的DCG,IDCG的依据是:是根据rel(i)降序排列,即排列到最好状态。算出最好排列的DCG,就是IDCG。

IDCG=最好排列的DCG

对于上述的例子,按照rel(i)进行降序排列的最好状态为list_best=[B,D,A,C,E]
召回评价指标NDCG、MAP_第4张图片
IDCG = list_best的DCG_best = 0.9+0.38+0.25+0.13+0.04=1.7 (理所当然,IDCG>DCG_1和DCG_2)
N D C G = D C G I D C G NDCG=\frac{DCG}{IDCG} NDCG=IDCGDCG
因为不同query的搜索结果有多有少,所以不同query的DCG值就没有办法来做对比。所以提出NDCG。

问题

Q:为什么打折是比上log2(i + 1)而不是(i + 1)?
A:为了惩罚排在后面的文档。你也可以用 i + 1自己弄个指标, 但惩罚率更高了

Q:rel(i) 是怎么计算的?
A:rel(i)从label(i)计算而来。rel(i)=2^label(i) - 1,也就是
r e l ( i ) = { 2 0 − 1 = 0 ,    i f   l a b e l = 0 2 1 − 1 = 1 ,    i f   l a b e l = 1 rel(i)=\left\{\begin{matrix} 2^0 - 1 = 0, \ \ if \ label = 0 & \\ 2^1 - 1 = 1, \ \ if \ label = 1 & \end{matrix}\right. rel(i)={201=0,  if label=0211=1,  if label=1

Ref:

  [1].NDCG排序评估指标
  [2].NDCG及实现

你可能感兴趣的:(召回,召回,粗排,排序算法,排序指标)