【IR Information Research】信息检索多样化方面常见的metrics

文章目录

  • IR是什么
  • Metrics
  • 存在的问题&解决方案
  • 将metrics loss化
  • Reference

IR是什么

粗略的理解就是在海量的信息中抓取有用的那几个,最常见的应用就是搜索引擎。百度存有千亿级别的网页,而根据用户的query需要在第一页给出最符合要求的那些。
这个领域中目前的方法可以分为两类:implicit & explicit。前者主要关注于在一堆文档中进行分类,后者关注于query的信息。当然还有hybrid的一些研究方法。
在优化返回给用户的信息时,由于query通常有着不确定性,比如我搜索"apple",有可能是想卖个肾,也可能是想吃点水果。这个时候理想的返回结果应该将二者都囊括进来。这就是今天提的多样化任务。

Metrics

  1. α − D C G \alpha-DCG αDCG【IR Information Research】信息检索多样化方面常见的metrics_第1张图片
    对于一个已经排好的序列与qeury,首先把query分为m个可能的sub-topic,类似苹果公司与水果苹果。有n个网页根据某种算法排了个序, r i r_i ri指第i篇文档的排名(rank), y i l y_{il} yil表示第i篇网页是否涵盖了第l个sub-topic, c i l c_{il} cil表示排名靠前的文档中有多少对sub-topic l已经覆盖到了, α ∈ [ 0 , 1 ] \alpha\in[0,1] α[0,1]
    整体来看这个公式, l o g log log是一个严格单增函数,这种阻尼函数表示我们更关心前面几个文档的排序,越往后越不重要。这点是合理的,毕竟现在查百度也没有谁会翻到第二页去看了。再看分子,首先,如果该篇文档没有对当前sub-topic覆盖,则没有贡献;如果有,前面对于同样的主题涵盖的越多,表示本篇文档更redundant,所以贡献要打一个折扣。
    此外还注意到一个问题,该metric和文档的总数目成正相关,而对于排序模型的评判不应由数据集特征来决定。因此提出了单位化的metric。
    在这里插入图片描述
    其中分母表示当前所有情况中 α − D C G \alpha-DCG αDCG的最大值,做一个单位化。这样 α − N D C G ∈ [ 0 , 1 ] \alpha-NDCG \in [0,1] αNDCG[0,1]

2. E R R − I A ERR-IA ERRIA

【IR Information Research】信息检索多样化方面常见的metrics_第2张图片

这个metric的逻辑是一样的,利用 1 r i \frac{1}{r_i} ri1对靠后的文档进行惩罚,分母的2的指数作用和前面的 ( 1 − α ) c i l (1-\alpha)^{c_{il}} (1α)cil类似。
同样,该metric也对数据集的size有依赖,可以对其进行单位化。

存在的问题&解决方案

以上这些metrics虽然都能在一定程度上对rank的结果好坏做一个评判,但是存在一个很大的弊病。因为变量的取值都是整数,无法通过求导的方式对深度学习的模型进行优化。为了解决这个问题,该文章提出一种将离散的整数近似为连续型函数的方法对以上Metrics进行近似。
首先,在排序的时候,通常都是先根据已有的query对docs一一进行打分,然后根据这个评分进行排序。我们记这些分数为 s i s_i si,代表第i篇文档的分数。我们注意到,离散的变量 r i , c i l r_i, c_{il} ri,cil可以通过示性函数的方式来表达:
【IR Information Research】信息检索多样化方面常见的metrics_第3张图片
由sigmoid和示性函数二者的相似性,我们通常可以用光滑的sigmoid函数作为示性函数的近似。从而得到了 r i , c i l r_i, c_{il} ri,cil的sigmoid函数近似 R i , C i l R_i, C_{il} Ri,Cil
【IR Information Research】信息检索多样化方面常见的metrics_第4张图片
其中的T为伸缩系数,越小越像示性函数,越大越平滑。将以上两个系数替换掉原来在公式中的数值就可以将metrics连续化了。

将metrics loss化

我们已经得到了平滑的metrics,但是这还不能完美地契合深度学习时的应用,我们需要考虑多个query。下面的Q代表了一次迭代中的query集合
【IR Information Research】信息检索多样化方面常见的metrics_第5张图片
更进一步,作者在Gumbel分布的基础上,给了一个随机化的loss:
在这里插入图片描述
其中 β \beta β指的是噪音系数, g i g_i gi是服从Gumbel分布的的随机数。

Reference

Yan L, Qin Z, Pasumarthi R K, et al. Diversification-aware learning to rank using distributed representation[C]//Proceedings of the Web Conference 2021. 2021: 127-136.

你可能感兴趣的:(机器学习,深度学习,搜索引擎)