Interleaving for Ranking Evaluation Online

评估信息检索系统的排序模型,常见的离线评估指标有

  • precision recall F1-score
  • NGCG
  • MAP ERR

常见的线下评估指标有:

  • CTR / CVR
  • Time to first click
  • interleaving

这里主要介绍一种线上比较有效的评估方法balanced interleaving,它的操作过程如下:
假设有两个排序模型,A 和 B,某一结果列表 (a ,b ,c ,d ,e,f)

  1. 它们排序序列为 (a ,b ,c ,d ,e ,f) 和(b ,c ,a ,f ,e ,d)
  2. 新建一个列表I,以ABABAB...
    的顺序,从两列表中顺序选取一个元素添加到I中,并记下列表I中元素的来源。I就是最终展示到用户面前的结果列表
  3. 统计I中来自A 和 B 或者 AB 点击或者转化的量, C(A) C(B) C(AB)

计算:
$\delta(AB) = \frac{C(A) + C(AB)*\frac{1}{2}}{C(A)+C(B)+C(AB)} - \frac{1}{2}$

$\delta(AB)$ 大于0表明A WIN B,反之B WIN A,绝对值表示差距大小。

参考:https://www.cs.cornell.edu/people/tj/publications/chapelle_etal_12a.pdf

你可能感兴趣的:(Interleaving for Ranking Evaluation Online)