因果推断推荐系统工具箱 - AllPairs(二)

文章名称

【WSDM-2021】【google】Estimating Position Bias without Intrusive Interventions

核心要点

文章上一节,我们讲解了审视偏差,PBM以及Rank Random Swapping,但是我们知道random swaping对用户的体验是有伤害的。本节讲解如何进行Intervention Harvesting,并应用于PBM。来估计模型参数。

方法细节

问题引入

Rank Random Swaping保证能够准确的估计审视概率(由于随机替换保证位置的偏好是所有查询上的期望值,并且是一致的),但是需要替换最优的结果,因此会影响用户体验和推荐模型的性能。如果我们有很多已经上线过的模型的观测数据,是不是也可以做到很好的估计审视概率呢?

具体做法

假设我们有个不同的推荐模型(排序模型)(可以是历史上具有先后顺序的多个模型,也可以是同时上的AB实验里的多个模型)。并且,假设对于任何模型,输入它们的查询分布是相同的,也就是说输入数据的分布没有变化(这种在同时期AB实验中是可以保证的,因为随机分流;但是如果是有先后顺序的,则需要做一下检查或者校验),可以利用如下图所示的公式表示。

corresponded query distribution

每一个排序模型收集到的数据可以表示为,其中分别表示模型下的样本对应的查询(向量),排序模型返回的排序结果以及用户对整个排序结果的点击向量。定义给定查询后的候选物品集合为,候选集中物品的排序可以表示为,表示在这个样本下物品是否被点击(其实就是向量中的一个元素)。

假设,对于同样一个查询,同样一个文档,在排序函数下得到排序,在排序函数下得到排序,并且两个排序都在最终返回结果的范围以内(10是举例,可以是任意值)。可以得到如下图所示的interventional set(干预集合)。

interventional set

对于任何一interventional set,其对应着一组位置以及一组查询-文档元组。并且,假如我们随机选择偏序函数,在相同的查询-文档元组下,文档是可以被看做是随机分配到位置上的(因为,如果我们随机选择一个排序函数,那么1)文档被安排在上,2)安排在,3)没有安排在这两个位置上。第三种情况不在interventional set上,而前两者可以被看做是随机的,如果函数是被随机选择的)。

但是这种随机并不是服从均匀分布的,因为某些比较优质的文档可能就会被排序比较高(当然也和查询的分布有关系)。因此,我们可以利用如下图所示的公式,计算出权重$w(q, d, k)来表示这种不平均。

weight

进一步,我们可以得到某个文档被排在位置的概率(在interventional set中),其计算公式如下图所示。

assignment probability

基于上述interventional set替换的概念,我们可以近似的得到和 interventions类似的数据集,可以模拟来控制未被观测到的偏好。对于interventional set ,我们可以得到对应的点击率,表示interventional set中,文档分别在位置的时候是否被点击。其计算公式,如下图所示。

click rate in interventional set

公式利用权重对观测到的点击进行加权,消除前述中排序的不平均性。并且,只要取值为真(因为我们是在interventional set中计算,所以这个值一定是真),那么就不会是0,同时定义。也就是说,能够捕获在interventional set中物品随机出现在位置时候的加权点击率。

可以证明,正比于位置的真实点击率的期望,具体证明过程如下图所示,其中,倒数第二个公式利用到了权重的定义,所以上下约去了权重。

proportional to the true clickthrough rate expectation

是所有interventional set 中,文档偏好的平均值。虽然是没有被观测到的(我们也不知道它的函数形式,所以很难设计好的函数来估计它),但是在中是相同的(可以被约去),这样可以得到审视概率(也就是propensity)的比值(相对值),如下图所示。

relative propensity

下一节继续讲解如何利用interventional set求解模型参数。

心得体会

Intervention Harvesting和观测数据因果推断

个人感觉,我们可以把random swapping看做是一种随机实验的设计,把Intervention Harvesting理解为在观测数据上对审视概率做无偏估计。最初,1)很多方法使用完全随机替换,保证所有位置的偏好都是(近似,或者说概率上)相同的,这种可以被看做完全随机实验,是对用户体验伤害最大的。2)random swapping可以被看做是分层(只在首位和位进行替换),利用审视概率的对比值进行计算,实现对审视概率的准确估计。3)Intervention Harvesting可以被看做是基于已有数据,在某些假设的情况下进行偏差纠正后,实现准确估计。

当然上述类比缺乏科学依据,只是有隐约感觉有些类似。

你可能感兴趣的:(因果推断推荐系统工具箱 - AllPairs(二))