文章名称

【WSDM-2021】【google】Estimating Position Bias without Intrusive Interventions

核心要点

文章上一节，我们讲解了interventional set并证明了基于它得到的点击率估计值正比于在查询集合上，真正点击率的期望值（也就是没有收到数据偏差的影响）。基于点击率预估值的比值，我们可以得到审视概率（propensity）的相对值。这一节讲解如何训练模型参数。

方法细节

问题引入

利用interventional set得到点击率预估值的比值，并进一步得到审视概率（propensity）的相对值，并没有达到我们的真实目的。我们希望学习排序函数得到最优的推荐模型。问题转化成了，如何利用审视概率（propensity）的相对值学习排序函数的参数。

具体做法

由于利用interventional set估计的效果可以被认为，与显示的对同一个排序函数得到的结果进行干预的效果类似。那么，利用，我们就可以利用[1]的方法学习，作者称这种方法为PivotOne（把首位当做是轴）。其公式如下图所示。

PivotOne

同时，可以利用[2]的方法结合多个interventional set的信息，来估计上图所示的公式，具体公式如下图所示，作者称之为AdjacentChain（连式法则）。

AdjacentChain

作者提出AllPairs，充分利用所有数据，包括点击和未点击数据。利用没有点击的数据，我们可以类比，得到表示对未点击的预估，具体计算公式如下图所示。

non-click prediction

同时，可以被证明是其未点击概率的一致估计量，具体证明同上述点击概率的证明过程，作者在这里略过了。其实是把定义中的拆开，拆开后点击概率和上述证明一致，而1的部分可以拆除，感兴趣的同学可以自己动手证明一下。

correspond to expectation

可以定义正则化后的偏好值，其计算公式如下图所示。利用上述点击概率和非点击概率的估计量，我们可以得到所谓AllPairs的估计器，其目标函数如下图所示，通过最大化这个类似交叉熵的损失目标函数，我们可以求得排序函数的参数（因为决定了文档的排序，进一步决定了）。

Norm Preference

allpairs objective function

心得体会

AllPairs

个人感觉，所谓的AllPairs的思想有点类似循环一致性的思想，利用可以互相印证的点击概率和非点击概率，来构造交叉熵模型，而不仅仅是最大化点击概率的似然，能够保证搜索的效率，理论上也应该能够更快的收敛。类似的思路也有很多，比如前面介绍过的因果推断推荐系统工具箱 - Dual Unbiased Recommender Learning for Implicit Feedback。

文章引用

[1] Thorsten Joachims, Adith Swaminathan, and Tobias Schnabel. 2017. Unbiased Learning-to-Rank with Biased Feedback. In Proc. of the 10th ACM International Conference on Web Search and Data Mining, (WSDM). 781–789.

[2] Xuanhui Wang, Nadav Golbandi, Michael Bendersky, Donald Metzler, and Marc Najork. 2018. Position Bias Estimation for Unbiased Learning to Rank in Personal Search. In Proc. of the 11th ACM International Conference on Web Search and Data Mining (WSDM). 610–618.

因果推断推荐系统工具箱 - AllPairs（三）