文章名称

【WSDM-2021】【google】Estimating Position Bias without Intrusive Interventions

核心要点

文章旨在解决L2R中存在的观测偏差（审视偏差）问题，采用从多个已上线的L2R方法的日志中提取多种排序结果，构造用户偏好可控的样本集合，代替随机实验等具有侵入性的数据收集方法。并把该方法应用到position-based model，PBM模型中。

文章是conditional position-based model，CPBM的前身，把Intervention Harvesting应用于PBM。

方法细节

问题引入

在L2R场景下，如何在有审视偏差的数据集上，高效的估计用户的偏好，是成功利用隐式反馈的重要课题之一。有许多基于反事实推理的方法被证明，能够在存在审视偏差的隐式反馈数据上准确的估计用户对物品的偏好。但前提是，必须要准确的估计审视偏差（或者提前知道），这个偏差被当做propensity score来进行纠偏。如何有效的估计这个propensity成为了很多方法的重点，原有方法从利用手工方法，或者强制排序的侵入式方法来控制相关性，来估计审视偏差。显然，这样的做法不高效且对整体效果有影响（伤害用户体验）。哪些侵入性的数据收集方法[1]，要求单个查询重复多次（每次排序有所差别）。

为了避免多次重复收集数据，[2] 采用隐变量估计框架（EM方法），把用户偏好模型（相关模型）当做是数据生成过程的一部分，利用点击率的最大似然方法，求解偏好模型的参数。但是，这种方法要求偏好模型设计的和真实的偏好模型非常近似（可能是很复杂的函数），这个模型很难用一个参数化模型，比如神经网络来很好的描述。因为网络设计也需要确定层次结构，激活函数什么的，可能就不在正确的建模空间里了。如果这个模型设计的不好，也会导致propensity估计偏差（因为两者耦合生成了点击概率）。

[3]采用把rank 1的物品和任何rank k的物品随机替换的方法，实现了PBM中propensity估计，在概率上的一致性，但是从统计的角度来说是比较低效的，并且也会伤害用户体验。

具体做法

首先，我们简述一下PBM。PBM认为，用户是否审视到一个物品是和物品在推荐结果中的排序相关的，且仅仅位置相关。其公式可以概括为如下图所示的形式。其中，分别表示用户对某个物品（实际上就是某个位置）的审视概率（也就是审视偏差的propensity）和用户的该查询和物品（这里是文档）的相关性。可以看到，审视概率的唯一条件是位置，与其他无关。值得注意的是，查询包括了用户的所有特征，查询上下文，以及用户的偏好特征。表示用户点击某一个物品的概率。

PBM

这里，我们期望利用上述公式以及观测到的点击数据，学习得到审视概率的比值。这个概率的比值可以代替propensity score，带入到基于反事实的L2R模型中，因为所有的样本的这个propensity都是由其位置和位置的审视概率比值决定的，相当于在所有样本的权重上都➗了概率，并不影响模型的优化和参数学习（具体可以参见CPBM）。

回顾一下，我们遇到的模型学习的难点，我们知道点击的情况，不知道1）审视的情况；2）偏好的情况。按照上述PBM的公式，不知道的两者是耦合的，各种组合也都有可能达到这种点击的情况（最大似然）。那么，我们是否可以通过什么手段，固定住不知道的两者中的一个呢？顺着“对比消元”的思想（我瞎起的，实际就是绝对值我们不知道，但是如果其中某个元素相同，我们用比值可以消除掉相同的组成部分），只要不同的排序下的相关性类似（严格说应该是相同），我们就可以消除掉它。因此，[3]提出利用随机替换位置的思想，随机把首位的结果和位的结果进行替换，可以表示为。对所有样本这样做，可以确保和不时，首位的结果和位的结果的偏好是一致的（因为原本出现在首位的结果和位的结果现在是平均的出现在两个位置，类似随机实验了）。此时，点击率的变化一定只取决于用户是否审视到该物品（消除了偏好的影响，实现偏好控制）。

假设，我们的查询，排序模型（L2R模型）在给定查询的时候对物品排序。在这个排序结果被返回给用户之前，我们以概率替换首位的结果和位的结果，得到数据集，分别表示首位的结果仍然保持原位的数据集和首位的结果被替换到位的数据集。其中是样本集合的大小（因为随机替换是依概率进行的，所以可能不等于。分别表示点击与否，分别表示两个样本集合中，样本的。那么，点击率的经验估计可以表示为。

综上，如下图所示，两个结果集下的审视概率的比值是点击概率经验估计的期望比，因为是完全随机替换，所以第一个等式成立。

examination prob ratio

因此，也可以利用经验估计来估算审视概率的比值，如下图所示。对于其他的位置可以利用相同的方法进行估计。

estimation of examination prob ratio

心得体会

EM类的隐变量生成模型

其实EM类的隐变量生成模型是可以完成同时估计审视概率和相关性估计的任务的。重点在于，需要丰富的经验设计好相关性模型的结构（或者说选对模型的搜索空间）。个人感觉，采用不同的Intervention方法，其实是在减少偏好模型所需的搜索信息，是在做空间缩小。数据收集是文章的亮点，通过构造和理论证明，保证这种收集方法（Intervention Harvesting）和随机位置替换（Random Swapping）效果是近似的。

文章引用

[1] Aleksandr Chuklin, Ilya Markov, and Maarten de Rijke. 2015. Click Models for Web Search. Morgan & Claypool Publishers.

[2] Xuanhui Wang, Nadav Golbandi, Michael Bendersky, Donald Metzler, and Marc Najork. 2018. Position Bias Estimation for Unbiased Learning to Rank in Personal Search. In Proc. of the 11th ACM International Conference on Web Search and Data Mining (WSDM). 610–618.

[3] Thorsten Joachims, Adith Swaminathan, and Tobias Schnabel. 2017. Unbiased Learning-to-Rank with Biased Feedback. In Proc. of the 10th ACM International Conference on Web Search and Data Mining, (WSDM). 781–789.

因果推断推荐系统工具箱 - AllPairs（一）