因果推断推荐系统工具箱 - Bias and Debias in Recommender System: A Survey and Future Directions（八）

文章名称

Bias and Debias in Recommender System: A Survey and Future Directions

核心要点

上一节中，我们介绍了现有方法如何在训练阶段消除Exposure Bias。本节，我们来介绍如何消除另一种经常出现的偏差，Position Bias。

方法细节

问题引入

Position Bias是指（历史上）排名较高的物品，将会被更多的选中，而不管其是否真的符合用户的喜好。这种偏差经常出现在L2R的研究中。当前大概有两类方法被用来解决这一问题。

具体做法

Click models

第一类模型是基于对观测到的用户点击行为的一些假设，并通过优化观测数据的似然函数来估计用户对物品的真实偏好。[1], [2], [3], [4] 基于一种称为examination的点击模型，这种模型假设如果观测到物品被点击了，那么他一定即被用户审视过，也是用户喜欢的。这些方法是基于视觉焦点研究的研究结果，该结果表明，用户很少去点击排名较低的物品（因为根本懒得看或看不到那么多）。因此，这些模型显示的建模用户点击位于位置的物品的概率，来还原真实的用户偏好。

click model

其中表示用户是否真的看到或审视到这个物品，是推荐模型建模的真正的用户偏好，而是显示建模的用户的审视或者看到该物品的概率。模型假设，1）如果用户点击了该物品，那么这个物品一定被用户看到和审视过（感觉这是一句废话...）；2）用户只要看到了，审视过，那么点击和不点击之和用户的偏好有关系。用户是否能看到，或者审视一个物品，只和该物品被位置有关系。这个模型和之前讲到的显示建模曝光概率的模型十分相似，只是这里的概率是用户是否能审视到某个物品。
[86]提出了另一类点击模型，级联模型。该模型不仅显示建模的审视到点击的概率关系，也显示建模了跳过某个物品的概率。模型假设用户是从第一个被展示的物品一直审视到最后一个。并且针对这些物品，用户的点击行为只和用户真正的偏好相关。

cascade model

其中，分别表示用户审视和点击该物品的概率。其中，表示第一个物品一定会被用户审视。式子36表示，用户一旦返现了其感兴趣的物品就会直接点击该物品，跳出session。否则会一直审视下去。也就是说，一个session或query里，只有一次点击。一个物品被电机的概率是，没有被点击的概率是。[3], [5], [6]在此基础上加入了一些用户个性化的点击和跳过转移概率。[7]深度生存模型，更细致的建模用户浏览行为。
但是这类点击模型，通常需要大量的query-item或user-item样本，当观测样本非常稀疏的时候，就很难应用这些模型。同时，可以看出上述模型对数据的生成和用户的行为有较强的的假设，错误的假设很容易引入经验偏差。

Propensity score

另一种比较常见的方法是引入IPS，来对样本进行加权，做到位置可感知。[8]提出如下图所示的损失函数，其中是所有请求（或用户）集合，是其中的一个查询（或用户）。表示排序系统，表示推荐系统对给出的排序列表。是推荐列表中的一个物品或文章，而是一个二值标签，表示是否于相关。表示和用户的相关性的损失函数。是表示在列表中，用户能审视到文档。[9] 证明IPS损失的优化，最终得到的模型是是对真正相关性的无偏估计。

propensity score loss

由于基于propensity score的模型只和物品的位置相关，相对简单。因此，被广泛研究。[20], [10], [11], [12], [13]对列表进行随机排序，收集用户在不同排序下的点击行为。因为，用户对一个物品的真实偏好，不会因为物品展示位置的改变而改变。因此，这种随机排序的方法，得到的点击率的偏差就是真是的propensity score。但是这种方法会严重的损害用户的体验。[9]采用成对调换的方法，但是由于其局部调换的特点，导致并不能完全消除Position Bias。因此，一些方法开始研究在不对排序结果进行任何改变的情况下，进行propensity score的学习。[14]，[15]利用多个排序模型的结果来学习propensity score。[9], [16], [17], [19]把propensity score的学习和推荐模型的学习建模型对偶问题，针对性的提出了新的EM算法。

心得体会

examination

examination的第二个假设表示，用户只要看见了，并且喜欢就会点。这个假设在大多数的情况下都是成立的。不过实际场景中也有一些情况会有偏差，比如用户可能很想点，但由于老板来了，要上班了，所以没有点击之类的。此外，另一个辅助假设是，用户是否能看到，或者审视一个物品，只和位置有关系。不过可能还有一些其他的因素，比如展示的形式等等。导致用户不认为这个物品是他关心的，即看到为审视。

IPS

也许在Recommendation Debias的时候，只要有bias就可以利用IPS。只要我们能找到某种propensity score是可以纠正这个偏差，或者消除产生这个偏差的confounder。

文章引用

[1] N. Craswell, O. Zoeter, M. Taylor, and B. Ramsey, “An experimental comparison of click position-bias models,” in WSDM, 2008, pp. 87–94.
[2] G. E. Dupret and B. Piwowarski, “A user browsing model to predict search engine click data from past observations.” in SIGIR, 2008, pp. 331–338.
[3] O. Chapelle and Y. Zhang, “A dynamic bayesian network click model for web search ranking,” in WWW, 2009, pp. 1–10.
[4] W. V. Zhang and R. Jones, “Comparing click logs and editorial labels for training query rewriting,” in WWW 2007 Workshop on Query Log Analysis: Social And Technological Challenges, 2007.
[5] F. Guo, C. Liu, A. Kannan, T. Minka, M. Taylor, Y.-M. Wang, and C. Faloutsos, “Click chain model in web search,” in WWW, 2009, pp. 11–20.
[6] Z. A. Zhu, W. Chen, T. Minka, C. Zhu, and Z. Chen, “A novel click model and its applications to online advertising,” in WSDM, 2010, pp. 321–330.
[7] J. Jin, Y. Fang, W. Zhang, K. Ren, G. Zhou, J. Xu, Y. Yu, J. Wang, X. Zhu, and K. Gai, “A deep recurrent survival model for unbiased ranking,” arXiv preprint arXiv:2004.14714, 2020.
[8] A. Agarwal, K. Takatsu, I. Zaitsev, and T. Joachims, “A general framework for counterfactual learning-to-rank,” in SIGIR, 2019, pp. 5–14.
[9] T. Joachims, A. Swaminathan, and T. Schnabel, “Unbiased learning-to-rank with biased feedback,” in WSDM, 2017, pp. 781– 789.
[10] A. Schuth, H. Oosterhuis, S. Whiteson, and M. de Rijke, “Multileave gradient descent for fast online learning to rank,” in WSDM, 2016, pp. 457–466.
[11] K. Raman and T. Joachims, “Learning socially optimal information systems from egoistic users,” in Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Springer, 2013, pp. 128–144.
[12] A. Swaminathan and T. Joachims, “Batch learning from logged bandit feedback through counterfactual risk minimization,” The Journal of Machine Learning Research, vol. 16, no. 1, pp. 1731–1755, 2015.
[13] K. Hofmann, A. Schuth, S. Whiteson, and M. De Rijke, “Reusing historical interaction data for faster online learning to rank for ir,” in WSDM, 2013, pp. 183–192.
[14] Z. Fang, A. Agarwal, and T. Joachims, “Intervention harvesting for context-dependent examination-bias estimation,” in SIGIR, 2019, pp. 825–834.
[15] A. Agarwal, I. Zaitsev, X. Wang, C. Li, M. Najork, and T. Joachims, “Estimating position bias without intrusive interventions,” in WSDM, 2019, pp. 474–482.
[16] Q. Ai, K. Bi, C. Luo, J. Guo, and W. B. Croft, “Unbiased learning to rank with unbiased propensity estimation,” in SIGIR, 2018, pp. 385–394.
[17] X. Wang, N. Golbandi, M. Bendersky, D. Metzler, and M. Najork, “Position bias estimation for unbiased learning to rank in personal search,” in WSDM, 2018, pp. 610–618.
[18] A. Vardasbi, M. de Rijke, and I. Markov, “Cascade model-based propensity estimation for counterfactual learning to rank,” in SIGIR, 2020, pp. 2089–2092.
[19] Z. Qin, S. J. Chen, D. Metzler, Y. Noh, J. Qin, and X. Wang, “Attribute-based propensity for unbiased learning in recommender systems: Algorithm and case studies,” in KDD, 2020, pp. 2359–2367.
[20] X. Wang, M. Bendersky, D. Metzler, and M. Najork, “Learning to rank with selection bias in personal search,” in SIGIR, 2016, pp.115–124.