文章名称
Bias and Debias in Recommender System: A Survey and Future Directions
核心要点
上一节中,我们介绍了现有方法如何在训练阶段消除Exposure Bias。本节,我们来介绍如何消除另一种经常出现的偏差,Position Bias。
方法细节
问题引入
Position Bias是指(历史上)排名较高的物品,将会被更多的选中,而不管其是否真的符合用户的喜好。这种偏差经常出现在L2R的研究中。当前大概有两类方法被用来解决这一问题。
具体做法
Click models
第一类模型是基于对观测到的用户点击行为的一些假设,并通过优化观测数据的似然函数来估计用户对物品的真实偏好。[1], [2], [3], [4] 基于一种称为examination的点击模型,这种模型假设如果观测到物品被点击了,那么他一定即被用户审视过,也是用户喜欢的。这些方法是基于视觉焦点研究的研究结果,该结果表明,用户很少去点击排名较低的物品(因为根本懒得看或看不到那么多)。因此,这些模型显示的建模用户点击位于位置的物品的概率,来还原真实的用户偏好。
其中 表示用户是否真的看到或审视到这个物品, 是推荐模型建模的真正的用户偏好,而 是显示建模的用户的审视或者看到该物品的概率。模型假设,1)如果用户点击了该物品,那么这个物品一定被用户看到和审视过(感觉这是一句废话...);2)用户只要看到了,审视过,那么点击和不点击之和用户的偏好有关系。用户是否能看到,或者审视一个物品,只和该物品被位置有关系。这个模型和之前讲到的显示建模曝光概率的模型十分相似,只是这里的概率是用户是否能审视到某个物品。
[86]提出了另一类点击模型,级联模型。该模型不仅显示建模的审视到点击的概率关系,也显示建模了跳过某个物品的概率。模型假设用户是从第一个被展示的物品一直审视到最后一个。并且针对这些物品,用户的点击行为只和用户真正的偏好相关。
其中 , 分别表示用户审视和点击该物品的概率。其中 ,表示第一个物品一定会被用户审视。式子36表示,用户一旦返现了其感兴趣的物品就会直接点击该物品,跳出session。否则会一直审视下去。也就是说,一个session或query里,只有一次点击。一个物品被电机的概率是 ,没有被点击的概率是 。[3], [5], [6]在此基础上加入了一些用户个性化的点击和跳过转移概率。[7]深度生存模型,更细致的建模用户浏览行为。
但是这类点击模型,通常需要大量的query-item或user-item样本,当观测样本非常稀疏的时候,就很难应用这些模型。同时,可以看出上述模型对数据的生成和用户的行为有较强的的假设,错误的假设很容易引入经验偏差。
Propensity score
另一种比较常见的方法是引入IPS,来对样本进行加权,做到位置可感知。[8]提出如下图所示的损失函数,其中是所有请求(或用户)集合,是其中的一个查询(或用户)。表示排序系统,表示推荐系统对给出的排序列表。是推荐列表中的一个物品或文章,而是一个二值标签,表示是否于相关。表示和用户的相关性的损失函数。是表示在列表中,用户能审视到文档。[9] 证明IPS损失的优化,最终得到的模型是是对真正相关性的无偏估计。
由于基于propensity score的模型只和物品的位置相关,相对简单。因此,被广泛研究。[20], [10], [11], [12], [13]对列表进行随机排序,收集用户在不同排序下的点击行为。因为,用户对一个物品的真实偏好,不会因为物品展示位置的改变而改变。因此,这种随机排序的方法,得到的点击率的偏差就是真是的propensity score。但是这种方法会严重的损害用户的体验。[9]采用成对调换的方法,但是由于其局部调换的特点,导致并不能完全消除Position Bias。因此,一些方法开始研究在不对排序结果进行任何改变的情况下,进行propensity score的学习。[14],[15]利用多个排序模型的结果来学习propensity score。[9], [16], [17], [19]把propensity score的学习和推荐模型的学习建模型对偶问题,针对性的提出了新的EM算法。
心得体会
examination
examination的第二个假设表示,用户只要看见了,并且喜欢就会点。这个假设在大多数的情况下都是成立的。不过实际场景中也有一些情况会有偏差,比如用户可能很想点,但由于老板来了,要上班了,所以没有点击之类的。此外,另一个辅助假设是,用户是否能看到,或者审视一个物品,只和位置有关系。不过可能还有一些其他的因素,比如展示的形式等等。导致用户不认为这个物品是他关心的,即看到为审视。
IPS
也许在Recommendation Debias的时候,只要有bias就可以利用IPS。只要我们能找到某种propensity score是可以纠正这个偏差,或者消除产生这个偏差的confounder。
文章引用
[1] N. Craswell, O. Zoeter, M. Taylor, and B. Ramsey, “An experimental comparison of click position-bias models,” in WSDM, 2008, pp. 87–94.
[2] G. E. Dupret and B. Piwowarski, “A user browsing model to predict search engine click data from past observations.” in SIGIR, 2008, pp. 331–338.
[3] O. Chapelle and Y. Zhang, “A dynamic bayesian network click model for web search ranking,” in WWW, 2009, pp. 1–10.
[4] W. V. Zhang and R. Jones, “Comparing click logs and editorial labels for training query rewriting,” in WWW 2007 Workshop on Query Log Analysis: Social And Technological Challenges, 2007.
[5] F. Guo, C. Liu, A. Kannan, T. Minka, M. Taylor, Y.-M. Wang, and C. Faloutsos, “Click chain model in web search,” in WWW, 2009, pp. 11–20.
[6] Z. A. Zhu, W. Chen, T. Minka, C. Zhu, and Z. Chen, “A novel click model and its applications to online advertising,” in WSDM, 2010, pp. 321–330.
[7] J. Jin, Y. Fang, W. Zhang, K. Ren, G. Zhou, J. Xu, Y. Yu, J. Wang, X. Zhu, and K. Gai, “A deep recurrent survival model for unbiased ranking,” arXiv preprint arXiv:2004.14714, 2020.
[8] A. Agarwal, K. Takatsu, I. Zaitsev, and T. Joachims, “A general framework for counterfactual learning-to-rank,” in SIGIR, 2019, pp. 5–14.
[9] T. Joachims, A. Swaminathan, and T. Schnabel, “Unbiased learning-to-rank with biased feedback,” in WSDM, 2017, pp. 781– 789.
[10] A. Schuth, H. Oosterhuis, S. Whiteson, and M. de Rijke, “Multileave gradient descent for fast online learning to rank,” in WSDM, 2016, pp. 457–466.
[11] K. Raman and T. Joachims, “Learning socially optimal information systems from egoistic users,” in Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Springer, 2013, pp. 128–144.
[12] A. Swaminathan and T. Joachims, “Batch learning from logged bandit feedback through counterfactual risk minimization,” The Journal of Machine Learning Research, vol. 16, no. 1, pp. 1731–1755, 2015.
[13] K. Hofmann, A. Schuth, S. Whiteson, and M. De Rijke, “Reusing historical interaction data for faster online learning to rank for ir,” in WSDM, 2013, pp. 183–192.
[14] Z. Fang, A. Agarwal, and T. Joachims, “Intervention harvesting for context-dependent examination-bias estimation,” in SIGIR, 2019, pp. 825–834.
[15] A. Agarwal, I. Zaitsev, X. Wang, C. Li, M. Najork, and T. Joachims, “Estimating position bias without intrusive interventions,” in WSDM, 2019, pp. 474–482.
[16] Q. Ai, K. Bi, C. Luo, J. Guo, and W. B. Croft, “Unbiased learning to rank with unbiased propensity estimation,” in SIGIR, 2018, pp. 385–394.
[17] X. Wang, N. Golbandi, M. Bendersky, D. Metzler, and M. Najork, “Position bias estimation for unbiased learning to rank in personal search,” in WSDM, 2018, pp. 610–618.
[18] A. Vardasbi, M. de Rijke, and I. Markov, “Cascade model-based propensity estimation for counterfactual learning to rank,” in SIGIR, 2020, pp. 2089–2092.
[19] Z. Qin, S. J. Chen, D. Metzler, Y. Noh, J. Qin, and X. Wang, “Attribute-based propensity for unbiased learning in recommender systems: Algorithm and case studies,” in KDD, 2020, pp. 2359–2367.
[20] X. Wang, M. Bendersky, D. Metzler, and M. Najork, “Learning to rank with selection bias in personal search,” in SIGIR, 2016, pp.115–124.