因果推断推荐系统工具箱 - Bias and Debias in Recommender System: A Survey and Future Directions（一）

文章名称

Bias and Debias in Recommender System: A Survey and Future Directions

核心要点

当前有很多拟合用户行为数据的推荐模型被提出，然而这些行为数据是观测数据而非实验数据，因此存在很多的偏差，比如说选择性偏差，位置偏差，曝光偏差，流行度偏差等等。如果盲目拟合观测到的用户行为数据，会造成离线效果和线上效果存在较大偏差，并且伤害用户体验。所以，我们需要估量偏差对整个系统的影响，并且适时的纠正这些偏差，才能使得模型更具可信度，获得更好的效果。作者在文章中列出来7中不同类型的偏差，并且介绍了不同偏差的特点以及可行的解决办法。

方法细节

问题引入

推荐系统的模型训练经历了一个user→data→model→user的循环。其中，操作系统收集用户的1）隐式反馈包括点击，观看等，同时，也是收集用户的2）显示反馈，如用户的打分（以此来估计用户的偏好）。

feedback loop

在整个循环的过程中，会引入7中偏差（biases）。作者将用户交互到数据收集这个阶段的bias分为4组，其中包括显示反馈中会出现的selection bias，conformity bias以及隐式反馈中会出现的exposure bias，position bias。
在显示打分（用户反馈数值的分值，表示喜欢或者不喜欢）里，

首先，这里的selection bias是指用户在反馈打分时，是可以自由选择给哪些物品打分的。研究表明，用户更倾向于给自己喜欢的物品打分，并且会给极端好或者极端差的打分。那么用户没有选择去评分的商品，就产生了缺失数据，也就是我们通常说的数据缺失并非随机的（MNAR）。这样我们得到的打分的分布和用户被分配随机物品打分的分布是不一致的。
其次，conformity bias是指用户的打分通常会受到其他人打分的影响。比如，用户很可能受到朋友的影响而给每个物品打高分或者低分。甚至，用户看到其他无关的打分次数越多，也会倾向于和这些无关人的打分趋同（从众心理）。
而在隐式反馈中，用户只给出了一些正向信号（其实也有负向信号），导致可能存在无法区分以下偏差，
exposure bias是指在物品数量较多的时候，当前展示给用户的物品是受到当前策略（当前推荐系统）的影响的，被曝光的物品没有得到正向的交互可以用来判断用户的偏好。然而，没有被曝光的物品的是不可能得到正向反馈的。因此，在未被曝光的物品上，存在非正向反馈的歧义。要么用户真的不喜欢，要么用户只要看到就喜欢。这种偏差导致真正喜欢的物品被忽略。同时，这种偏差也和用户的探索能力（selection）和周边人群的影响（exposure，朋友可能给这个用户看这个物品，甚至推荐系统挖掘“你的朋友也在看”的时候就会造成偏差）。因此，有些文献也会说成是selection bias。
position bias是指在结果以列表展示时，用户更倾向于与排名靠前的结果进行交互，很少甚至完全不与排名低的结果交互。这种不交互，并不能代表排名低的结果就和用户的问题（搜索场景）或用户喜欢的内容（推荐场景，也算是一种模型造成的selection）无关。position bias影响了模型的训练和测试环节。

今天就先介绍到这里，下节继续介绍其他biases。

心得体会

position bias

除了推荐模型本身只能选择一个结果造成排序偏差以外，其他处于商业化等目标的排序规则，比如竞价排名也会影响排序的结果。如果用这种排序结果认为是模型为了最大化如使用时长而得到的结果，就会造成位置偏差。