因果推断推荐系统工具箱 - Bias and Debias in Recommender System: A Survey and Future Directions（二）

文章名称

Bias and Debias in Recommender System: A Survey and Future Directions

核心要点

上一节讲述了7种bias中的4种，我们接着来看后3种。

方法细节

问题引入

除了数据收集的时候会产生selection bias，conformity bias，exposure bias和position bias以外。训练模型和结果展示的过程中，还会存在例如inductive bias，popularity bias以及unfairness。
inductive bias是指在模型训练过程中，为了更好地提升模型泛化能力或考虑实现其他目标而对（优化的）目标函数、样本权重、embedding表示的形式做的一系列假设。例如，在进行建模时，我们假设用户对物品的偏好是两者隐向量的内积，这是为了更好地泛化到没有实际交互过多用户-物品对而做的假设。又如，为了能够更快的进行检索或加速推荐，我们会假设用户和商品的隐向量是二进制向量，这也是一种inductive bias。为了加速模型学习的收敛，我们经常采用过采样难度较高的样本的trick，这也是一种inductive bias的表现形式，因为训练样本的分布和实际分布会存在差异（我们加权了某些训练难度较大的样本的权重）。然而，这里提到的inductive bias大多数是对模型训练或最终效果有益处的偏差。
而在模型造成的数据结果中存在两种不可忽视的重要的偏差，popularity bias以及unfairness。
popularity bias是指在推荐系统中存在数据长尾的问题，在长尾数据上学习的时候，模型会倾向于给流行度更高，或者被更多人交互的物品较高的得分，甚至高过了它本身应该有点频度，导致长尾物品能够获得的曝光机会更少。这个偏差是在一种循环往复的状态下体现的，比如，某个物品的流行度在第一天比较高，模型给了它更高的得分。第二天，这个物品进入正向的“吸分”循环，而其他物品则被赋予更低的得分。也就是我们常说的推荐系统存在马太效应。
unfairness则是指，数据中固有的诸如性别、种族等偏差，导致推荐系统更容易沿袭这种偏差。比如，在职位推荐的时候，由于原有数据收集时可能存在性别偏差，女性看到的职位的薪酬都比较低，导致模型可能学习到这种偏差，甚至加强这种偏差等。
7种类型的bias总结如下图。上述偏差最大的问题不仅仅在于其初期的影响，如popularity bias所述，整个偏差的影响是循序渐进的，逐渐被放大。当整个推荐过程不断地在这个循环放大的路径上渐进的话，很可能后续很难得到合理的数据来进行矫正。

7 biases

心得体会

Matthew effect

马太效应是在分布不均的情况下逐渐加剧的。如果不进行矫正或特殊处理，我们会发现，个性化推荐的能力变弱，效果逐渐变差。而个人认为，这其实是透过exposure bias来放大影响的，其实也会影响到position bias，所以这个问题的可以说是其他问题的根源之一，幸存者偏差带来更大的偏差。