因果推断推荐系统工具箱 - CFF(一)

文章名称

【CIKM-2021】【Beijing Key Laboratory of Big Data Management and Analysis Methods-AntGroup】Counterfactual Review-based Recommendation

核心要点

文章旨在解决现有基于评论的推荐系统中存在的评论稀疏和不平衡的问题,提出在feature-aware的推荐场景下,利用反事实样本提升模型性能。作者通过修改(Intervention)用户的偏好(体现在用户的一些评论信息里)来生成反事实样本,并使用观测样本和反事实样本共同训练推荐模型,提升模型性能。在生成反事实样本时,利用learning-based方法代替随机生成的方式,生成最能够提升模型性能的反事实样本。此外,作者进行了理论分析,讨论生成样本数量和模型受到的噪声干扰的关系。

研究背景

现有基于评论的方法可以分为两大类,具体案例如下图a。

  • Document Level。该类方法[4]将(该用户或该物品)的所有的评论看作一个文档学习用户或向量的embedding。这不可避免引入噪声,影响模型性能。
  • Aspect Level。该类方法提取用户对物品的不同方面的情感倾向,得到(用户、项目、特征、情绪)元组[7]。例如,用户评论“我喜欢这件衬衫的领子,但是袖子不满意,因为对我来说太紧了”,最终提取的元组为“(user id, item id, 领子, 正反馈)”和“(user id, item id, 袖子, 负反馈)”。
review case and statistics

然而,上述方法都没有触及评论推荐的本质问题,即数据稀疏和不平衡。评论信息能极大地提升推荐系统的性能,但评论信息也是稀疏的、不平衡的,给准确、高效的推荐带来了极大挑战,需要付诸极大地努力使得模型取得令人满意的性能。在亚马逊数据集上的统计结果显示,只有极少数用户经常评论,以及极少数的物品和方面被提及。

因此,作者借鉴反事实的思想,通过最小程度的调整用户偏好,来改变用户物品偏好的排序结果(pairwise loss),以此生成反事实样本。

方法细节

基础模型

作者采用BPR loss[19]进行pairwise的学习,具体的损失函数如下图所示。其中,表示训练样本,是sigmoid函数,表示推荐模型(这里应该是排序模型),第二项整体表示正则项。表示用户对物品的偏好分数。

BPR loss

生成反事实样本

如前所述,用户评论是稀疏的。同时,用户在对商品不同特性(方面)的关注度影响了用户的偏好,例如,下图中,用户关注品牌则会选择”IPhone“,如果更关注价格,则选择”小米“。因此,通过改变(Intervene on)用户的特性关注度,可以得到反事实,并利用(已有的,可能是预训练得到的)推荐模型对样本进行预测,可以得到反事实样本的标签。

sample generation

比较Naive的方法是随机样本和用户的关注特征进行替换,但是由于样本和特性的重要程度不同[12],这种方法显然是次优的。作者采用learning-based方法学习反事实样本生成(这个现在应该是反事实样本生成的基操了)。作者借鉴[1, 12]的做法,通过学习如何最小限度的改变用户对特性的关注度(特征表示用户偏好),从而改变模型的决策结果,来生成反事实样本,这其实是利用了模型的决策边界反映数据潜在结构或模式的特性。其示意如上图中子图b所示。

具体的,作者引入扰动,该扰动向量的每一个元素作用于物品的每一个特性(也可以是特性的隐向量表示)。其中,表示所有特性的集合。随后利用如下图所示的公式寻找最优的扰动。

perturbation generation loss

其中,的计算公式如下图所示,分别表示用户和物品的特征矩阵,也就是每个用户对特性的关注程度,以及每个物品在该特性上的质量。

r start

值得注意的是,在学习优化过程中,的参数是被固定的。损失函数中的第一项的目标是寻找最小化扰动,第二项的目标是改变模型对两个物品的偏好排名。

本节讲解了作者的研究背景,基础模型和生成反事实样本的思路,下一节继续介绍反事实生成的控制细节和理论分析。

心得体会

反事实样本生成

这篇文章的作者也有来自Rutgers University的大佬,所以套路和因果推断推荐系统工具箱 - CCF(一)以及因果推断推荐系统工具箱 - DCCF(一)非常类似,都是先利用反事实样本来增强模型,生成方法主要是learning-based方法,目标是生成所谓的“hard sample”来最大限度的提升模型的性能。最终,分析了模型的错误率与样本数量以及噪声的关系。

同时,生成反事实的过程是利用一个预训练的弱推荐模型,判断反事实样本的标签,进而在训练模型得到更高性能的(或者说)感觉有点像bootstrap

文章引用

[1] Ehsan Abbasnejad, Damien Teney, Amin Parvaneh, Javen Shi, and Anton van den
Hengel. 2020. Counterfactual vision and language learning. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 10044–10054.

[4] Rose Catherine and William Cohen. 2017. TransNets: Learning to Transform for Recommendation. arXiv preprint arXiv:1704.02298 (2017).

[7] Tong Chen, Hongzhi Yin, Guanhua Ye, Zi Huang, Yang Wang, and Meng Wang.2020. Try This Instead: Personalized and Interpretable Substitute Recommendation. (2020).

[12] Yash Goyal, Ziyan Wu, Jan Ernst, Dhruv Batra, Devi Parikh, and Stefan Lee. 2019. Counterfactual visual explanations. arXiv preprint arXiv:1904.07451 (2019).

[19] Steffen Rendle, Christoph Freudenthaler, Zeno Gantner, and Lars Schmidt-Thieme. 2009. BPR: Bayesian personalized ranking from implicit feedback. In Proceedings of the twenty-fifth conference on uncertainty in artificial intelligence. AUAI Press, 452–461.

你可能感兴趣的:(因果推断推荐系统工具箱 - CFF(一))