因果推断推荐系统工具箱 - IOBM(一)

文章名称

【SIGIR-2021】【浙大-Salesforce】Adapting Interactional Observation Embedding for Counterfactual Learning to Rank

核心要点

文章旨在解决反事实的L2R方法(CLTR)中存在的非Position Bias(其他偏差)。作者提出IOBM,分别学习独立学习审视和点击的嵌入向量表示。同时,用一个可学习的嵌入向量反映审视和点击之间的交互关系。并利用上下文数据,结合观测内注意力机制(intra-observation attention)以及观测间注意力机制(inter-observation attention)来消除上下文带来的偏差。

本节讲解问题的描述和定义,以及建模方法和问题转化。

方法细节

问题引入

基于反事实的L2R方法(CLTR)越来越流行,现有方法主要消除的是Position Bias,这些方法假设用户审视到某个物品的概率,在各个排序结果列相互独立,且只和物品所在的位置相关。然而,观察和点击一般是存在某种交互的,忽略这种交互仍然无法解决数据中存在的偏差(作者提到这种偏差和数据收集方式无关)。

假设我们要预估位置为的物品是否被观测到,这个概率会严重依赖位置的交互结果,如果用户没有点击该位置的物品,那么极有可能继续浏览到物品,但是如果点击了则可能极大概率不会审视到的物品,这个影响被作者成为interactional observation bias。虽然可以直接建模这种交互,但存在两个问题,1)数据稀疏,交互结构复杂,导致学习得到的结果方差很大,如果简化模型有会存在bias;2)在隐式反馈中,无法观测到用户的审视概率,加大了建模难度(通常要做隐变量了)。

interaction between observation and click

给定查询分布,推荐系统以及针对查询推荐系统产出的排序列表,L2R的目标是最小化如下图所示的目标,其中,是衡量单个排序结果好坏的损失函数。

objective function

如果我们知道处在位置的文档的真实相关性,那么我们可以得到期望的评估指标,其公式如下图所示。

full info metric

其中,表示相对于排序结果,文档的排序评估指标。但是这种全知是不可能的(人工标注也会有噪声,且很昂贵)。我们拥有的是点击数据,依据审视模型的假设,用户点击了某个物品,那么他一定审视到了某个物品。这种模型可以表达为如下图所示的概率模型。

observation model

[1]提出采用propensity的方法是估计用户审视到某个物品的概率,并利用这个估计值对样本加权,[1, 29]证明这个方法是对全知评估指标的无偏估计。具体的公式如下图所示。

IPS model

当前的纠偏模型可以分为两类,PBM和CPBM。PBM简化了审视概率的表达式,具体公式如下图所示。可以看到在估计审视概率时,省略了查询和排序结果两个条件,认为查询上下文和结果顺序对甚是概率没有影响。这样做可以缩小模型的搜索空间,不受数据稀疏导致的方差较大的影响。但是,审视概率在不同的查询上下文中共用相同的倾向得分,甚至可能导致纠偏后的结果还不如不纠偏的结果,并且由于是建模的限制,无论收集多少数据,都无法消除这种偏差(本身估计量就不是渐进一致的)。

PBM examination probability

[3]提出了CPBM,引入查询上下文特征,表示原始查询,表示特征提取函数。原文用的是一些手工构造的的特征,包括查询文文本,查询语句长度等,返回结果集的大小和候选集的大小以及用户的特征,比如年龄。之所以选择少量的手工特征是为了防止维度灾难,减少估计propensity的嫩度[7, 30]。

CPBM examination probability

不难发现,PBM和CPBM都没有考虑当前位置之前的审视结果,对当前位置的审视和点击行为的影响(如前所述)。所以,作者把审视概率描述为如下所示的公式。

IOBM

上述公式看上去比较完整,但是也很难学习其中的参数。不仅1)引入了未观测变量;2)还会面临数据系数的问题。如果通过假设条件变量的依赖性(比如马尔科夫性)进行简化,需要有比较好的先验知识。

到此,PBM→CPBM→IOBM逐渐完善了对审视和点击概率的建模,问题转化为如何表示这些条件变量(同时也可能是confounder),以及怎么求解这个模型。

具体做法

受到[31, 42]的启发,利用嵌入表示学习的方法来表示(共同)影响用户审视某个物品以及点击某个物品的混淆变量(confounder)。这种学习得到的嵌入向量表示,可以作为混淆变量的代理变量,可以避免建模整个数据的生成过程(把整个过程建模成一个概率链之类的),并且能够解耦审视和点击之间的复杂结构。

[5]表明,不要建模所有的confounder信息,只需要准确估计和propensity预估有关的confounder信息即可。在这种方法下,IOBM的审视概率估计公式如下图所示,其中,表示交互的嵌入表示学习函数(interactional observation embedding function)。

IOBM embedding

到这里,我们描述了IOBM要建模的内容以及建模的方法,并引出了参数优化求解思路,下节继续讲解模型的实现和参数的学习过程。

心得体会

interactional observation bias

这种bias是confounder,即可能影响用户是否审视到位置为的物品,同时也表现了用户的一些偏好倾向(或者意图),会影响用户是否点击位置为的物品。作者为了避免建模这种复杂的交互结构,采用embedding的形式来表示这种内在联系。个人感觉,会有dynamic treatment effect问题,也就是说其实位置为的物品是一种treatment,会对后续的位置为的物品treatment有影响,可能不仅仅是confounder的问题,但是这种序列treatment的建模还在研究探索阶段,没有很深入的结果,也很少应用在推荐系统中。

另外,作者也提到数据量的问题和模型搜索空间的问题,导致如果进行这种序列的建模会造成很大方差。因此,权衡后选择了进行嵌入表示学习。

IOBM模型

其实IOBM模型,是对PBM和CPBM在条件概率上的扩展(其实是概率图,或者说因果图的扩展,本身因果图也是贝叶斯网络)。并且,把顺序的前后关系建模到了条件概率中(有点像NLP中的DNN到RNN的转化过程)。通常这种具有序列关系的模型会使用马尔科夫性或者其他的概率图分解等假设进行简化(不然根本没法求哇),有点像BOW和N-gram。不过和NLP一样,到了RNN为主的Language Model,就直接建模整个序列,感觉作者也是这个套路。

当然还有其他的模型,比如XPA,利用Attention建模其他layout下的interactional of observation and clicks。这篇文章后续会讲解(看了这几篇文章,相信读者可能跟我有同样的感受,真的是只要是往序列建模上搞,最终还是要RNN,Att)。

文章引用

[1] Thorsten Joachims, Adith Swaminathan, and Tobias Schnabel. 2017. Unbiased learning-to-rank with biased feedback. In Proceedings of the Tenth ACM International Conference on Web Search and Data Mining. 781–789.

[2] Aman Agarwal, Kenta Takatsu, Ivan Zaitsev, and Thorsten Joachims. 2019. A general framework for counterfactual learning-to-rank. In Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval. 5–14.

[3] Zhichong Fang, Aman Agarwal, and Thorsten Joachims. 2019. Intervention harvesting for context-dependent examination-bias estimation. In Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval. 825–834.

[4] Christos Louizos, Uri Shalit, Joris Mooij, David Sontag, Richard Zemel, and Max Welling. 2017. Causal effect inference with deep latent-variable models. In Proceedings of the 31st International Conference on Neural Information Processing Systems. 6449–6459.

[5] Victor Veitch, Yixin Wang, and David M Blei. 2019. Using embeddings to correct for unobserved confounding in networks. arXiv preprint arXiv:1902.04114 (2019).

你可能感兴趣的:(因果推断推荐系统工具箱 - IOBM(一))