因果推断推荐系统工具箱 - Debiasing Grid-based Product Search in E-commerce(一)

文章名称

【KDD-2020】【Arizona State University-Etsy Inc.】Debiasing Grid-based Product Search in E-commerce

核心要点

文章旨在将ULTR应用到E-commerce的场景,解决原有(检索场景中提出的)方法的两个问题。1)在E-commerce推荐结果不是单列瀑布流而是两列或多列grid-based layout;2)E-commerce中存在多个不同的隐式反馈信息,包括点击和购买(转化),原检索场景方法无法适用或没法充分利用这些信息。作者首先提出了一个通用框架来利用多种隐式反馈信息,同时提出了俩种点击模型,row skipping和slow decay,来估计propensity。

方法细节

问题引入

原有推荐系统,包括(检索类的)搜索引擎,(单列,新闻)信息流,短视频瀑布流都可以被归类为list-based推荐模型,其推荐结果页面(search engine results pages,SERP)是单列展示的,且(基本上)在任何设备上都是不变的。然而,电商场景的布局一般是多列的(被称之为grid-based),甚至随着用户使用的终端会发生排版变化。grid-based不同于list-based的结果页,用户可能会在短时间内收到多个反馈,同时注意力会发生迁移,也会因跳过一行,而略过多个商品。作者发现在grid-based场景下,用户的注意力衰减速度要慢于list-based。此时,position bias的计算就会发生变化,必须改造原有的propensity估计方法,因为用户是否审视到某个物品受到多方面因素影响,需要设计不同的点击模型。

此外,电商有CTR,CVR(购买转化)而不仅仅是信息流的点击。原有的ULTR方法无法同时利用多种隐式反馈信息,需要改变原有模型的假设,来处理多个阶段的propensity的估计。

首先,问题可以被形式化如下,

  • 针对查询,返回的结果(物品id)集合为,某个物品所处的位置用表示(grid-based应该是一个坐标或向量,也可以是单个按照某种顺序,比如蛇形走下来)。
  • 表示针对查询返回的结果中处于位置的物品的特征向量,所有物品组合成的特征矩阵表示为。
  • 分别表示物品是否被审视到,是否被点击,是否被购买。
  • 因此数据集合可以被表示为,其中,这些随机变量都是矩阵或者向量(一个查询会返回多个物品),并且仅仅表示其个数(这里其实用个其他的notation更好,但是作者其实想表达,一个对应一个样本,不管查询本身是不是可能是一模一样的内容,比如“红色高跟鞋”出现了两边那也是两个)。

模型学习的目标是利用数据集,得到最优的排序模型来预测查询-物品元组的排序得分(其实一般其他文档用这个得分表示两者的相关性)。

纠偏方法的目标是,在更定数据集的情况下(没有随机数据集,没有相关性的ground-truth,没有propensity的ground-truth),结合grid的排版格式,估计propensity在观测数据集上,通过调整损失权重,来纠正数据偏差,进行ULTR,使得模型在评估指标,如购买的NDCG上表现最优(或更好)。

现有推荐模型(LTR)利用Cascade Click Models,CCM[1]来建模用户行为,即假设表示用户会继续浏览下一个物品的概率,那么用户在位置离开推荐结果页的概率。但是[1]利用随机实验数据进行建模(由于简单的点击率估计)。

为了不伤害用户体验,后续[2, 14, 23]利用EM算法在观测数据上估同时估计propensity和ranker模型。然而如上所述,这些方法,不适合grid-based场景。

具体做法

List-based场景下,通常假设物品被点击等价于物品被审到且和查询是相关的。换到电商场景,可以类比为,用户审视到物品且是吸引人的,可以表示为,其中表示在查询为时,位置的物品是吸引人的。

Joint Examination Hypothesis

为了引入多种隐式反馈,比如点击和购买,作者提出了Joint Examination Hypothesis,假设用户的购买和点击的联合概率与用户是否审视到物品以及物品是否足够吸引人来购买的联合概率相关,可以表示为。

此外,作者假设不吸引人的物品让然有一定的概率被点击,只是越不吸引人的物品被点击的概率越小,即

Loss function

假设物品元组分别表示,前边为正样本,后边为负样本。那么,推荐模型的损失可以是这三种pairwise的损失的和(也就是说,搞错这三种排序,会贡献梯度)。因此,损失函数可以定义为如下图所示。

loss function

其中,表示上述前两种pair排序错误的损失,则表示上述第三种排序错误的损失。

Unbiased Estimate of the Loss Function

上述损失函数在观测数据中是无法计算的,因为我们不知道吸引程度的真实标签,并且只有观测到的点击数据。因此,作者假设点击意味着吸引人,并且当损失不为零时,意味着pair中的两个物品的反馈是不一致的,具体公式如下图所示。

unbias assumption

最后两个公式(公式6,7)表示有loss等价于两者反馈不一致,反馈一致,不应该有loss。由此可以得到基于隐式反馈的IPS损失函数,可以证明这个损失是无偏的(证明这里略去了,感兴趣的同学可以参考文章的附录)。

unbiased estimate

值得注意的是,作者仍然假设位置偏差仅仅和位置有关,即。

这一节,讲解了作者建模多种隐式反馈的方法,下一节讲解如何在grid-based场景下估计propensity。

心得体会

Joint Examination Hypothesis

虽然说是,联合审视概率,但是感觉作者只是替换了联合概率而已,并没有做拆分,相当于利用了整个漏斗的正样本来训练模型,可能有点类似于投放场景,估计到最深的转化率,来作为信息辅助估计前面的转化漏斗。

文章引用

[1] Nick Craswell, Onno Zoeter, Michael Taylor, and Bill Ramsey. 2008. An experimental comparison of click position-bias models. In WSDM. ACM, 87–94.

你可能感兴趣的:(因果推断推荐系统工具箱 - Debiasing Grid-based Product Search in E-commerce(一))