论文题目:《TEM: Tree-enhanced Embedding Model for Explainable Recommendation》
发表时间:WWW 2018
论文作者及单位:
论文地址:https://dl.acm.org/citation.cfm?doid=3178876.3186066
虽然协同过滤是个性化推荐中的主要技术,但它只对用户-项目交互进行建模,不能提供推荐的具体原因。同时,与用户-项目交互相关联的丰富辅助信息(例如,用户人口统计和项目属性)提供了为什么推荐的物品适合用户的有价值的证据,但在提供解释时没有被充分探索。
在技术方面,基于嵌入的方法,如宽深度和神经因子分解机,提供了最先进的推荐性能。然而,它们就像一个黑匣子一样工作,因此预测背后的原因不能明确地呈现出来。另一方面,像决策树这样的基于树的方法通过从数据中推断决策规则来进行预测。虽然可以解释,但它们不能推广到看不见的特征交互,因此在协同过滤应用中会失败。
在这项工作中,我们提出了一种新的解决方案,称为树增强嵌入方法,它结合了基于嵌入和基于树的模型的优点。我们首先使用一个基于树的模型来学习明确的决策规则(也就是。交叉特征)。接下来,我们设计了一个嵌入模型,它可以包含显式的交叉特征,并推广到用户标识和项目标识上看不见的交叉特征。我们嵌入方法的核心是一个易于解释的注意网络,使推荐过程完全透明和可解释。我们在旅游景点和餐馆推荐的两个数据集上进行了实验,证明了我们的解决方案的优越性能和可解释性。
1 INTRODUCTION
个性化推荐是许多面向客户的在线服务的核心,如电子商务、社交媒体和内容共享网站。从技术上讲,推荐问题通常作为匹配问题来处理,其目的是基于用户和项目的可用画像来估计它们之间的相关性分数。不管应用领域如何,用户的档案通常由一个身份(识别哪个特定用户)和一些辅助信息组成,如年龄、性别和收入水平。类似地,一个项目的画像通常包含一个标识和一些属性,如类别、标签和价格。
协同过滤是建立个性化推荐系统最普遍的技术,[ 21,26 ]。它利用用户对项目的交互历史来为用户选择相关项目。从匹配的角度来看,CF仅使用身份信息作为用户和项目的画像,而放弃其他辅助信息。因此,CF可以作为推荐的通用解决方案,而不需要任何领域知识。然而,缺点是它缺乏对推荐的必要推理或解释。特别是,解释机制要么是因为您的朋友也喜欢它(即基于用户的CF [24 ),要么是因为该项目与您以前喜欢的项目相似(即基于项目的CF [35 ),这种机制过于粗略,可能不足以说服用户推荐[ 14、39、45 ]。
为了说服用户对推荐采取行动,我们认为除了类似的用户或项目之外,提供更具体的理由是至关重要的。例如,我们向用户Emine推荐苹果7玫瑰金,因为我们发现月收入超过10,000美元(这是Emine的人口统计数据)的20 - 25岁女性通常更喜欢粉色的苹果产品。为了给推荐系统提供如此丰富的信息,潜在的推荐引擎应该能够( I )从用户和项目的丰富的辅助信息中明确地发现有效的交叉特征,以及( ii )以可解释的方式估计用户-项目匹配分数。此外,我们期望辅助信息的使用将有助于提高推荐的性能。
然而,现有的推荐方法都不能同时满足上述两个条件。在文献中,基于嵌入的方法,如矩阵分解[ 23,26,34 ]是最流行的CF方法,这是因为嵌入在从稀疏的用户-项目关系中推广时具有强大的能力。已经提出了许多变体来结合辅助信息,例如因子分解机(FM) [ 32 ]、神经FM[ 20 ]、Wide&Deep[ 12 ]、Deep Crossing[ 36 ]。虽然这些方法可以从原始数据中学习特征交互,但我们认为交叉特征效应在学习过程中只能以相当隐含的方式被捕获;最重要的是,交叉特征不能被明确地呈现出来[ 36 ]。此外,关于使用辅助信息的现有工作主要集中在冷启动问题[ 5 ],对推荐的解释相对较少触及。
在这项工作中,我们的目标是通过开发一个既准确又可解释的推荐解决方案来填补研究空白。准确地说,我们期望我们的方法达到与现有的基于嵌入的方法相同的性能水平,[ 32,36 ]。通过解释,我们希望我们的方法在生成推荐时是透明的,并且能够识别预测的关键交叉特征。为此,我们提出了一种新的解决方案,称为树增强嵌入方法,它将基于嵌入的方法和基于决策树的方法相结合。首先,我们在用户和项目的边信息上建立一个梯度提升决策树,以获得有效的交叉特征。然后,我们将交叉特征输入一个基于嵌入的模型,这是一个精心设计的神经注意网络,它根据当前的预测对交叉特征进行加权。由于GBDTs提取的显性交叉特征和易于解释的注意网络,整个预测过程是完全透明和可自我解释的。特别是,为了产生推荐的理由,我们只需要根据他们的注意力分数选择最具预测性的交叉特征。
作为一个主要的技术贡献,这项工作提出了一个新的方案,统一了基于嵌入和基于树的推荐方法的优势。众所周知,基于嵌入的方法具有很强的泛化能力[ 12,20 ],特别是在预测用户标识和项目标识上的不可见交叉时(即,捕捉CF效应)。然而,当在丰富的边信息上操作时,基于嵌入的方法失去了可解释性的重要属性——对预测贡献最大的交叉特征不能被揭示。另一方面,基于树的方法通过生成显式的决策规则进行预测,使得生成的交叉特征可以直接解释。虽然这种方法非常适合从辅助信息中学习,但是它不能预测看不见的交叉特征,因此不适合合并用户标识和项目标识。为了构建一个可解释的推荐解决方案,我们以一种自然有效的方式结合了基于嵌入和基于树的方法的优势,据我们所知,这是以前从未研究过的。
2 PRELIMINARY
我们首先回顾了基于嵌入的模型,讨论了它在支持可解释推荐方面的困难。然后介绍了基于树的模型,并强调了其解释机制。
2.1 Embedding-based Model
基于嵌入的模型是表示学习[ 6 ]的典型例子,其目的是从原始数据中学习特征用于预测。矩阵分解( MF) [26]是一个简单而有效的基于嵌入的协同过滤模型,其预测模型可以被表述为:
除了ID之外,用户(项目)总是与丰富的辅助信息相关联,这些辅助信息可能包含用户对项目偏好的相关信号。由于这些信息大部分是分类变量,它们通常通过单热编码[ 20,32 ]转换成实值特征向量。让xu和xi分别表示用户u和项目I的特征向量。为了预测yui,一个典型的解决方案是连接xu和xi,即x = [xu,xi ] ∈ Rn,然后将其输入预测模型。调FM 5,32 ]是这种预测模型的代表,其表述如下:
其中w0和wt是偏置项,vt ∈ Rk和vj ∈ Rk分别表示特征t和j的嵌入。我们可以看到FM将每个特征与嵌入相关联,通过嵌入的内积来模拟每两个(非零)特征的交互。如果仅使用用户ID和项目ID作为x的特征,FM可以准确地恢复MF模型;通过将ID和侧面特征一起馈送到x、FM模型中,所有ID和侧面特征之间成对(即二阶)交互。
随着深度学习的最新进展,神经网络方法也被用来建立基于嵌入的模型[ 12,20,36 ]。特别是,Wide&Deep[ 12 ]和Deep Crossing[ 36 ]通过在非零特征嵌入的拼接之上放置多层感知器来学习特征交互;MLP声称能够学习任何顺序的交叉特征。 Neural FM[ 20 ]首先应用双线性特征嵌入上的交互池,用于学习二阶特征交互,随后采用MLP,用于学习高阶特征交互。
尽管现有的基于嵌入的方法在辅助信息建模中具有很强的表示能力,但我们认为它们不适合提供解释。调频仅模拟二阶特征交互,不能捕捉高阶交叉特征效果;此外,它统一考虑所有二阶相互作用,并且不能区分哪些相互作用对于预测[ 46 ]更重要。虽然神经嵌入模型能够捕获高阶交叉特征,但是它们通常通过特征嵌入之上的非线性神经网络来实现。神经网络堆叠多个非线性层,并且理论上保证拟合任何连续函数[ 25 ],然而,拟合过程是不透明的,并且不能解释。据我们所知,没有办法从神经网络中提取明确的交叉特征,并评估它们对预测的贡献。
2.2 Tree-based Model
与表示学习方法相反,基于树的模型不学习用于预测的特征。相反,他们通过从数据中学习决策规则来进行预测。我们将树模型的结构表示为Q = {V,E},其中V和E分别表示节点和边。V中的节点有三种类型:根节点v0、内部节点(又称。决策)节点VT和叶节点v1。图1展示了一个决策树模型的例子。每个决策节点vt分割具有两个决策边的特征xt :对于数字特征(例如,时间),它选择阈值aj并将该特征分割成[xt < aj ]和[ XT≥aj ];对于二进制特征(例如,对分类变量进行一次热编码后的特征),它确定该特征是否等于一个值,即决策边类似于[xt = aj ]和[xt ̸= aj ]。
从根节点到叶节点的路径形成决策规则,该规则也可以被视为交叉特征,例如在图1中,叶节点vL2代表[x0 < a0]&[x3 ≥ a3]&[x2 ̸= a2]。每个叶节点vL具有值wi,表示相应决策规则的预测值。给定特征向量x,树模型首先确定哪个叶节点x落在哪个叶节点上,然后将叶节点的值作为预测: y\u DT ( x ) = Wq ( x ),其中Q基于树结构将特征向量映射到叶节点。我们可以看到,在这样的预测机制下,叶节点可以被视为预测中最突出的交叉特征。因此,基于树的模型本质上是可自我解释的。
由于一棵树可能不足以表达数据中的复杂模式,因此更广泛使用的解决方案是构建一个森林,例如梯度增强决策树( GBDT ),它通过利用多个加法树来增强预测:
其中S表示加法树的数量,y’DtS表示第S树的预测模型。我们可以看到,GBDT提取S规则来预测给定特征向量的目标值,而单个树模型基于一个规则进行预测。因此,GBDT通常比单树模型[ 7,18 ]更精确。
虽然基于树的模型在从丰富的侧面特征生成可解释的预测方面是有效的,但是它们在推广到看不见的特征交互时会遇到困难。因此,基于树的模型不能用于需要对用户和项目的稀疏标识特征建模的协作过滤。
我们可以看到,基于嵌入的模型和基于树的模型在泛化能力和可解释性方面是相辅相成的。因此,要建立一个有效且可解释的推荐系统,一个自然的解决方案是将两种类型的模型结合起来。
3 TREE-ENHANCED EMBEDDING METHOD
我们首先提出了树增强嵌入方法(TEM),该方法结合了稀疏数据建模中的MF方法和交叉特征学习中的GBDTs方法的优点。然后讨论了TEM的可解释性和可检验性,并分析了TEM的时间复杂性。
4 EXPERIMENTS
由于这项工作的主要贡献是产生准确和可解释的建议,我们进行实验来回答以下问题:
( 1) RQ1:与最先进的推荐方法相比,我们的TEM能达到相当的准确度吗?
( 2) RQ2:能通过使用交叉特征和注意力网络使推荐结果易于理解吗?
( 3) RQ3: )不同的超参数设置(例如树的数量和嵌入大小)如何影响TEM?
5 RELATED WORK
我们可以大致将解释风格分为基于相似性和基于内容的类别。基于相似性的方法[ 1,2 ]以最相似的用户或项目列表的形式给出解释。例如,Behnoush等人。[ 1 ]使用受限玻尔兹曼机器计算前K名推荐列表中项目的可解释性分数。虽然基于相似性的解释可以作为解释CF推荐器的通用解决方案,但缺点是缺乏具体的推理。
基于内容的工作考虑了各种辅助信息,从项目标签[ 38,40 ],社会关系[ 31,37 ],用户[ 13,15,28,31,48 ]撰写的上下文评论到知识图表[ 3,8,47 ]。
项目标签:为了解释一个建议,工作[ 40 ]考虑了项目的相关标签和用户的优选标签之间的匹配。
社会关系:考虑到社交网络中的用户友谊,[提出了一个生成模型来研究社交解释对用户偏好的影响。
背景评论:Zhang等人[ 48 ]开发了一个明确的因素模型,该模型结合了用户情感、项目方面以及用户项目评级,以方便生成基于方面的解释。同样,He等人。[ 19 ]从用户评论中提取项目方面,并在混合协作过滤模型中建模用户-项目-方面关系。最近,仁艾尔。[ 31 ]在潜在因素模型中涉及观点、用户情感和项目方面的元组以及可信的社会关系,以提高推荐性能并呈现个性化观点作为解释。
知识图表:知识图表在可解释的推荐上显示了巨大的潜力。Yu等人[ 47 ]引入了基于元路径的因素模型,从信息图中学习的路径可以增强用户-项目关系,并进一步提供可解释的推理。最近,阿拉什卡等人。[ 3 ]用神经推荐方法集成了以逻辑规则表示的领域知识。
尽管取得了有希望的尝试,大多数先前的工作将提取的特征(例如,项目方面、用户情绪或关系)作为因素模型中的单个因素,与IDs相同。因此,很少注意明确发现交叉特征(或特征组合)的影响。
就技术而言,现有的工作也考虑结合基于树和基于嵌入的模型,其中最流行的方法是boosting[ 11,27,49 ]。这些解决方案通常对两种模型的预测进行后期融合。[ 49 ]中提出的GB-CENT由嵌入组件和树组件组成,以实现两种模型的优点。特别是,该中心通过对分类特征进行中频处理来达到中频效果;同时,在数值特征的支持实例上使用GBDT捕捉非线性特征交互。Ling等人[ 27 ]表明,用GBDT增强神经网络在点击率预测中取得最佳性能。然而,这些增强方法仅融合不同模型的输出,可能不足以在基于树的模型和基于嵌入的模型之间充分传播信息。与以前的工作不同,本文将从GBDT中提取的交叉特征作为嵌入模型的输入,方便了两个模型之间的信息传播。更重要的是,项目管理的主要重点是为推荐提供解释,而不仅仅是为了提高绩效。
本文提出了一种树增强嵌入方法,将嵌入模型的泛化能力和树模型的解释能力无缝结合起来。由于从基于树的部分提取的显式交叉特征和易于解释的注意网络,我们的解决方案的整个预测过程是完全透明和可自我解释的。同时,TEM可以达到与最先进的推荐方法相当的性能。
将来,我们将把TEM扩展到三个方向。首先,我们试图共同学习基于树和基于嵌入的模型,而不是分别建模两个组件。这可以促进两个组件之间的信息传播。其次,我们考虑其他上下文信息,如时间、位置和用户情绪,以进一步丰富我们的解释能力。第三,我们将探索将知识图和逻辑规则引入逻辑规则的有效性。