Social Recommendation with Missing Not at Random Data (ICDM 2018)中文翻译(一)

第一部分 带图的文章链接:https://blog.csdn.net/ciecus_csdn/article/details/84454425

第二部分 算法以及实验部分链接:https://blog.csdn.net/ciecus_csdn/article/details/84454128

第三部分 参考文献:https://blog.csdn.net/ciecus_csdn/article/details/84480998

摘要

         随着在线社交网络的爆炸式增长,很多社交推荐算法被提出并且证明了社交信息可以被用来提升推荐效果。但是现存的社交推荐方法总是假设数据是随机丢失的(MAR),但是现实生活中很少存在这种情况。我们观察了两个现实社交推荐数据集,发现以下两个现象:(1)用户通常会消费他们喜欢或者他们朋友购买过的商品(2)更多朋友消费该商品时,物品的评分低于现有模型预测的分数。为了对这些现象建模,我们在社交推荐中引入MNAR假设,并且提出一个新的社交推荐模型SPMF-MNAR,这个对用户评分过程建模。在现实大规模数据集上的实验验证了SPMF-MNAR比现存其它模型获得了更优的效果。

第一部分  介绍:

现今推荐系统已经成为很多在线服务商比如亚马孙和IMBD中的一个核心部分。协同过滤(CF)是非常流行的推荐模型,通过用户的历史反馈预测用户喜好和生成推荐。现实生活中,人们只会消费或者评分少部分物品,因此传统CF算法面临着稀疏问题,为了解决这个问题,很多算法提出在推荐系统中引入社交信息,这些方法通过对社交关系对用户评分的影响去证明基于社交的CF模型有改善推荐效果的潜力。【论文1-3】

但是,现存社交推荐算法统采用MAR假设,也就是说用户购买物品(用户评分过程)是用户评分是无关的【论文4】。事实上,MAR假设不适用于推荐数据【论文5】,因为用户通常会购买他们喜欢的东西【论文6-8】.相关的,通常高评分通常在评分矩阵中,低评分经常缺失。当MAR假设不成立时,之前的社交推荐算法在预测上存在偏差,并且推荐效果受损【论文7】。

为了更好的理解在社交推荐中评分数据的产生过程,在这篇论文中我们对两个知名的社交推荐数据集做了一个系统的分析:(1)用户倾向于消费和评分他们喜欢的物品。(2)用户倾向于购买他们朋友购买过的物品。(3)社交影响对用户购买情况的影响大于对评分的影响。 事实上,当一个物品被我们更多朋友消费的时候,物品的实际评分比现在的模型预测分数低。理由如下:在社交影响下,我们有时候会买一些不符合我们口味的东西,因此,这些物品的评分会低于其它消费品。

根据我们的观察结果,在这篇论文中我们在社交推荐中引入MNAR假设,并且提出了一种新的推荐算法SPMF-MNAR。SPMF-MNAR对评分观察过程和评分都同时建模。正如图1所示,一方面SPMF-MNAR根据社交影响和他们个人喜好预测用户的消费情况(也就是评分观察过程),另一方面采用传统CF模型,根据用户喜好去预测评分。特别的,和其他专注于探究社交影响对用户评分影响的预测模型不同,我们专注于探究社交影响对是否会评分的影响过程。我们使用SVI(stochastic variational intergerence)接口去加速我们的模型。我们的实验证明了,我们的模型的有效性。

我们文章的主要贡献如下:

  1. 我们提出了在社交推荐中,缺失数据不是随机的思想,并在接下来的实验中在真实数据集上探究了以下几个问题:(1)在社交推荐中应用MNAR模型是有好处的么?(2)哪些因素会促进用户消费?
  2. 我们提出了一种新的社交推荐的概率模型SPMF-MNAR,这个模型通过把基于社交关系生成的评分过程融入经典的CF评分预测模型中,此外,我们建立以一个高效的随机变量法去去推理我们后面的概率模型。
  3. 我们通过大型现实数据集评估,证明了我们的方法基于MNAR假设在社交推荐方法和非社交方法上都优于现在的最优算法。

   本篇论文的剩下部分将讲述以下内容:在第二部分简要概述了相关工作,第三部分将讲述社交实验分析,第四部分我们展示了SPMF-MNAR模型的细节,第五部分展示了实验结果和分析。文章的最后我们总结了全文,并且提供了未来工作的方向。

第二部分 相关工作:

随着用户评论信息的指数性增长,推荐系统在学术和工业领域越来越受关注。对于有显示反馈的系统(例如评分系统),近二十年不断针对协同过滤准确性和规模性的研究从未中断。因此。我们回顾和我们研究内容最相关的两个领域的内容:一方面是社交推荐相关的,另一方面是基于MNAR假设的推荐。

社交推荐:为了解决传统CF模型冷启动的局限问题,很多通过把社交信息融入推荐系统的模型被提出。【论文11-15】这些方法的基本假设是相连接的用户都有类似的喜好,比如,例如一些社交推荐方法包括:SoRec【论文16】,TrustSVD【论文3】,PSLF【论文17】,把评分矩阵和社交(信任)矩阵在共享同一个潜在的用户空间后联合分解。阳【论文18】后来将SoRec模型扩展到他们的TrustMF混合模型中。TrustMF混合模型包括了一个信任者模型和一个被信任者模型。他们相信无论活跃用户是信任者还是被信任者都会影响其余用户的评分。此外,一些方法归一化了社交网络中的规则【论文11,19,20】去研究社交关系对评分的影响。特别的,SocialMF【论文19】介绍了一种新的规则项去限制潜在的喜好靠近他信任的朋友的均值。在其他方法中【论文21-24】,用户评分都考虑了用户喜好和社交影响的混合结果。特别的,RSTE【论文21】模型中,用户评分的数值是通过用户自己的喜好和朋友的喜好共同生成的。

但是现有社交推荐算法通常都假设评分数据是随机丢失的(MAR)。事实上,我们在第三部分的分析中,证明了这个基本假设是不对的。隐私,在没有对评分过程观察的情况下,对评分的推断是有偏差的,而且准确率会受损【论文7】。此外,我们观察了社会关系对用户购买行为的影响比对用户评分的评分的影响更大。所以对于在观察用户评分行为(即用户购买过程)会是有趣并有效的,但是并没有人研究这个工作。

基于MNAR假设的推荐:最近大多数的CF方法都假设CF数据是随机丢失的。也就是说,选择观察数据的过程是和未观察数据值是无关的。但是,就想论文【4】【5】【7】【8】中提到的一样,当MAR假设不成立时,所有的推断都是有偏差的而且预测效果会受损。事实上,有很多证据表明CF数据缺失不是随机的(MNAR)【论文5,6】。因此,为了解决这个问题,一些机遇MNAR假设的CF算法在近十年被提出。这些方法生成了了用户的消费过程去对用户是否会购买(评分)以及用户评分进行建模。Marlin 和Zemel【论文4】通过混合多项式(MM)模型去预测用户评分并且根据评分值推测消费。Hernandez-Lobato 等人【论文7】观察到混合多项式(MM)模型灵活性太差,并且发现了矩阵分解的好处,因为他们概率矩阵分解模型区处理不是随机丢失的(MNAR)CF数据。最新的,Ohsawa等人【论文6】在研究了用户消费东西的原因和用户评分之间的依赖性后又把PMF【论文10】中的模型发展为GPMF模型。因此,用户的消费情况被添加到GPMF模型中去控制不同潜在维度在评分矩阵上进行概率矩阵分解的权重。

但是,所有的方法都忽略社交关系对用户行为的影响。事实上,在社交网络链接的用户通常会有意无意相会推荐商品,所以社交关系毫无疑问会影响他们的消费行为。【论文25,26】因此,本文提出SPMF-MNAR模型,对社交影响对用户消费行为建模,从而更好的研究用户对物品的喜好。

第三部分  在社交推荐数据集中的用户消费行为

在这个部分,我们对两个基于社交推荐的数据集Epinions和Ciao做了一个全面的分析。我们的分析主要是为了解决以下几个问题:(1)在社交推荐中引入MNAR假设是有利的么?(2)哪些原因促进了用户的消费?

  • 数据集介绍

我们采用了Epinions和Ciao数据集作为我们社交推荐分析和实验的数据。Epinion和Ciao是两个知识分享的网站,用户在网站里对他们消费过的物品进行评分,评分区间在1~5之间。这些数据集报好了以下几种信息:消费信息—一个用户消费了哪些商品,因为用户在评分之前必须消费这个商品,所以这应该是观察评分过程的一部分。【论文6】还有评分信息,意味着用户给他消费过的物品的评分值。此外,这些数据集还包含了社交信息,每个用户在网站中都有一个朋友列表,这个列表可以直接用来构建一个用户的社交网络。因此,Epinions和Ciao数据集是社交推荐分析的理想数据集,所以被广泛使用,数据集的统计信息被展现在列表1中。

表1:数据集的统计信息

特征

Epinions

Ciao

用户数

49289

7375

物品数

139738

106797

评分数

664824

280391

评分密度

0.0097%

0.0356%

边数

487183

111781

边密度

0.0201%

0.2055%

  • 社交推荐中用户消费情况分析

为了解决上述问题,我们做了五个统计分析。(1)我们计算了这些被消费的物品的评分情况的分布,如图2(a)所示(2)我们计算了链接用户的评分相似性和消费相似性,评分相似性系数用pearson系数评估,消费相似性用jaccard系数评估。为了做对比,我们还计算了两个随机用户之间的评分相似性和消费相似性的均值,结果都被展现在图2(d)(e)中。(3)我们我们根据用户的共同好友数,把他们划分为不同的小组。我们计算了每个小组的平均评分相似性和消费相似性,结果被展示在图2(f)(g)中。(4)我们把观察到的评分根据有多少个好友消费过它划分成不同的小组,然后我们计算了平均评分和低分率(低于3分)结果被展示到图2(b)(c)中。

从结果中,我们可以观察出4个重要的结论。

观察结果1:用户倾向于消费(评分)他们喜欢的物品

如图2(a)所示,超过70%的评分大于3,只有少于15%的数据小于3.用户对他们消费过的商品打高分,意味着用户倾向于购买他们认为他们会喜欢的物品,这个结论和论文4中的发现是相同的。他们在线做了一个测试去收集对于随机商品用户的评分,然后发现用户对于随机商品的评分是远低于用户对于他们自己消费过的商品的评分。

观察结果2:用户倾向于消费(评分)他们的朋友消费过的商品

观察结果3:朋友对用户消费的影响大于对评分的影响

如图2(d)(e)所示,链接用户通常会消费更多的相同午评,但是我们的评分并没有比随机用户组合对于他们的消费评分有更多的相似性。与此同时,随着共同好友数量的增加,用户消费的商品会有更高的重合性,但是他们的评分值并没有随着他们共享关系的增加而增加。因此,和用户评分相比,用户消费情况更容易受到社交关系的影响。

观察结果4:消费了这个这个商品的朋友越多,用户对该商品的评分越低

    如图2(b)(c)所示,当物品被更多朋友消费之后,用户的评分越低,并且低分率越高。

基于以上观察结果,我们可以回答上面提到了两个问题。

结论1:在社交推荐中应用MNAR模型是有益的

一方面,基于我们的观察,我们可以得出结论评分数据不是随机丢失的。特别的,用户倾向于消费他们喜欢的物品,并且低评分通常是缺失项,基于观察结果1.当我们处理MNAR数据但是不基于MNAR的假设,推断会有变差,预测的准确性也会受损。另一方面,就如同观察结果3中所提到的,用户消费更容易收到社交关系影响。所以说研究社交关系对消费的影响可以让我们更准确的研究用户真实的喜好,

结论2:用户的消费情况可以认为收到用户个人喜好和社交影响双方面的影响

一方面,喜好应该发生在选择之前。【论文28】当用户决定要不要购买某个商品时,他们会衡量他们时候会喜欢这个商品【论文7】.另一方面,在社交网络中,我们都属于内容共享的社区【论文29】.用户被显式链接,并且会有意无意向他们的朋友推荐商品或者服务。【论文17】我们朋友购买过的商品更容易引起我们的注意力,并且会存储进情景记忆中【论文25】,这些都会促进我们的消费【论文26】。因此观察结果4就被很好的解释了。和朋友圈中流行的商品相比,用户对于那些不流行商品的消费更多是基于他们自己的喜好。因此,当物品被更多朋友消费是,评分会下降。

【具体算法实验方法和实验结果看下一篇】

 

你可能感兴趣的:(Social Recommendation with Missing Not at Random Data (ICDM 2018)中文翻译(一))