推荐系统中 纯用户冷启动问题研究

纯用户冷启动

    • 一、简介
    • 二、研究动机
    • 三、相关工作
    • 四、纯冷启动处理思想
      • 四个非个性化推荐系统基线
        • Coverage-based RSs
      • 互补性分析(H2假设)
        • 评估指标
        • H2假设的有效性
        • 推荐的质量
        • 用户转化率结果
        • A/B测试结果
    • 五、总结

今天总结一下上周读的一个纯用户冷启动的论文:
The Pure Cold-Start Problem: A deep study about how to conquer first-time users in recommendations domains

一、简介

纯冷启动问题Pure cold star problem区别于一般冷启动cold star的一点是无法从第三方获取任何有关用户的信息,即它指的是推荐系统(RS)的功能,可为没有历史数据的用户提供有用的推荐。作者基于用户覆盖率最大化引入了两个新的RS来缓解此问题:Max-Coverage 和 Category-Exploration。

二、研究动机

推荐系统面临的挑战是为刚刚开始使用系统进行迭代且没有任何相关信息的用户提出有用的推荐。由于许多用户可能通过隐身导航或由于隐私问题而禁用的社交网络访问系统,因此该问题被称为“纯冷启动”,并在许多实际的Web场景中发生。在这种情况下,从Cookie,社交网络或历史浏览记录来获取相应的信息就是不可能的或者代价及其昂贵的。此外,纯冷启动问题会影响主要业务KPI(关键绩效指标),原因有两个:它可能会确定用户对商品目录的第一印象,并影响首新用户向常驻客户的转化率。这项工作旨在对“纯冷启动”问题进行深入研究,以发现改进常规假设的机会。传统上,电子商务所有者认为受流行度,新鲜度和正面评分影响的商品有可能满足大多数首次使用者的兴趣。但是,例如,对于对与流行商品不同的特定商品感兴趣的用户,这种假设是不正确的。为了验证此观察,我们在实际场景中检查了与之相关的三个假设:
假设H1:不可忽略的一部分用户对非热门商品的消费偏好存在偏差;
假设H2:基于用户覆盖率最大化的非个性化RS缓解了纯冷启动问题;
假设H3:混合互补的非个性化RS比混合传统的推荐系统更有效地缓解了纯冷启动问题问题;
H1说得就是不是所有人都喜欢热门产品的,尤其是在娱乐和电子商务场景中。
H2假设为了满足不同的新用户,RS应该在推荐与适合不同用户配置文件的项目之间取得平衡。为了验证该假设,我们评估了三种最新的RS和两种新颖的策略,这项工作提出了这些策略以利用用户覆盖率最大化:
(1)最大覆盖率:选择覆盖大量不同用户的项目;
(2)类别浏览:选择与不同用户配置文件相关的项目。
最近在其他RSs问题中评估了最大覆盖率,而类别推荐则受到推荐领域中行为研究的启发。
H3就是个性化推荐混合非个性化推荐性能会更好。显然,在没办法拿到用户信息的时候非个性化推荐就是唯一手段。
离线实验表明,我们的推荐是对传统RS的补充,从而增强了H2的相关性,并提出了一个重要的研究问题:如何撰写产品页面以吸引最大数量的新用户?如H3所述,我们建议使用互补的RS构成产品页面。通过236个真实用户进行的在线实验,将三种传统方法与互补方法进行了比较,以确认我们RS的实际实用性。因此,作为主要结果,本研究突出了一个明确的信息:我们应该撰写包含混合的非个性化RS的产品页面,以征服大多数新用户。此外,我们指出了这项工作的相关贡献:(1)文献中尚未研究的与纯冷启动有关的假设的评估; (2)提出了两种新颖的解决方案(灵感来自面向用户覆盖的RS),以缓解纯冷启动问题; (3)关于这项研究的实际意义的讨论,在此我们提出了一种构成产品页面的新方法。

三、相关工作

在文献中,术语“纯冷启动”用于指代冷启动问题的子任务,这两个问题应以不同的方式解决。问题与为新用户生成推荐有关,这些用户的消费历史很小且相关性很小。另一方面,在“纯冷启动”中,用户刚刚开始在没有任何个人信息相关联的情况下对系统进行迭代(即新用户)。此外,尽管在冷启动问题中存在许多向消费历史短的用户推荐商品的策略,但在纯冷启动中,很少有能够满足新用户的策略。经过广泛的文献回顾,我们确定了旨在解决纯冷启动问题的RS的三个主要类别:(1)知识RS; (2)社交过滤RS; (3)非个性化RS。
(1)知识推荐系统。知识RS尝试在第一次用户交互中使用小型调查表查找任何用户信息。 [16]提出了一种根据用户提供的答案改变矩阵分解过程的策略。在[17]中,作者在教程中介绍了知识RS中吸引和简化与用户的交互所必需的几个方面。最近,He等人。 [18]对几种知识RS进行了广泛的讨论,指出了与这些方法相关的主要挑战。作者认为,推荐的质量取决于用户提供的信息,而用户可能无法清楚地定义他们的偏好。
第二类利用有关用户的外部信息,例如社交,人口统计和/或个人数据。通常,这些RS使用此类信息为用户的个人资料建模,并使用混合策略来推荐项目[19-22]。在[19]中,当存在关于用户的社交信息时,作者提出了混合RS减轻冷启动问题的优势。在[20]中,作者提出了人口统计过滤RS,该RS通过其人口统计信息(例如年龄,性别和职业)将新用户与活跃用户相关联。反过来,[23]提出了一种CF社交信息的混合方法,它使用通过社交网络获得的信息来提高推荐的质量。在[21]中,作者使用在Facebook页面上发布的评论来获得初步的用户资料并生成推荐。尽管这些RS获得了巨大的优势,但是这些方法在电子商务场景中并不常用,在电子商务场景中,许多用户对购买产品感兴趣而不提供任何社会或人口统计信息[22]。
另一方面,非个性化的RS利用有关项目和用户的全局信息来提供推荐[2]。这些推荐独立于目标用户,对于该域的所有新用户而言都是相同的。简单性,领域独立性和效率使这些非个性化方法可用于几种实际情况中,以解决“纯冷启动”问题。电子商务应用程序使用的大多数非个性化RS都利用三个关键特征:商品的受欢迎程度,商品收到的评分以及消费的最近时间[24]。
但是,这些策略针对的是特定的个人资料,偏向对满足给定人口很大一部分的商品感兴趣的用户。由于这个原因,结果多样化的概念已经从投资者关系领域引入了推荐系统[25,26]。通常,基本RS推荐的项目根据给定的多元化目标进行重新排序[27-29]。在这项工作中,我们将推荐的项目多样化,以最大程度地扩大用户覆盖范围。我们的重点是纯冷启动问题,其中只有非个性化的RS才能处理该问题。因此,我们将分析限于第三类。

四、纯冷启动处理思想

验证H1假设
本节中的目标是研究假设H1:通过评估两个相关的问题,来验证该假设——“一部分不可忽略的用户表现出偏向非热门商品的消费偏好”。
H1-Q1:用户的消费相较于流行度有多大的偏差?
H1-Q2:是否可以创建具有相似消费选择的用户类别?
使用的数据集统计数据如表一所示。
推荐系统中 纯用户冷启动问题研究_第1张图片
(1)MovieLens 1M和10M数据集以模拟电影娱乐场景; (2)与DVD购买相关的CiaoDVD(与DVD购买相关的)和与游戏购买相关的亚马逊,以模拟电子商务场景。所有这些数据集均由用户在1至5范围内分配评分。此外,这些数据集包含与用户相关的时间戳,用于定义首次使用的用户。
在在这项工作中,作者从分布的开头将流行的项目定义为ML-1M,ML-10M,Amazon.com和CiaoDVD数据集分别为8%,5%,4%和3%。然后,计算每个用户的消费历史记录中的热门商品数,并通过历史记录大小对其进行归一化。结果如图一所示。
推荐系统中 纯用户冷启动问题研究_第2张图片
该图分析回答了第一个问题,重点介绍了与商品受欢迎程度相关的三种用户行为:(1)喜欢热门商品的用户,几乎有100%的时间选择热门商品;(2)喜欢其他商品的用户,几乎0%的时间选择热门商品,即不选择热门商品;(3)同时选择热门商品和其他商品的用户,在30%到70%的时间内选择热门商品。
在ML-1M,ML-10M和Amazon场景中,很少有用户对主题(1)和(2)具有完全线性的行为,即排名值等于100%或0%。反过来,在CiaoDVD数据集中,有用户(40%)仅消费流行商品,而其他用户(40%)仅消费非流行的其他商品。在这种情况下,由于有大量可用产品,因此某些用户对非常少的产品评分。这些结果回答了H1-Q1问题,表明存在对最流行商品以外的其他商品感兴趣的用户是不可忽略的部分。也就是说,仅针对流行度来做非个性化推荐是不够的。
推荐系统中 纯用户冷启动问题研究_第3张图片
该图回答了第二个问题,即可以创建有相似消费选择的用户类别。目的也是为了为用户做类推荐。
简而言之,两个答案都为改进针对纯冷启动的最新非个性化RS提供了机会。与传统的假设相反,我们显示了用户对不同于流行商品的偏好。此外,我们发现了对有偏差项目感兴趣却没有检索到的用户类别。因此,我们基于用户覆盖率最大化来构建新的RS,以解决这两个问题。

四个非个性化推荐系统基线

Popularity (Pop):根据受欢迎的程度来推荐。
Best-Rated (BestR):根据评分推荐。
Recent Items (RecItems):根据最近消费时间来推荐。
Random Popularity (RandP):随机推荐受欢迎的商品。

Coverage-based RSs

考虑到本节开头描述的假设的答案,我们提出了两个非个性化的RS。我们使用最大k覆盖率方法提取与许多用户(H1-Q1)相关的项目。此外,我们提出了Category Exploration,这是一种针对每个不同用户组(H1-Q2)探索特征项的新方法。两种方法都可以最大程度地扩大用户覆盖面,以达到不同的用户个人资料。
Max-Coverage (MaxCov):受到著名的最大k覆盖问题的启发。最大覆盖率是NP-Hard,没有多项式时间最优解。在实践中,此方法实现为贪婪算法。此算法选择的项应使每次迭代所覆盖的用户数量最大化。对这种策略的表面分析可以得出结论,即所选商品是最受欢迎的商品(即,被最大数量的用户消费的商品)。但是,实际上,贪婪算法会选择覆盖最大数量用户的项目,而忽略先前覆盖的用户。因此,在每个选择步骤中,所选项目都不如前一个项目受欢迎。
Category-Exploration (CatEx):这项工作提出的目的是使初次使用的用户具有来自每个用户类别的代表项。类别的代表性项目是与该类别中的任何用户的偏好相匹配的机会最高的项目。因此,目标是从所有用户类别中找到k个代表项。在实践中,我们用贪婪算法找到了k个代表项。首先,我们通过采用用户项关系的任何聚类算法将这些用户分类。根据文献,我们建议使用以其简单性和有效性而闻名的k-means算法。接下来,在每个步骤中,算法都会从每个类别中寻找数量最多的用户喜欢的商品。换句话说,Category-Exploration会寻找每个类别,以找到本地解决方案以构造针对该问题的最佳解决方案。

互补性分析(H2假设)

在本部分中,我们调查H2的假设“基于用户覆盖率最大化的非个性化RS缓解了纯粹的冷启动问题”。为此,我们得出并评估了三个相关的问题:
H2-Q1:提出的RS与传统RS有何相似之处?
H2-Q2:提出的RS的有效性是什么?
H2-Q3:提出的RS是否征服了相同的用户或互补子集?
依旧使用表一的数据。
首先,我们模拟了集合中新用户的存在,如下所示。通过考虑每个用户在我们历史数据中的第一个动作时间,我们定义了用户的完整时间顺序。然后,我们将最后20%的用户选为首次使用,因为他们会展示每个集合中的最新操作。我们选择了ML-1M的1277用户,ML-10M的10,633用户,CiaoDVD的3523用户和Amazon的1612用户。最后,我们使用选定用户的所有历史数据来构成测试集,并将它们从用作评估RS的输入的训练集中删除。这是模拟用户首次访问系统的真实场景的最佳近似值。
推荐系统中 纯用户冷启动问题研究_第4张图片
为了吸引具有不同偏好的初次使用用户,仅假设策略仅关注商品对用户的有用性是不够的。多样性,覆盖范围和惊喜度对于新用户来说都是重要的。

评估指标

Hit Rate:HitRate(u) = |Ru ∩ Iu|。代表从推荐项目R列表中正确推荐的项目数量。
F-Measure:,代表经典精确度和查全率指标的谐波均值。精度是所选项目的相关概率,而召回则表示所选项目的相关概率。
Intra-List Distance (ILD) :,通过所有项目对之间的平均距离来衡量推荐项目集的多样性。
Genre Coverage:,是推荐给用户以衡量用户兴趣的流派(即商品特征)的平均比例[9]。此度量标准是为用户集定义的,是推荐给每个用户的不同流派数的平均值。

H2假设的有效性

推荐系统中 纯用户冷启动问题研究_第5张图片
图4的维恩图显示,所有方法都推荐至少共同使用一项。具体来说,Pop和BestR方法之间的交集相当于70%(ML-1M),80%(ML-10M)和100%(CiaoDVD和Amazon)。另一方面,有些项目仅由MaxCov和CatEx推荐。在ML-1M,ML-10M和Amazon.com方案中,只有CatEx推荐70%和50%的物品(即7和5物品)。在这些相同的情况下,30%,50%和20%的项目(即3、5和2个项目)仅出现在MaxCov生成的推荐列表中。这些结果表明我们的推荐与传统的RS之间存在互补性。
推荐系统中 纯用户冷启动问题研究_第6张图片
另外,作者评估每种策略推荐的前10个项目的受欢迎程度,如图5所示。观察到,除BestR之外,所有方法都推荐不受欢迎的项目。实际上,在每次迭代中,MaxCov都会推荐比前一个项目不受欢迎的项目。 CatEx还通过不受欢迎的商品使传统RS的商品多样化。不出所料,BestR策略的性能与Pop相似,因为推荐的项目几乎总是相同的。 RecItems和RandP没有类似于传统RS的项目,它们也使用非受欢迎的项目使推荐多样化。简而言之,这些分析加强了H2,因为:(1)传统方法非常相似,因为它们推荐相等。 (2)新方法是对传统方法的补充,因为它们推荐了不同的项目。

推荐的质量

从上述的4个指标看,作者提出的互补性RS性能都不错
推荐系统中 纯用户冷启动问题研究_第7张图片
推荐系统中 纯用户冷启动问题研究_第8张图片
推荐系统中 纯用户冷启动问题研究_第9张图片
推荐系统中 纯用户冷启动问题研究_第10张图片
推荐系统中 纯用户冷启动问题研究_第11张图片
推荐系统中 纯用户冷启动问题研究_第12张图片
推荐系统中 纯用户冷启动问题研究_第13张图片

用户转化率结果

推荐系统中 纯用户冷启动问题研究_第14张图片

A/B测试结果

推荐系统中 纯用户冷启动问题研究_第15张图片
推荐系统中 纯用户冷启动问题研究_第16张图片

五、总结

这项工作旨在增强向初次用户发布的推荐,从而缓解纯冷启动问题。系统做出的假设:因受欢迎程度,新近度和正面评分而产生偏差的商品有可能满足大多数首次使用者的兴趣,但并非总是如此。在娱乐和电子商务的主要场景中,有些用户对与传统RS推荐的商品不同的商品感兴趣。
此外,在每个域中还存在与用户的兴趣本质上相关的其他配置文件维度。因此,我们提出了两个RS,以在面向配置文件的维度上平衡建议。 MaxCoverage和Category-Exploration旨在探索用户覆盖面,以使推荐的商品多样化并征服更多的初次用户。
作为主要贡献,这项研究为RS的研究和专业人员提供了清晰的信息。没有任何一种方法能够满足大多数首次使用用户的需求。为了增强对这部分用户的推荐,我们应该组合混合互补的非个性化RS的产品页面。考虑到越来越多的用户关注隐私问题,“纯冷启动”问题往往会受到更多关注,这项工作可能会成为未来研究的指南。
在将来的工作中,我们打算评估更改用户与系统的起点(即第一次互动)的影响。我们的结论提出了三个新的研究问题:(1)这些新的初始建议如何影响用户需求? (2)对目录项的受欢迎程度有什么影响? (3)在这些新情况下,现有的最新RS的性能如何?

你可能感兴趣的:(推荐系统,冷启动,推荐算法,冷启动,用户冷启动)