SIGIR2020推荐系统论文解析:Recommendation for New Users and New Items

冷启动问题的解决方案是推荐系统的一个重要的研究热点。本文解析的论文来自顶会SIGIR2020,论文构建了一个新颖的深度学习模型Heater来对新用户或新物品进行推荐。本文旨在理清顶会论文的思路和框架,详情和细节还请参考原始论文:Recommendation for New Users and New Items via Randomized Training and Mixture-of-Experts Transformation

  • 推荐系统中的冷启动问题

推荐系统有以下的几个要素:用户(User)、物品(Item)和U-I历史交互。一般来说,推荐系统通过对用户、物品的历史交互进行建模,通过对每个用户的个性化推荐以实现商业目标最大化。当然,根据场景,具体的的商业目标也是不一样的(比如视频网站希望用户的观看时长最大化、而新闻媒体可能更关注点击率,等等)。而所谓冷启动问题,就是新用户或者新物品没有任何的交互历史,所以常规的推荐系统很难对其进行建模,更没法对其进行个性化推荐了,正所谓“巧妇难为无米之炊”。

  • 冷启动问题的解决方案

新用户或新物品往往会有一些辅助信息,比如新用户的一些人口统计学特征,新物品的一些标签信息等等。一种比较常见的应对冷启动的方案就是利用这些辅助信息的向量表示(auxiliary representations),学习一个函数将这些辅助向量映射到协同过滤空间中去,得到所谓的CF representations,然后通过算内积的形式得到用户和物品间的匹配度得分,继而进行物品的排序、推荐。

辅助信息——协同过滤向量化表示——用户和物品的表示向量算内积得到匹配得分——通过该得分进行排序、推荐

该体系的训练方式又分为两大分支,separate training method和joint training method。首先,我们把通过结合U-I交互信息和辅助信息学习到协同过滤向量表示,再通过内积得到匹配得分的模型统称为CF model,学习这个模型的任务记为任务T1;其次,我们称学习到将辅助信息映射到协同过滤向量表示的函数的任务记为T2。显然,对于有交互的用户和物品(warm start),常规的CF model就可以对其进行建模,而对于没有历史交互的新用户或新物品,则必须完成任务T2。

  1. separate training method:顾名思义,该模式下T1和T2是分开训练的。对于冷启动样本而言,只要将从T2学到的映射函数作用到其辅助信息上,就能得到他的CF向量表示了。需要说明的是,T2的训练集来自于那些warm start样本的辅助信息和之前在T1里学到的他们的CF向量表示。这种训练方式有个缺点,即所谓误差累计问题(the error superimposition problem),因为T2的训练是在T1的训练结果的基础上的,而T1的训练不可能完美无缺,那么从T1那里累计的误差可能会严重影响甚至误导T2的训练。

  2. joint training method:这种方式类似于直接学习T1,直接学习从辅助信息到CF向量,再内积算匹配度,最后传入损失函数。这种训练方式的不足之处在于它试图仅仅利用辅助信息直接映射为CF表示,容易学不到一个好的效果,在论文里作者称之为the ineffective learning problem

另外,这两种方式有一个共同的不足,那就是对于所有的U或I使用单一映射函数将其辅助信息映射为CF表示。而很多时候辅助信息是杂乱无序的,使用单一映射很难保证在任何情况下都能得到较好的CF表示。

  • Heater

由上一节内容可得,现有的方法都存在一些问题,针对这些问题,本文作者构造了一个新的针对冷启动问题的训练框架,称之为Heater。Heater的架构如下图所示:

SIGIR2020推荐系统论文解析:Recommendation for New Users and New Items_第1张图片 Heater框架示意图

 该框架主要的创新点有如下三点,分别对应上一小节提出来的三个存在的问题:

  1. 融合训练:由上图可知,Heater融合了separate training method和joint training method,在一个框架里既有普通CF模型的损失函数,也有衡量将辅助信息向量映射为CF向量的拟合程度的损失函数(similarity constraint),最终的损失函数是这两者的加权和。这种策略能一定程度上缓解error superimposition问题。
  2. 随机初始化训练:所谓随机初始化训练(randomized training),就是以某个概率值使用预训练的CF向量表示(pretrained CF representation)来直接代替辅助信息向量的映射结果(图中的U_{u}^{'}I_{i}^{'})。这样做的目的是以一定概率使用高质量的pretrained CF representation来缓解ineffective learning问题。
  3. Mixture-of-Experts Transformation:这里的transformation指的是将辅助信息向量映射到CF表示向量的转换函数。之前有提到,由于辅助信息表示往往存在诸多问题,很难使用单一的转换函数将其映射为高质量的CF表示向量。为此,论文构造了一个Mixture-of-Experts的转换器,融合多个决策网络的判断,在遇到多样化的辅助信息表示时,能够“个性化”地在不同的情况下使用不同的角度将其映射到CF向量化表示。
SIGIR2020推荐系统论文解析:Recommendation for New Users and New Items_第2张图片 Randomized Training
SIGIR2020推荐系统论文解析:Recommendation for New Users and New Items_第3张图片 Mixture of Experts Transformation

 

在实验阶段,论文作者在三个数据集上和多个baseline进行了对比,详情请参考论文。同时作者也设计了ablation study部分,实验表明,论文的三个创新点均对最终的准确率起到了显著的正面效应。

 

你可能感兴趣的:(论文解析,推荐系统,深度学习,人工智能)