在篇文章中,提出了一个神经网络模型Neural Attentive Item Similarity model(NAIS)基于项目的CF. 设计NAIS的关键是一个attention network,它能够区分用户配置文件中哪些历史项对预测更重要。 与最先进的基于项目的CF方法因子项相似性模型(FISM)相比,我们的NAIS具有更强的表示能力,只有少数附加参数由attention network带来。 两个公共基准的广泛实验证明了NAIS的有效性。 这项工作是第一次尝试设计基于CF神经网络模型,为神经推荐系统的未来发展开辟了新的研究可能性。
在本文中,大佬们提出了一个增强的项目相似性模型,通过区分受影响项目的不同重要性,有助于用户的偏好。NAIS模型建立在FISM之上,在线预测的高效率方面保留了与FISM相同的优点,同时通过了解交互项目的不同重要性,比FISM更具表现力。
1、模型背景准备
1.1 Standard Item-based CF
基于项目的CF的预测模型是:
其中表示用户已交互的项目集;是一个0或者1的值,代表用户是否与有互动;代表项目和的相似性。
1.2 Learning-based Methods for Item-based CF
SLIM (shortfor Sparse LInear Method)——通过它来学习项目的相似性优化推荐感知目标函数。
目标函数来最小化如下:
其中,代表用户的数量;代表项目的数量;代表项目之间的相似矩阵;和都是正则化参数。
SLIM是存在某些局限性的,因此提出了FISM:
其中,是一种超参数,控制标准化效应,表示embedding向量。
虽然FISM在基于项目的CF方法中提供了先进的性能,但作者们认为其表示能力可以通过在获得用户表示时对用户的所有历史项目的等同处理来限制。 但是这种假设对于真实世界的数据是违反直觉的,并且可能降低模型保真度。提出的NAIS模型通过区分历史项目与神经注意网络的重要性来解决FISM的这种局限性。
2. Neural Attentive Item Similarity model(NAIS) 模型介绍
2.1 初始模型设计
最初的关注点是模型的不同部分可以为最终预测做出不同的贡献(即参与)。 在基于项目的CF的场景中,我们可以通过为每个项目分配个性化的权重,直观地允许历史项目对用户的表示做出不同的贡献
其中是一种可训练的参数,表示在预测用户对目标项目的偏好时项目的attention权重。这就存在一个问题,如果一个项目对从未在训练数据中共同发生(即,没有用户与和没有相互作用,则就无法计算出来,估计将是一个微不足道的数字。
为了解决以上问题,作者们考虑把与相关联起来。这种参数化的优点是即使一对从未共同发生过,只要从数据中可靠地学习了,它们仍然可以很好地估计。
作者们考虑两种方式定义attention网络:
其中和分别是将输入投影到隐藏层的权重矩阵和偏向量,而是将隐藏层投影到输出attention权重的向量。 将隐藏层的大小称为“attention factor”,其中较大的值为attention网络带来更强的表示能力。 使用Rectified Linear Unit(ReLU)作为隐藏层的激活函数。
把总体设计写成如下形式:
遗憾的是,作者们发现这种标准的解决方案在实践中并不能很好地发挥作用,后来意外地发现问题源于softmax功能。虽然使用softmax可以正确地标准化注意力。但是,这样的用户历史数据不再存在场景,自用户的历史长度(即历史数量)用户消费的项目可能有很大差异。定性说来,softmax函数执行L1归一化关注重量,可能会过度惩罚多数历史悠久的活跃用户。
2.2 最终NAIS模型
我们建议平滑softmax,以减轻对活跃用户的attention惩罚,同时减少attention权重的差异。 形式上,NAIS的预测模型如下:
其中,是平滑指数,设置在范围内。当设置为时,它恢复了softmax功能; 当小于时,分母的值将被抑制,attention权重不会因为用户的活跃而受到过度惩罚。
损失函数:
其中代表训练集数量。将预测,就是用户将与项目交互的可能概率值。
此外,结构图如下所示。
2.3 NAIS的三个属性
时间复杂度分析。评估NAIS预测的总时间复杂度可降为,是FISM的一倍。
实习个性化分析。对于实时个性化,需要实时监控用户行为,用户在对某个商品交互后,实施推荐系统同时更新用户的推荐列表。因为重新训练整个模型不现实,一般都选择更新模型参数,然而因为用户行为可能并行发生,更新模型的固有参数会发生冲突,虽然可以通过分布式结构来解决但是分布式往往需要更多的消耗。本文的算法在实时问题上有很好的解决方式,首先用户的特征可以直接通过加法更新,时间消耗基本是常数级的。
attention功能的选择。从公式中可以看出,本文设计了两种不同的注意力模型结构,一种是直接将和直接连接在一起,组成不同shape的特征矩阵,另一种则是计算和的点乘。前者保留了商品特征的原始结构,但是因为矩阵的结构发生变化可能导致网络难以收敛。后者的矩阵结构满足学习的目标,但是丢失了学习的商品特征。两种结构各有利弊,也是作者设计两种模型的原因。
3 EXPERIMENTS实验
3.1 实验设置
3.1.1 数据集与评估协议
数据集如下:
评估协议:
我们采用leave-one-out(留一法)来做评估。将每个用户的最新交互作为测试数据,并使用剩下的交互进行培训。具体而言,每个测试实例与99个随机采样的负实例配对;然后,每个方法输出100个实例的预测分数(1个正加上99个负),以及每个测试实例性能由位置10的命中率(HR)和标准化的折扣累积增益(NDCG)来判断。其中HR@10可以被解释为一种基于召回的度量,它指示成功推荐的用户百分比。(也就是说,正实例出现在前10位),NDCG@10是一种基于精度的度量方法,它说明了正实例的预测位置,越大越好。
对比的推荐系统方法有如下:Pop、Item KNN、FISM、MF-BPR、MF-eALS、MLP
参数设置:
对于每种方法,我们首先在没有正则化的情况下对其进行训练;如果观察到过拟合(即训练损失不断减少,但性能变差),则调整正则化系数。在范围内。文中报告了NAIS在以下默认设置下的性能:1),2),3),4)Adagrad,学习速率为,5)预训练使用FISM嵌入。
3.2 结果对比
上图显示了FISM的稳定性能和我们的两个NAIS方法在embedding大小为16的结果。当epoch大于2左右时,NAIS的HR和NDCG都远超过FISM。我们可以清楚地看到使用attention网络的有效性。
从上表可以看出,NAIS模型在两个数据集中的表现是最好的(embedding size=16)。下面我们来看看embedding size为其他的对比。
我们可以看到,性能趋势一般与embedding size=16的观察结果一致。我们的NAIS方法在大多数情况下都能达到最好的性能,唯一的例外是embedding size8,其中MLP的性能最好。这是因为当嵌入尺寸很小时,线性模型受到小embedding size的限制,而非线性模型则是有限的。ELS比线性模型更容易表现出更强的表示能力。
上图展现了无论attention因子的怎么设置,两种NAIS方法都优于FISM。在这两种方法中,NAIS-prod受attention因子的影响较小,而NAIS-concat受attention因子的影响较大。使用一个大型的可以补偿两者之间的性能差距.这意味着使用表达模型来学习注意力权重是有用的。
上图是关于参数设置的对比图,可以很明显地看到,当时,NAIS开始出现大幅度地性能下降,这就验证了当时增加这个平滑指数的必要性。
参考:
论文调研--NAIS -TKDE2018 -