推荐算法炼丹笔记:阿里序列化推荐算法MRIF

MRIF: Multi-resolution Interest Fusion for Recommendation(SIGIR2020)

v2-071e132c7353c2be34deb925be1bf617_b.jpg
作者:一元,公众号:炼丹笔记

背景

本文分享阿里的最新的工作,该工作中的aggregator很简单而且在我这还略有提效,希望能对大家也能带来帮助,提前完成年终KPI!

个性化推荐的主要任务是根据用户的历史行为来获取用户的兴趣。推荐系统的最新进展主要集中在使用基于深度学习的方法精确地建模用户的偏好。用户兴趣有两个重要的属性,

  • 用户兴趣是动态的,并且随着时间的推移而演变;
  • 用户的兴趣有不同的分辨率,或者精确地说是时间范围,比如长期偏好和短期偏好。

现有的方法要么使用递归神经网络(RNNs)来解决用户兴趣的漂移,而不考虑不同的时间范围,要么设计两个不同的网络分别对长期和短期偏好进行建模。本文提出了一种综合考虑用户兴趣的多resolution兴趣融合模型。该模型能够捕捉用户兴趣在不同时间范围内的动态变化,为组合多resolution用户兴趣进行预测提供了有效途径。

提出的方案


推荐算法炼丹笔记:阿里序列化推荐算法MRIF_第1张图片

Interest Extraction Layer

v2-69d59bd4da9267cdb3e58e65395c51be_b.jpg

用户在每一步的兴趣可以被建模为一个隐藏变量,这个变量不能直接观察到,通过历史行为来估计。以往的研究使用隐马尔可夫模型(HMM)来预测用户的潜在兴趣,通过最大化隐藏用户兴趣下行为序列的概率。然而,HMM模型的状态非常有限,不能有效地表达用户的兴趣空间。DIEN选择基于GRU的RNN作为用户兴趣抽取器,这对于长序列是非常耗时的。有些文章提出的Transformer网络依赖于self-attention而不是recurrence,这是一种更快,更有效的方法。

此处我们使用transformer进行兴趣的收取,预训练的transformer网络来对下一步的商品进行预测。我们先用Multi-head attenion将输入序列投影到h的子空间中,然后使用scaled dot product attenion函数,我们使用两个纺射转化函数以及RELU函数来增加非线性能力。

v2-6cd0dc792d9b120e9bba3d354a3bcc4f_b.jpg

Transformer网络建立在Multihead Attention和FFN的基础上,增加了dropout、layer normalization和residual链接。Transformer层方程如下:

v2-2d7f27918e23afe1aa50ff92bfd4fc84_b.jpg

为了准确捕捉用户在每一步的即时兴趣,我们预先训练Transformer网络来预测用户在每一步的下一个行为。

v2-aa9b1defbcce96474d5370fe3f222986_b.jpg

推荐算法炼丹笔记:阿里序列化推荐算法MRIF_第2张图片

推荐算法炼丹笔记:阿里序列化推荐算法MRIF_第3张图片

本文我们使用三种aggregator。

1. Mean aggregator

v2-3a8abbe9f6cb87c183891d0054adc06a_b.jpg

2. Max aggregator

v2-67d03717010d0ba657552625eff5316d_b.jpg

3. Attentional aggregator

v2-661696e248cc1275b3733c499b0cd359_b.jpg

其中a是和embedding位置相关的attention参数。

v2-1d160bb0ec9b2d173f311236a4b20d25_b.jpg

推荐算法炼丹笔记:阿里序列化推荐算法MRIF_第4张图片

v2-7df685f7d3379de0159f227691cd78b7_b.jpg

推荐算法炼丹笔记:阿里序列化推荐算法MRIF_第5张图片
  • POP方法在所有度量方面表现最差,因为它只考虑项目的流行性,而不考虑用户端信息。
  • BPR和NCF的性能优于POP,这是因为这两个模型使用基于协同过滤的方法来合并用户信息。
  • 在所有指标上,DIN都比BPR和NCF获得更好的结果,因为DIN依赖于注意力机制,并且使用目标项目关注用户的历史行为。
  • GRU4Rec、LSTM4Rec、CASER和SASRec都是顺序推荐方法,它们不仅使用了用户交互过的项目,而且还使用了顺序中项目的相对位置。由于考虑了项目的顺序,顺序方法的性能优于DIN。
  • SASRec在使用自我注意块方面优于其他三种顺序方法。本文的方法优于SASRec,在所有方法中取得了最好的结果。MRIF-attn在电影数据集上除AUC和GAUC指标外,其他指标均达到最佳,说明注意聚合器是最有效的。MRIF-avg的性能比MRIF-attn稍差,因为权重在平均聚合器中是常数。MRIF-max在所提出的三种方法中表现最差,这可能是因为max聚合器执行困难,同时因为我们只选择一个商品从而很多辅助信息都丢失了。

v2-7d271870e235cac3e51da7b3e3553caf_b.jpg

本文提出了由兴趣提取层、兴趣聚集层和注意融合结构组成的多分辨率兴趣融合模型,解决了不同时间范围内用户偏好的提取和组合问题。兴趣提取层在每一步都依赖于变换块来提取用户的即时兴趣。兴趣聚合层的重点是找到一组不同分辨率的用户兴趣。提出了三种不同的聚合器:平均聚合器、最大聚合器和注意聚合器。兴趣融合结构采用注意机制,整合多分辨率兴趣进行预测。在七个评价指标下对两个数据集进行了实验,证明了该模型的优越性。

v2-ca620a5718a74947e0770cbd1d66e2d6_b.jpg
  1. MRIF: Multi-resolution Interest Fusion for Recommendation:arxiv.org/pdf/2007.0708

v2-071e132c7353c2be34deb925be1bf617_b.jpg
更多干货,请关注“炼丹笔记”

你可能感兴趣的:(炼丹笔记,算法,人工智能,机器学习,java,大数据)