这篇论文是合工大吴乐老师组发表在SIGIR 2018上关于时序性推荐系统方向的一篇文章。这篇文章结合了RNN、Attention和Social Recommendation三个方向,完成了一个基于动态和静态两类注意力网络的时序性的推荐系统,提出了模型ARSE。
论文地址:ARSE
论文代码未公开
根据Introduction部分的内容我们大概能了解文章的创新点。这里我们首先介绍一下,在推荐系统方向,General Recommendation 算法主要是结合一些环境特征(context information)或者user/item的特征去进行推荐,完成矩阵补全(Matrix Completion)问题或二部图的预测(Bipartite Graph Prediction)问题。但是这类方法主要的缺点是数据稀疏性问题,为解决这一问题,就有了利用user-user关系的社交推荐(Social Recommendation),Social Recommendation基于邻居节点会互相影响的假设。另外,基于用户的兴趣会不断变化,提出Sequential Recommendation方向,就是用户的latent factor不是静态的,而是会随着时间变化而不断变化,因此处理的数据就不只是一个interaction matrix而是若干个(随时间长短变化)。处理Sequential RS问题,就涉及到了序列的学习,可以通过诸如RNN、LSTM等模型进行学习,本文即选用LSTM来完成序列的学习。
下面我们按照段落介绍:
段落 | 内容 |
---|---|
Paragraph.1 | CF(Collaborative Filtering,协同过滤)一直以来都是推荐系统方向的主流,但是有着Data Sparsity的缺陷 |
Paragraph.2 | 使用社交网络可以缓解Data Sparsity问题,可以使用Social Recommendation |
Paragraph.3 | 静态地描述用户属性不符合事实,因为用户的兴趣在一直变化,可以使用Sequential Recommendation/ Dynamic Recommendation,也就是随时间变化的时序性问题 |
Paragraph.4 | 解决时序性问题,RNN可以提供解决方案。而在推荐系统方面,还没有RNN在推荐上的应用。 |
Paragraph.5 | 综上,本文提出了一个Attentive RNN网络来解决时序性的社交问题。 |
因此,我们可以看到本文的亮点主要集中在Attention + RNN + Social RS以及几个元素的组合上。
问题形式化:给定user集合 U ( ∣ U ∣ = M ) U \ \ (|U|=M) U (∣U∣=M),item集合 V ( ∣ V ∣ = N ) V\ \ (|V|=N) V (∣V∣=N),user-user的社交网络矩阵 S ∈ R M × N S\in\mathbb{R}^{M\times N} S∈RM×N ( S S S是静态的,不随时间变化的,即好友关系保持不变),交互矩阵集合 R = [ R 1 , R 2 , ⋯ , R T ] R = [R^1, R^2, \cdots, R^T] R=[R1,R2,⋯,RT] ,其中 t t t 时刻的交互矩阵(interaction matrix) R t ∈ R M × N ( t ∈ { 1 , 2 , ⋯ , T } ) R^t \in \mathbb{R}^{M\times N} \ \ (t\in \{1, 2, \cdots, T\}) Rt∈RM×N (t∈{1,2,⋯,T}) ;需要预测的是 T + 1 T+1 T+1 时刻的交互矩阵 R ^ T + 1 \hat{R}^{T+1} R^T+1。
作者在这部分中介绍了LSTM模型的大致细节。这里贴张图,用于大家大致参考。
这里需要注意的是,在LSTM每一步的输入中, h t − 1 h_{t-1} ht−1表示上一步的隐藏状态vector,本次输入的向量input vector x t x_t xt在输入LSTM内部前,先进行向量拼接(concatenation)再输入模型。
作者将ARSE分为两部分,DARSE(Dynamic Attentive Recurrent Social rEcommendation,动态注意力循环社交推荐) 和 SARSE (Static Attentive Recurrent Social rEcommendation,静态注意力循环社交推荐)。 DARSE考虑随时间变化而变化的部分;而SARSE考虑的是静态的部分。预测结果是两者的简单相加。
需要注意的是,在这里的Table 1,有一点引起人困扰的是 Q Q Q 、 W W W 、 P P P 分别表示item动态latent matrix、item静态latent matrix、user静态latent matrix,user的动态latent matrix不需要吗?这里需要说明的是,user的动态latent matrix不只一个,而是有T个。可以表示为 H t ∣ t = 1 , 2 , ⋯ , T H^t |t=1, 2, \cdots, T Ht∣t=1,2,⋯,T。这里之所以有多个 H t H^t Ht,是因为用户兴趣随时间而变化,因此需要有多个放到LSTM中。 H t H^t Ht 中的每一行 h a t ∈ R D h_a^t \in \mathbb{R}^{D} hat∈RD 就是任意用户 a a a 在 t t t 时刻的的latent vector,同时也是LSTM的hidden state vector。这里我们应该就可以看出Collaborative Filtering 和 LSTM 是如何结合起来的。
而item和用户的静态属性都是不随时间变化的,因此不需要改变。另外, x a t x_a^t xat 并不对应到一个矩阵 X t X^t Xt,这里的 x a t x_a^t xat 是通过对矩阵 Q Q Q 中的某一行进行选择得到的,具体的,后文进行详细介绍。
这里需要声明一点的是,Table 1中应该有一个书写小错误,这里的矩阵 P P P 应该大小是 D × M D \times M D×M,而不是 D × N D \times N D×N,欢迎评论区讨论指正。
首先,我们给出预测的 r ^ a i t \hat{r}_{ai}^t r^ait 的计算公式:
r ^ a i t = r ^ D , a i t + r ^ S , a i t = q i T h a t + w i T p ~ a (5) \hat{r}_{ai}^t = \hat{r}_{D, ai}^t+ \hat{r}_{S,ai}^t = {q}_{i}^\mathsf{T} h_a^t + {w}_{i}^\mathsf{T} \tilde{p}_a \tag{5} r^ait=r^D,ait+r^S,ait=qiThat+wiTp~a(5)
这里需要注意的是, T ^\mathsf{T} T 是矩阵的转置符号,在原文中用 ′ \ ^{'} ′ 表示。
q i {q}_{i} qi 表示 item i i i 的dynamic latent vector。
h a t h_a^t hat 表示 user a a a 在时刻 t t t 的dynamic latent vector。
w i {w}_{i} wi 表示 item i i i 的 static latent vector。
p ~ a \tilde{p}_a p~a 表示 user a a a 的static latent vector。
这里之所以 p ~ a \tilde{p}_a p~a上有波浪符号,是因为这是在集成了 p a {p}_a pa vector本身和注意力加权的邻接节点vector之后的表示,看下图也可以大概看明白。
由架构图我们也可以看出来,静态的user只和静态的item进行向量之间的内积计算,动态的user只和动态的item进行内积计算。
动态的部分简称为DARSE,作者认为每个人的喜好变化会影响社交关系的亲疏远近;同样,社交关系的变化也会影响每个人的喜好变化,这其中是interplay的关系。
作者一共分成了三层,我们分别介绍如下:
x a t = P o o l i n g ( Q ( : , L a t ) ) (6) x_a^t = Pooling(Q(:, L_a^t)) \tag{6} xat=Pooling(Q(:,Lat))(6)
这一步的目的是为了把任意用户在任意时刻变长的喜欢列表 L a t L_a^t Lat 变为定长以方便后续LSTM处理。这里形成了用户 a a a 在时刻 t t t 的固定大小的向量表示 x a t x_a^t xat,代表了用户 a a a 在时刻 t t t 的喜好特征,也是后续LSTM的输入向量。这里的 Q ( : , L a t ) Q(:, L_a^t) Q(:,Lat) 就是一个切片处理,把用户 a a a 的喜好item对应的列取出来进行压缩处理,得到一个D维的向量。
这里是为了得到用户 a a a 的邻居节点的环境向量 h ~ a t \tilde{h}_a^t h~at 。 h ~ a t \tilde{h}_a^t h~at 是任意与 a a a 相邻的用户 b ( b ∈ S a ) b \ \ (b\in S_a) b (b∈Sa) 在时刻 t t t 的动态向量 h b t {h}_b^t hbt 的注意力加权之和。那么问题来了,注意力怎么算呢?公式如下:
α a b t = exp ( m t ( a , b ) ) ∑ c ∈ S a exp ( m t ( a , c ) ) (7) \alpha_{ab}^t = \frac{\exp(m^t(a,b))}{\sum_{c\in S_a}{\exp(m^t(a,c))}} \tag{7} αabt=∑c∈Saexp(mt(a,c))exp(mt(a,b))(7)
m t ( a , c ) = R e L U ( A 5 × R e L U ( A 1 × h a t − 1 + A 2 × h c t − 1 + A 3 × e a + A 4 × e c ) ) (8) m^t(a,c)=ReLU(A_5 \times ReLU(A_1 \times h_a^{t-1} + A_2 \times h_c^{t-1} + A_3 \times e_a + A_4 \times e_c)) \tag{8} mt(a,c)=ReLU(A5×ReLU(A1×hat−1+A2×hct−1+A3×ea+A4×ec))(8)
可以看到,这里的注意力系数 α a b t \alpha_{ab}^t αabt 就是 m t ( a , c ) m^t(a,c) mt(a,c)的归一化值,而 m t ( a , c ) m^t(a,c) mt(a,c) 就是一个双层的MLP计算完成的,通过 a a a 的 t − 1 t-1 t−1 时刻的动态向量、 a a a 的相邻用户 c c c 的 t − 1 t-1 t−1 时刻的动态向量、 a a a 的结构embedding、 c c c 的结构embedding计算完成。这里, e a e_a ea、 e c e_c ec 是 a a a 与 c c c 的图节点embedding(文中使用denosing autoEncoder完成)。我们可以看到 t t t 时刻动态注意力是由节点及其邻居节点的结构特征和 t − 1 t-1 t−1 时刻的latent向量(代表用户的兴趣特征)共同决定的。
有了上面的注意力权重,就可以计算每个节点 a a a 的社交上下文信息(social contextual informaiton),形式上是加权的邻接节点动态社交影响力之和(weighted dynamic social influence from social neighbors),如下式所示:
h ~ a t = ∑ b ∈ S a α a b t × h b t (10) \tilde{h}_a^t = \sum_{b\in{S_a}} \alpha_{ab}^{t} \times h_b^t \tag{10} h~at=b∈Sa∑αabt×hbt(10)
这一层是将上文中在Input Pooling Layer中学到的节点喜好向量 x a t x_a^t xat 和Dynamic Attentive Network层学到的节点环境向量 h ~ a t − 1 \tilde{h}_a^{t-1} h~at−1 输入LSTM模型中,用下式中的 f L S T M ( ⋅ ) f_{LSTM} (\cdot) fLSTM(⋅) 表示。
h a t = f L S T M ( [ x a t , h a t − 1 , h ~ a t − 1 ] ) (11) h_a^t = f_{LSTM}([x_a^t, h_a^{t-1}, \tilde{h}_a^{t-1}]) \tag{11} hat=fLSTM([xat,hat−1,h~at−1])(11)
上式中, h a t − 1 h_a^{t-1} hat−1 是上一时刻的LSTM hidden state vector,将 x a t x_a^t xat 和 h ~ a t − 1 \tilde{h}_a^{t-1} h~at−1 进行拼接后作为input vector,可以得到下一时刻的hidden state vector h a t h_a^t hat ,这也是用户 a a a 在时刻 t t t 的dynamic latent vector。
这里不做过多解释,使用向量内积完成动态部分的输出计算。
r ^ D , a i t = q i T ⋅ h a t \hat{r}_{D, ai}^t = q_i^{\mathsf{T}} \cdot h_a^t r^D,ait=qiT⋅hat
Dynamic解释清楚以后,这部分就不用做过多解释了,SARSE就是一个加了注意力的Collaborative Filtering模型。具体如下:
r ^ S , a i t = w i T ⋅ p ~ a (17) \hat{r}_{S, ai}^t = w_i^{\mathsf{T}} \cdot \tilde{p}_a \tag{17} r^S,ait=wiT⋅p~a(17)
n t ( a , c ) = R e L U ( B 5 × R e L U ( B 1 × p a + B 2 × p c + B 3 × e a + B 4 × e c ) ) (14) n^t(a,c)=ReLU(B_5 \times ReLU(B_1 \times p_a + B_2 \times p_c + B_3 \times e_a + B_4 \times e_c)) \tag{14} nt(a,c)=ReLU(B5×ReLU(B1×pa+B2×pc+B3×ea+B4×ec))(14)
β a b = exp ( n t ( a , b ) ) ∑ c ∈ S a exp ( n t ( a , c ) ) (15) \beta_{ab} = \frac{\exp(n^t(a,b))}{\sum_{c\in S_a}{\exp(n^t(a,c))}} \tag{15} βab=∑c∈Saexp(nt(a,c))exp(nt(a,b))(15)
p ~ a = ∑ b ∈ S a β a b × p b + p a \tilde{p}_a = \sum_{b\in S_a}{\beta_{ab} \times p_b + p_a} p~a=b∈Sa∑βab×pb+pa
这里需要注意的是,最终在SARSE的预测输出中使用的向量是 p ~ a \tilde{p}_a p~a 而不是 p a p_a pa ,这里用的是注意力计算完成后由 p a p_a pa 和其邻接节点的静态向量加权求和后的向量加和计算完成。
L Θ ( R , R ^ ) = − ∑ t = 1 T ∑ a = 1 M ∑ i = 1 N [ r a i t log ( r ^ a i t ) + ( 1 − r a i t ) log ( 1 − r ^ a i t ) ] (18) L_{\Theta}(R, \hat R) = -\sum\limits_{t=1}^{T} \sum\limits_{a=1}^{M} \sum\limits_{i=1}^{N} [ r_{ai}^t \log(\hat{r}_{ai}^t) + (1-r_{ai}^t) \log(1-\hat{r}_{ai}^t) ] \tag{18} LΘ(R,R^)=−t=1∑Ta=1∑Mi=1∑N[raitlog(r^ait)+(1−rait)log(1−r^ait)](18)
使用二分类的log loss损失函数进行训练。
这篇文章提出了一个ARSE模型,使用注意力机制、LSTM模型和social Recommendation相结合的方式,结合使用了静态注意力和动态注意力,值得推荐。
稍微有点瑕疵的部分就是本文的参考文献部分年份都稍微有点久远[笑哭],除此以外,都是惊喜。