GRN: Generative Rerank Network for Context-wise Recommendation

总结

generator: GRU,policy gradient优化,self reward + differential reward,从粗排到精排
evaluator: bi-lstm+self-attention,交叉熵损失,对final list做rank

细节

generator
GRN: Generative Rerank Network for Context-wise Recommendation_第1张图片
把gru当作一个policy,reward有2部分:self reward + differential reward。
self reward
r s e l f ( x o t ∣ u , O ) = E ( x o t ∣ u , O ; Θ E ) r^{self}(x_o^t | u, O) = E(x_o^t | u, O; \Theta^E) rself(xotu,O)=E(xotu,O;ΘE)
differential reward,虽然 x o t x_o^t xot在当前list中不合适,但是如果 x o t x_o^t xot可以促进其他item被选,那 x o t x_o^t xot也是一个好item
r d i f f ( x o t ∣ u , O ) = ∑ x o i ∈ O E ( x o t ∣ u , O ; Θ E ) − ∑ x o i ∈ O − E ( x o t ∣ u , O − ; Θ E ) r^{diff}(x_o^t | u, O) = \sum_{x^i_o \in O}E(x_o^t | u, O; \Theta^E) - \sum_{x^i_o \in O^-}E(x_o^t | u, O^-; \Theta^E) rdiff(xotu,O)=xoiOE(xotu,O;ΘE)xoiOE(xotu,O;ΘE)
其中:

  1. O O O代表当前policy generate出的list
  2. O − O^- O代表不包含 x o t x_o^t xot的list

evaluator
GRN: Generative Rerank Network for Context-wise Recommendation_第2张图片
self-attention对multual influence建模

实验

数据集
公开数据集:https://tianchi.aliyun.com/dataset/dataDetail?dataId=56
私人数据集:taobao
评估指标: auc, gauc, ndcg@5
baseline: dnn, deepFM, DLCM, PRM
在线a/b test: pv, ipv(item pv)

你可能感兴趣的:(机器学习,深度学习,自然语言处理,机器学习)