Reinforced Negative Sampling over Knowledge Graph for Recommendation
Xiang Wang, Yaokun Xu , Xiangnan He, Yixin Cao, Meng Wang, Tat-Seng Chua
National University of Singapore, Southeast University, University of Science and Technology of China, HeFei University of Technology
http://staff.ustc.edu.cn/~hexn/papers/www20-KGPolicy.pdf
在推荐系统中,适当的处理缺失数据具有一定的挑战性。
目前,大多数工作都会从未观测数据中进行负采样,进而能够训练带有负信号的推荐模型。但是,目前的负采样策略,无论是静态负采样还是自适应负采样,都无法得到高质量的负样本,这些负样本对辅助模型训练和反应用户真实需求方面的能力都有所欠缺。
这篇文章中,作出这样一个假设,即商品的知识图谱能够对商品和知识图谱实体之间提供比较丰富的信息,这有助于得到信息丰富和比较真实的负样本。
为此,作者们提出一种新的负采样模型,知识图谱策略网络(KGPolicy),以强化学习智能体的形式来探索高质量负样本。具体而言即为,通过设计适当的探索操作,该模型从目标正样本的交互中自适应接收带有知识的负样本信息,最终产生潜在的负样本商品来训练推荐模型。
将矩阵分解跟KGPolicy结合后,相对STOA采样方法(比如DNS和IRGAN)和利用知识图谱强化的推荐模型(如KGAT)取得了显著提升。
负采样主要可以分为三类
这三类侧重点的不同主要体现在以下方面
高质量负样本具有以下两个特点
负样本蒸馏图示如下
本文所提模型为
这篇文章的主要贡献有以下几点
下面是一些符号约定
下面是问题描述
下面是多跳路径以及负样本的示例
模型框架以及基于知识图谱的负采样图示如下
目标函数定义如下
信息量较大的负样本具有以下特性
负采样作为强化学习的细节过程如下
下面是状态的定义
行为的定义如下
状态转移动力学定义如下
奖励函数基于以下两个因素来定义
下面是目标函数的定义
下面是图学习模块的形式
探索操作可以分为两步
下面是如何得到带有注意力的知识图谱紧邻点
下面是得到带有注意力的商品邻点方式
关于模型训练及优化,作者们采取了以下策略
数据集信息统计如下
参与对比的几种采样方法如下
参与对比的几种基于知识图谱的推荐模型有以下几个
评价指标为
参数设置如下
不同推荐模型的效果对比如下
不同的采样方法效果对比如下
探索操作的个数效果对比如下
奖励函数的影响对比如下
平均梯度随训练迭代次数的变化趋势如下
代码地址
https://github.com/xiangwang1223/kgpolicy
我是分割线
您可能感兴趣
ICML2018|基于自注意力的序列推荐模型SASRec(已开源)
IJCAI2018|分层时空LSTM在位置预测中的应用(HST-LSTM)
IJCAI2019|基于会话和注意力机制的CTR预估模型DSIN(已开源)
AISTATS2018|密歇根大学提出新型在线boosting算法用于多标签排序(已开源)
KDD2019|基于注意力的深度学习如何实时预测购买还是浏览
AAAI2020|一种新型高效兼容多行为的推荐系统模型EHCF(已开源)
ICML2007|深度学习用于协同过滤的开篇作之一(出自深度学习鼻祖之一Hinton)
SIGIR2019|基于BERT的深度学习模型在信息检索中的应用(已开源)
SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)
SIGIR2019|深度学习如何更好地用于学习排序(LTR)(已开源)
SIGIR2019|利用DeepSHAP来解释神经检索模型(已开源)
KDD2018|基于GBM的动态定价回归模型
KDD2018|超越deepfm的CTR预估模型深层兴趣网络DIN(已开源)
RecSys2019|优于DeepFM和XDeepFM的CTR模型FiBiNET
SIGIR2018|选择性GBDT(SelGB)用于排序学习(已开源)
IJCAI2019|基于对抗变分自编码的协同过滤框架VAEGAN
聊聊CatBoost
聊聊XGBoost CatBoost LightGBM RF GBDT
顶会中深度学习用于CTR预估的论文及代码集锦 (3)
ICML 2018 深度学习论文及代码集锦(5)
深度学习用于文本摘要的论文及代码集锦
深度学习用于机器翻译的论文及代码集锦
深度学习用于序列标注中的论文及代码集锦
深度学习在推荐系统中的应用及代码集锦(4)
深度学习在OCR中的应用论文及代码集锦 (2)