ICML2019|一种基于强化学习的推荐系统(GAN用户模型,佐治亚理工学院联合蚂蚁金服提出且已开源)...

Generative Adversarial User Model for Reinforcement Learning Based Recommendation System

Xinshi Chen,  Shuang Li, Hui Li, Shaohua Jiang, Yuan Qi, Le Song

Georgia Institute of Technology, Ant Financial

ICML 2019

http://proceedings.mlr.press/v97/chen19f/chen19f.pdf

虽然很多研究人员对如何将强化学习用于推荐系统具有非常浓厚的兴趣,但是,该项研究存在诸多挑战。在推荐系统中,在线用户可以视为environment,但是其中的奖励函数和环境动力学都没有比较清晰的定义,这就使得强化学习用于推荐系统比较具有挑战性。

这篇文章为推荐系统提出一种新的基于模型的强化学习框架,其中利用GAN来模拟用户行为动力学,并且学习奖励函数。将此用户模型作为模拟环境,作者们提出了一种新的级联DQN算法,进而得到一种组合推荐策略,该策略能够比较高效地处理大量候选商品。

在真实数据上的实验表明,这种生成式对抗用户模型相对其他类似模型能够更好地解释用户行为,而且基于这种模型的强化学习策略对于用户来说能够得到更好的长期奖励,而且推荐系统的点击率更高。

强化学习用于推荐系统的主要障碍之一为,环境只能对登录的在线用户作出响应。

ICML2019|一种基于强化学习的推荐系统(GAN用户模型,佐治亚理工学院联合蚂蚁金服提出且已开源)..._第1张图片

具体表现在以下两个方面

其一即为奖励函数,点击与否不能凸显出用户对不同商品之间的偏好度。

ICML2019|一种基于强化学习的推荐系统(GAN用户模型,佐治亚理工学院联合蚂蚁金服提出且已开源)..._第2张图片

其二即为非基于模型的强化学习缺陷比较凸显

ICML2019|一种基于强化学习的推荐系统(GAN用户模型,佐治亚理工学院联合蚂蚁金服提出且已开源)..._第3张图片

这篇文章的主要贡献如下

1 联合最小最大优化算法,对新用户在线自适应

2 级联DQN算法, 候选集大小的线性时间复杂度

ICML2019|一种基于强化学习的推荐系统(GAN用户模型,佐治亚理工学院联合蚂蚁金服提出且已开源)..._第4张图片

本文用于对比的部分相关算法如下

ICML2019|一种基于强化学习的推荐系统(GAN用户模型,佐治亚理工学院联合蚂蚁金服提出且已开源)..._第5张图片

下面是推荐问题的场景设置

ICML2019|一种基于强化学习的推荐系统(GAN用户模型,佐治亚理工学院联合蚂蚁金服提出且已开源)..._第6张图片

数学描述及关键元素描述如下

ICML2019|一种基于强化学习的推荐系统(GAN用户模型,佐治亚理工学院联合蚂蚁金服提出且已开源)..._第7张图片

ICML2019|一种基于强化学习的推荐系统(GAN用户模型,佐治亚理工学院联合蚂蚁金服提出且已开源)..._第8张图片

其中包含环境、状态、行动、状态转移、奖励函数以及策略。

用户与推荐系统之间的交互图示如下

ICML2019|一种基于强化学习的推荐系统(GAN用户模型,佐治亚理工学院联合蚂蚁金服提出且已开源)..._第9张图片

需要注意的点如下

ICML2019|一种基于强化学习的推荐系统(GAN用户模型,佐治亚理工学院联合蚂蚁金服提出且已开源)..._第10张图片

生成式用户模型数学描述如下

ICML2019|一种基于强化学习的推荐系统(GAN用户模型,佐治亚理工学院联合蚂蚁金服提出且已开源)..._第11张图片

 

该模型跟E&E之间的关系如下

ICML2019|一种基于强化学习的推荐系统(GAN用户模型,佐治亚理工学院联合蚂蚁金服提出且已开源)..._第12张图片

跟E&E之间的关系具体解释如下

ICML2019|一种基于强化学习的推荐系统(GAN用户模型,佐治亚理工学院联合蚂蚁金服提出且已开源)..._第13张图片

用户状态及特征表示如下

ICML2019|一种基于强化学习的推荐系统(GAN用户模型,佐治亚理工学院联合蚂蚁金服提出且已开源)..._第14张图片

奖励函数及表示如下

ICML2019|一种基于强化学习的推荐系统(GAN用户模型,佐治亚理工学院联合蚂蚁金服提出且已开源)..._第15张图片

几种方法的结构对比如下

ICML2019|一种基于强化学习的推荐系统(GAN用户模型,佐治亚理工学院联合蚂蚁金服提出且已开源)..._第16张图片

生成式对抗训练算法描述如下

ICML2019|一种基于强化学习的推荐系统(GAN用户模型,佐治亚理工学院联合蚂蚁金服提出且已开源)..._第17张图片

学习过程会对奖励最大化

ICML2019|一种基于强化学习的推荐系统(GAN用户模型,佐治亚理工学院联合蚂蚁金服提出且已开源)..._第18张图片

优化步骤与技巧如下

ICML2019|一种基于强化学习的推荐系统(GAN用户模型,佐治亚理工学院联合蚂蚁金服提出且已开源)..._第19张图片

本文的主要贡献之一为

ICML2019|一种基于强化学习的推荐系统(GAN用户模型,佐治亚理工学院联合蚂蚁金服提出且已开源)..._第20张图片

级联Q提出的缘由如下

ICML2019|一种基于强化学习的推荐系统(GAN用户模型,佐治亚理工学院联合蚂蚁金服提出且已开源)..._第21张图片

级联Q的数学表示如下

ICML2019|一种基于强化学习的推荐系统(GAN用户模型,佐治亚理工学院联合蚂蚁金服提出且已开源)..._第22张图片

其中算法一的伪代码如下

ICML2019|一种基于强化学习的推荐系统(GAN用户模型,佐治亚理工学院联合蚂蚁金服提出且已开源)..._第23张图片

级联Q学习算法的整体伪代码如下

ICML2019|一种基于强化学习的推荐系统(GAN用户模型,佐治亚理工学院联合蚂蚁金服提出且已开源)..._第24张图片

Qj满足的条件如下

ICML2019|一种基于强化学习的推荐系统(GAN用户模型,佐治亚理工学院联合蚂蚁金服提出且已开源)..._第25张图片

下面是数据集及特征简介

ICML2019|一种基于强化学习的推荐系统(GAN用户模型,佐治亚理工学院联合蚂蚁金服提出且已开源)..._第26张图片

训练、交叉验证以及测试数据集分割比例如下

640?wx_fmt=png

实验结果如下

ICML2019|一种基于强化学习的推荐系统(GAN用户模型,佐治亚理工学院联合蚂蚁金服提出且已开源)..._第27张图片

下面是不同的模型效果对比

ICML2019|一种基于强化学习的推荐系统(GAN用户模型,佐治亚理工学院联合蚂蚁金服提出且已开源)..._第28张图片

部分有意思的结论如下

ICML2019|一种基于强化学习的推荐系统(GAN用户模型,佐治亚理工学院联合蚂蚁金服提出且已开源)..._第29张图片

比如,GAN的结果随时间增加而变好,统计模型无法捕获用户兴趣随时间的迁移。

用户选择与模型预测对比如下

ICML2019|一种基于强化学习的推荐系统(GAN用户模型,佐治亚理工学院联合蚂蚁金服提出且已开源)..._第30张图片

数据集分割策略及评价指标如下

ICML2019|一种基于强化学习的推荐系统(GAN用户模型,佐治亚理工学院联合蚂蚁金服提出且已开源)..._第31张图片

不同模型的推荐效果对比如下

ICML2019|一种基于强化学习的推荐系统(GAN用户模型,佐治亚理工学院联合蚂蚁金服提出且已开源)..._第32张图片

部分结论如下

ICML2019|一种基于强化学习的推荐系统(GAN用户模型,佐治亚理工学院联合蚂蚁金服提出且已开源)..._第33张图片

代码地址

https://github.com/xinshi-chen/GenerativeAdversarialUserModel


              smiley_12.png我是分割线smiley_12.png


您可能感兴趣

你可能感兴趣的:(ICML2019|一种基于强化学习的推荐系统(GAN用户模型,佐治亚理工学院联合蚂蚁金服提出且已开源)...)