WSDM2020|基于强化学习的多轮对话推荐系统(EAR, 即将开源)

Estimation–Action–Reflection: Towards Deep Interaction

Between Conversational and Recommender Systems

Wenqiang Lei, Xiangnan He, Yisong Miao, Qingyun Wu, Richang Hong, Min-Yen Kan, Tat-Seng Chua

National University of Singapore, University of Science and Technology of China, University of Virginia, Hefei University of Technology

https://dl.acm.org/doi/pdf/10.1145/3336191.3371769

推荐系统结合对话技术能够动态捕捉用户偏好,同时可以克服这些静态模型的内在限制。比较成功的对话推荐系统(CRS)能够适当处理对话和推荐的交互作用。

这篇文章主要解决以下三个基本问题,关于商品属性的问题有哪些,何时推荐商品,如何对用户的线上反馈进行自适应。目前,解决这些问题缺少统一的框架。

下面是对话推荐示例

WSDM2020|基于强化学习的多轮对话推荐系统(EAR, 即将开源)_第1张图片

这篇文章提出一种新的CRS框架,评估-行动-反射,简称EAR,来填补这种交互框架鸿沟。这种框架包含三个较好跟用户对话的阶段。

评估,构建预测模型来估计用户对商品和商品属性的偏好;行动,基于评估阶段和对话历史来学习对话策略进而决定是否询问属性或者推荐商品;反射,用户拒绝行动阶段的推荐时,更新推荐模型。

上述三者之间的依赖为

WSDM2020|基于强化学习的多轮对话推荐系统(EAR, 即将开源)_第2张图片

不同的行动对各轮评估之后可推荐的商品数目关系影响示例如下

WSDM2020|基于强化学习的多轮对话推荐系统(EAR, 即将开源)_第3张图片

WSDM2020|基于强化学习的多轮对话推荐系统(EAR, 即将开源)_第4张图片

作者们给出两种对话场景,二值问题和枚举问题,针对这两个场景,作者们在Yelp和LastFM两个数据集上进行了大量实验。

实验结果表明,针对STOA方法CRM,得到了显著提升,对话轮次更少,推荐击中率达到了更高层次。

这篇文章关注的第一个问题即为应该问什么属性

WSDM2020|基于强化学习的多轮对话推荐系统(EAR, 即将开源)_第5张图片

第二个问题即为何时推荐商品

WSDM2020|基于强化学习的多轮对话推荐系统(EAR, 即将开源)_第6张图片

第三个问题即为如何对用户的线上反馈进行自适应

WSDM2020|基于强化学习的多轮对话推荐系统(EAR, 即将开源)_第7张图片

评估阶段的要点如下

WSDM2020|基于强化学习的多轮对话推荐系统(EAR, 即将开源)_第8张图片

其中FM图示如下

WSDM2020|基于强化学习的多轮对话推荐系统(EAR, 即将开源)_第9张图片

这篇文章的主要贡献有以下三点

WSDM2020|基于强化学习的多轮对话推荐系统(EAR, 即将开源)_第10张图片

下面是这篇文章的一些符号约定

WSDM2020|基于强化学习的多轮对话推荐系统(EAR, 即将开源)_第11张图片

行动具体选择有以下两种,推荐或者询问

WSDM2020|基于强化学习的多轮对话推荐系统(EAR, 即将开源)_第12张图片

多轮对话推荐流程图示如下

WSDM2020|基于强化学习的多轮对话推荐系统(EAR, 即将开源)_第13张图片

本文所提方法的整体流程解释如下

WSDM2020|基于强化学习的多轮对话推荐系统(EAR, 即将开源)_第14张图片

推荐模型的表达形式如下

WSDM2020|基于强化学习的多轮对话推荐系统(EAR, 即将开源)_第15张图片

目标函数及解释如下

WSDM2020|基于强化学习的多轮对话推荐系统(EAR, 即将开源)_第16张图片

属性敏感的BPR目标函数如下

WSDM2020|基于强化学习的多轮对话推荐系统(EAR, 即将开源)_第17张图片

属性偏好预测的细节如下

WSDM2020|基于强化学习的多轮对话推荐系统(EAR, 即将开源)_第18张图片

商品预测和属性预测合并起来可以组成多任务学习

WSDM2020|基于强化学习的多轮对话推荐系统(EAR, 即将开源)_第19张图片

行动阶段可以看作强化学习任务, 其中状态的定义如下

WSDM2020|基于强化学习的多轮对话推荐系统(EAR, 即将开源)_第20张图片

上面四个不同的角度具体解释如下

WSDM2020|基于强化学习的多轮对话推荐系统(EAR, 即将开源)_第21张图片

策略网络以及奖励函数形式如下

WSDM2020|基于强化学习的多轮对话推荐系统(EAR, 即将开源)_第22张图片

WSDM2020|基于强化学习的多轮对话推荐系统(EAR, 即将开源)_第23张图片

反射过程的细节描述如下

WSDM2020|基于强化学习的多轮对话推荐系统(EAR, 即将开源)_第24张图片

数据集分割及过滤规则如下

WSDM2020|基于强化学习的多轮对话推荐系统(EAR, 即将开源)_第25张图片

下面是数据集统计

WSDM2020|基于强化学习的多轮对话推荐系统(EAR, 即将开源)_第26张图片

参数设置如下

WSDM2020|基于强化学习的多轮对话推荐系统(EAR, 即将开源)_第27张图片

参与对比的有以下几个方法

WSDM2020|基于强化学习的多轮对话推荐系统(EAR, 即将开源)_第28张图片

几种方法的结果对比汇总如下

WSDM2020|基于强化学习的多轮对话推荐系统(EAR, 即将开源)_第29张图片

下面是评价指标

WSDM2020|基于强化学习的多轮对话推荐系统(EAR, 即将开源)_第30张图片

成功率对比图示如下

WSDM2020|基于强化学习的多轮对话推荐系统(EAR, 即将开源)_第31张图片

下面是auc效果对比

WSDM2020|基于强化学习的多轮对话推荐系统(EAR, 即将开源)_第32张图片

各个状态向量对模型效果的影响如下

WSDM2020|基于强化学习的多轮对话推荐系统(EAR, 即将开源)_第33张图片

反射阶段的在线更新对模型效果的影响如下

WSDM2020|基于强化学习的多轮对话推荐系统(EAR, 即将开源)_第34张图片

项目地址:

https://ear-conv-rec.github.io/


              我是分割线


您可能感兴趣

WWW2020|如何利用未来数据协助训练基于会话的推荐(GRec)

ICML2018|基于自注意力的序列推荐模型SASRec(已开源)

IJCAI2018|分层时空LSTM在位置预测中的应用(HST-LSTM)

IJCAI2019|基于会话和注意力机制的CTR预估模型DSIN(已开源)

AISTATS2018|密歇根大学提出新型在线boosting算法用于多标签排序(已开源)

KDD2019|基于注意力的深度学习如何实时预测购买还是浏览

AAAI2020|一种新型高效兼容多行为的推荐系统模型EHCF(已开源)

ICML2007|深度学习用于协同过滤的开篇作之一(出自深度学习鼻祖之一Hinton)

SIGIR2019|基于BERT的深度学习模型在信息检索中的应用(已开源)

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)

SIGIR2019|深度学习如何更好地用于学习排序(LTR)(已开源)

SIGIR2019|利用DeepSHAP来解释神经检索模型(已开源)

KDD2018|基于GBM的动态定价回归模型

KDD2018|超越deepfm的CTR预估模型深层兴趣网络DIN(已开源)

RecSys2019|优于DeepFM和XDeepFM的CTR模型FiBiNET

SIGIR2018|选择性GBDT(SelGB)用于排序学习(已开源)

IJCAI2019|基于对抗变分自编码的协同过滤框架VAEGAN

聊聊CatBoost

聊聊XGBoost CatBoost LightGBM RF GBDT

顶会中深度学习用于CTR预估的论文及代码集锦 (3)

深度学习用于文本摘要的论文及代码集锦

深度学习用于机器翻译的论文及代码集锦

深度学习用于序列标注中的论文及代码集锦

深度学习在推荐系统中的应用及代码集锦(4)

深度学习在OCR中的应用论文及代码集锦 (2)

你可能感兴趣的:(WSDM2020|基于强化学习的多轮对话推荐系统(EAR, 即将开源))