A3NCF: An Adaptive Aspect Attention Model for Rating Prediction

【论文会议】

IJCAI2018

【论文作者及机构】

(1) Zhiyong Cheng: 南洋理工大学
(2) Ying Ding: Vipshop研究院
(3) Xiangnan He(何向南): 南洋理工大学
(4) Lei Zhu: 山东师范大学
(5) Xuemeng Song: 山东大学
(6) Mohan Kankanhalli: 南洋理工大学
注:何向南是推荐领域的大牛人物,其代表作有Neural Collaborative Filtering(NCF), 个人主页为:https://www.comp.nus.edu.sg/~xiangnan/

【主要研究方向】

推荐系统,评分预测

【主要研究的问题】

根据用户和物品的历史记录,预测用户对物品的评分

【相关的工作有哪些】

(1) 基于矩阵分解(matrix factorization)的方法:该方法主要对用户对物品的交互矩阵做因子分解学习用户和物品的隐层表示([Koren et al., 2009]),然而缺乏对推荐结果的可解释性以及面临“冷启动”的问题;
(2) 基于评论文本建模的方法:从评论学习用户的偏好以及物品的特征,其主要分为两大类别:基于主题模型和基于深度学习模型的方法。a)基于主题模型的方法是利用主题模型预先学习用户和物品的隐层表示,具有代表性的工作有HFT [McAuley and Leskovec, 2013] 和TopicMF [Bao et al., 2014],也有部分学者将主题模型和矩阵分解模型联合学习,获取用户和物品的表示,如ITLFM [Zhang and Wang, 2016] 和 RBLT [Tan et al., 2016]。b)基于深度学习模型的方法,该方法以端到端的形式,从用户和物品的特征抽取直接到最终的评分预测,DeepConn [Zheng et al., 2017]先利用CNN模型抽取分别抽取用户和物品的评论特征,再输入至因子分解机(Factoring Machine),TransNet [Catherineand Cohen, 2017]模型在DeepConn作进一步的改进,引入用户未来的评论来修正当前用户和物品的表示。

【该方向上目前存在的问题及动机】

目前的方法都没有考虑到一个用户在不同物品的关注方面可能是多样的情况,例如,对于苹果手机,用户可能更关注于高像素、低耗量;而对于廉价手机,用户可能更关注于通讯的质量。基于此发现,作者提出基于aspect-level的自适应注意力评分预测模型(Adaptive Aspect Attention-based Neural Collaborative Filtering model, A3NCF), 以准确用户在物品不同方面的注意力情况。

【本文提出的方法】

A3NCF: An Adaptive Aspect Attention Model for Rating Prediction_第1张图片
该模型主要分为四个模块,input模块,Feature Fusion模块,Attentive Interaction模块以及Rating Prediction模块。Input模块是由基于主题模型的用户和物品评论表示,以及基于one-hot编码的用户和物品的隐层表示作为输入。在主题模型当中,作者对原来的LDA模型中引入了贝努利概率分布,增强模型在用户和物品对不同aspect-level的topic的学习能力,具体图如下:
A3NCF: An Adaptive Aspect Attention Model for Rating Prediction_第2张图片
在该主题模型当中,作者假设评论中的每条句子只会关注一个aspect的信息,而这个aspect有可能是与用户的偏好或者产品的特征有关。因此,作者设立了一个贝努利二元分布来确定该句子是由作者的偏好产生还是产品的特征产生。主题模型的优化由Gibbs采样来决定。
Feature Fusion模块是由评论生成的主题向量和one-hot编码生成的隐式向量组成。去掉主题向量,该模型就是典型的NCF模型。作者分别采用了concat,addition和element-wise的方式进行融合,发现addition的方式相比于其余两种都要好。
Attentive Interaction模块是根据用户向量和物品向量做矩阵分解后,对向量中的每个特征通过Attention赋权,其原型是AFM模型(Attentional Factorization Machine)。具体的公式如下:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在attention机制中,作者将原有的主题向量和融合向量联合生成attention权重,在实验中证明该操作比单纯用融合向量的性能要好。损失函数采用SE做优化:
在这里插入图片描述

【模型代码】

https://github.com/hustlingchen/A3NCF/

【实验与分析】

数据集中采用Amazon评论数据集和yelp评论数据集:
A3NCF: An Adaptive Aspect Attention Model for Rating Prediction_第3张图片
Baseline的对比:
(1) BMF: 经典基于评分的矩阵分解模型;
(2) HFT:联合MF和LDA评分预测模型;
(3) RMR:采用混合高斯模型预测评分;
(4) RBLT:MF与LDA线性组合预测模型;
(5) TransNet:采用基于CNN建模方法。
实验的结果:
(1) 总体RMSE的对比:
A3NCF: An Adaptive Aspect Attention Model for Rating Prediction_第4张图片
(2) 隐层大小K对模型的影响:在论文中,作者认为隐层的个数K代表就是不同apsect方面的信息。从实验结果来看,A3NCF在不同隐层的个数上都优于所有的baseline;
A3NCF: An Adaptive Aspect Attention Model for Rating Prediction_第5张图片
(3) Attention Network的作用分析:作者对比了NCF协同过滤模型,不加Attention network的ANCF模型和论文提出的A3NCF。从实验结果来看,加了Attention network的A3NCF在不同数据集和不同factors上都优于前两者。
A3NCF: An Adaptive Aspect Attention Model for Rating Prediction_第6张图片

【本文的创新点】

作者提出采用基于aspect-level的思想来做评论预测,aspect-level分成两个部分,一个是基于主题模型,一个是基于Attention network中隐层k。主题模型中将评论拆分为独立的句子,认为每个句子表示一个aspect信息,采用贝努利概率分布构建基于aspect的用户和物品的隐式主题向量;在神经网络端,作者参考了AFM模型,认为隐层K具有代表不同aspect信息的能力,采用attention的方法增强区分不同aspect的重要程度的能力。

你可能感兴趣的:(自然语言处理)