可解释推荐系统工具箱 - VECF(一)

文章名称

【SIGIR-2019】【Tsinghua/Rutgers University】Personalized Fashion Recommendation with Visual Explanations based on Multimodal Attention Network

核心要点

文章旨在流行商品推荐领域中,物品图片影响力大,但不同用户对图片的不同部分注意程度不一的问题。利用用户评论文本信息作为弱监督信号,训练多模态模型,个性化的对商品图片的一些预先分割好的子图分配注意力,降低噪声影响,提升推荐效果。同时,利用注意力权重作为模型决策的解释。

方法细节

问题引入

在流行商品(服饰,珠宝)推荐领域,商品图片的影响非常大(看颜的)。原有方法利用CNN等模型处理整个图片作为特征,带来了3方面的局限,

  • 不同用户注意点不同。如下图所示,不同用户会注意商品不同的位置(领子,口袋等),整体处理图片很难保证因人而异的注意不同点(虽然,可以在用户embedding和商品embedding交互等层面利用注意力和特征交叉来实现个性化,但没有显示在子图层面进行注意力更有效,毕竟需要更多样本来拟合,甚至可能拟合到噪声,况且用户的注意力层次(有点更抽象)也不同。
  • 图片中非商品的部分带来噪声。如下图所示,图中商品是上衣,而裤子的信息是噪声,整个图片都无差别的处理,可能导致模型拟合倒灶升上。
  • 整体模型缺乏可解释性。整个模型没有显示的给出子图的注意力和权重,无法确认模型的决策是否合理。
fine-grain

为了解决上述问题,作者提出了visually explainable collaborative filtering(VECF)方法。但是该方法面临三个挑战,

  • 缺乏有效监督信息。流行商品购物的推荐系统一般只有隐式反馈,直接利用系数的点击数据无法有效的训练子图注意力模型。
  • 如何选取合适的子图。虽然可以采用目标检测等方法寻找商品图片中的关键要素(子图),但是这种切割很难进行再次组合,不能够适应不同用户有不同的注意力层次的需求(领子和肩膀组合成肩颈部分的设计)。
  • 缺乏公开验证数据集。没有公开的数据集来验证模型学习到的图片权重特征的合理性。

具体做法

文章要解决的问题可以被形式化的定义如下,

  • 用户集合为,物品集合为;
  • 用户的隐式反馈观测集合为;
  • 每个物品有一个与之对应的商品图片,利用CNN提取的图片特征。其中,表示第个子图的特征向量,而表示预切分的子图数量,所有物品的视觉特征;
  • 每个用户对每个物品(有的用户可能对物品没有评论)的评论记作,其中表示评论的长度,表示评论中的词,所有评论;
  • 整个数据集为

VECF

模型的整体框架如下图所示,其中包含2个重要的组成部分,

  • 细粒度的视觉偏好模型,主要是提取商品图片的子图与计算子图注意力;
  • 评论增强的监督模型,主要是利用评论文本,监督重要性权重的计算,以及指导模型训练。
VECF framework

本节介绍了方法想要解决的问题,以及面临的挑战看,描述了问题形式化定义和整体框架。下一节继续介绍两个重要模型的实现细节,以及模型的参数学习方法。

心得体会

多模态融合

个人认为模型的一个亮点是将文本内容以多模态的方式融入文本的LSTM模型中,来进行文本生成,并以文本生成的监督信息作为弱监督信号来加强推荐的隐式反馈,训练图片的注意力机制。本以为利用文本信息是把评论的一些关键词放入图片处理CNN中进行监督,但是作者的做法是反过来的,实际是利用注意力和图片信息,来实现文本生成,反推注意力分配到合理的子图上。相比多模态应用(现在也算是常规操作了),监督信号的构造不仅解决了注意力训练的挑战,同时引入了额外的信息,值得借鉴。

你可能感兴趣的:(可解释推荐系统工具箱 - VECF(一))