最近期末了,赶了几篇期末论文,都没时间去写这个系列的博客了,今天抽空赶一篇吧~~
论文:
论文题目:《Neural Collaborative Filtering》
一 、背景
在前面的第五篇博文中,详细介绍了协同过滤算法,传统的协同过滤算法分为ItemCF和UserCF算法,协同过滤算法在推荐系统的召回任务中扮演着重要的角色。最近几年来,深度学习,神经网络都被大规模的使用在推荐系统中了,本文将神经网络运用在协同过滤算法中,利用用户的隐式反馈来建立一个神经协同过滤算法。
首先介绍下什么是显式反馈和隐式反馈:
显式反馈行为包括用户明确表示对物品喜好的行为。
隐式反馈行为指的是那些不能明确反应用户喜好。
简单来说就是,显式反馈就是用户对商品对评分,这表面了用户是喜欢某个物品还是不喜欢;隐式反馈就是把用户浏览过对商品作为正样例,其他的作为负样例。
我们知道,用户的浏览行为是很少的,相比于几亿的商品来说,用户浏览的是十分稀疏的,也就是隐式反馈矩阵具有稀疏性。
用Yui来代表用户u是否对物品i有交互的行为,用1表示用户有交互行为,0代表没有,注意,用户对某个物品有交互行为,不一定代表用户就是喜欢物品i,同样,用户对物品i没有浏览行为,不代表用户不喜欢i,因为可能是用户还没见到这个商品,也就是不确定用户会不会喜欢。
用户的数量为M,物品对数量为N,那么这个反馈矩阵就是M✖️N的矩阵,这是一个是十分稀疏的矩阵,这在从隐式数据中学习时提出了挑战,因为它仅提供有关用户偏好的嘈杂信号。 虽然观察到的条目至少反映了用户对商品的兴趣,但未观察到的条目可能只是缺少数据,而且自然缺乏负面反馈。
隐式反馈在推荐系统上的问题被定义为估算矩阵Y中用户u对物品i的分数:
二 、从隐式反馈数据中学习
2.1传统矩阵分解的缺陷
传统的求解方法是矩阵分解(MF,Matrix Factorization),为每个user和item找到一个隐向量,问题变为:
也就是用用户u和物品i隐向量的内积作为评分,这里的 K表示隐式空间(latent space)的维度。正如我们所看到的,MF模型是用户和项目的潜在因素的双向互动,它假设潜在空间的每一维都是相互独立的并且用相同的权重将它们线性结合。因此,MF可视为隐向量(latent factor)的线性模型。
如果采用内积来计算物品跟用户的相似性,那么其实用户的相似度也可以用内积来计算了,这也就导致了下面要说的矛盾:隐向量空间的相似度跟矩阵分解中相似度排名矛盾了。
论文中用一个例子解释了传统矩阵分解的缺点:
简单说一下就是,在矩阵分解中,如果用jaccard来计算用户的相似读,那么用户u4跟其他用户的相似度排排名是u1>u3>u2,在(b)中,假如要保证用户u4的隐向量p4离u1的隐向量p1最相近,那么把p4放到这两个虚线位置都能保住跟p1最相近,但是会让p4跟p2比跟p3更相近,这个哥相似度排名的结果跟MF中的排名是矛盾的。
上面的示例显示了MF因为使用一个简单的和固定的内积,来估计在低维潜在空间中用户-项目的复杂交互,从而所可能造成的限制。解决该问题的方法之一是使用大量的潜在因子 K (就是隐式空间向量的维度)。然而这可能对模型的泛化能力产生不利的影响(e.g. 数据的过拟合问题),特别是在稀疏的集合上。论文通过使用多层DNN从数据中学习交互函数,突破了这个限制。
2.2 NCF:神经协同过滤算法
本文提出了一个通用的神经协同过滤算法框架,针对这个通用的框架提出了三种实现方式:GMF,MLP,GMF+MLP三种方式。
(1)使用GMF(广义矩阵分解):
分别是用户u和物品i的embedding向量,是向量点乘element-wise product,然后经过一层FC和激活函数得到分数。
(2)使用MLP(多层感知机):
根据这个公式可以简单的得到:将用户和物品的embedding连接后直接送到MLP,MLP的激活函数使用ReLU,最后用sigmoid激活得到分数。
(2)使用GMF+MLP:
看这个模型图可以知道知道这个模型是怎么work的了,MLP跟GMF并没有共用embedding,这是因为,GMF和MLP的共享embedding可能会限制融合模型的性能。 例如,这意味着GMF和MLP必须使用相同大小的embedding; 对于两个模型的最佳embedding大小相差很大的数据集,此解决方案可能无法获得最佳效果。
模型的关键就是先各自取得隐向量后concate后再进行sigmoid激活得到分数。
三、实验
论文通过三个角度进行了试验:
RQ1我们提出的NCF方法是否胜过 state-of-the-art 的隐性协同过滤方法?
RQ2我们提出的优化框架(消极样本抽样的logloss)怎样为推荐任务服务?
RQ3更深的隐藏单元是不是有助于对用户项目交互数据的学习?
RQ1的结果:
RQ2的结果:
负样本的比例其实很影响模型的性能,如果是负样本的比例一般是5左右,当然这个是个人的经验,当然,如果是10或者更高的话没有试过,可能模型的能力会衰减。
RQ3的实验效果:
可以看到,在增加embedding大小和MLP层数的时候是可以优化模型效果的。