Towards Representation Alignment and Uniformity in Collaborative Filtering

协同过滤中的表示对齐和一致性

  • 1.主要工作
  • 2.alignment and uniformity 对齐和均匀性

1.主要工作


  我们从理论上证明,完全对齐和均匀编码器构成了BPR损耗的精确最小值。我们还实证分析了典型CF方法在量化对齐和一致性方面的学习动态。
  基于分析结果,提出了一个简单而有效的直接优化这两个属性的学习目标,即DirectAU。
  在三个公共数据集上的大量实验表明,该DirectAU在对齐和一致性之间取得了很好的平衡。在优化DirectAU目标时,与最先进的CF方法相比,即使是最简单的基于矩阵分解的编码器也能显著提高性能。

2.alignment and uniformity 对齐和均匀性

关于学习目标,大多数研究采用成对BPR损失来训练模型:

考虑到数据的分布 p d a t a ( ⋅ ) p_{data}(\cdot) pdata()和正样本对的分布 p p o s ( ⋅ , ⋅ ) p_{pos}(\cdot,\cdot) ppos(,),对齐损失直接定义为:

其中 f ∼ ( ⋅ ) f^\sim(\cdot) f()表示 l 2 l_2 l2归一化。另一方面,均匀性损失定义为:

Towards Representation Alignment and Uniformity in Collaborative Filtering_第1张图片

Towards Representation Alignment and Uniformity in Collaborative Filtering_第2张图片
Towards Representation Alignment and Uniformity in Collaborative Filtering_第3张图片
Towards Representation Alignment and Uniformity in Collaborative Filtering_第4张图片
然后,我们将CF中的对齐和均匀性量化如下:
Towards Representation Alignment and Uniformity in Collaborative Filtering_第5张图片
对齐损失提高了正相关用户项对表示之间的相似性,而一致性损失衡量了表示在超球面上的分散程度。

我们分别计算了用户表示和项目表示中的一致性,因为用户和项目的数据分布可能不同,更适合分别测量。最后,我们使用折衷超参数联合优化这两个目标:

对于分数函数,我们使用用户和项目表示之间的点积来计算排名分数并提出建议,这在文献中很常见。

为了预处理数据集,我们删除了重复的交互,并确保每个用户和项目至少有5个相关交互。
这一策略在以前的工作中也被广泛采用。预处理后的数据集统计汇总在表1中。
Towards Representation Alignment and Uniformity in Collaborative Filtering_第6张图片
评估协议:按照常见做法,对于每个数据集,我们将每个用户的交互随机分成训练/验证/测试集,比例为80%/10%/10%。为了评估top-K推荐的性能,我们使用召回和归一化贴现累积增益(NDCG)作为评估指标。Recall@K衡量在推荐结果中检索到多少目标项,而NDCG@K进一步关注他们在排行榜中的位置。注意,我们考虑了所有项目(用户历史中的训练项目除外)的排名列表,而不是像最近的工作所建议的那样,将一组较小的随机项目与目标项目一起排名。我们用不同的随机种子重复每个实验5次,并报告平均分数。
Towards Representation Alignment and Uniformity in Collaborative Filtering_第7张图片
Towards Representation Alignment and Uniformity in Collaborative Filtering_第8张图片
Towards Representation Alignment and Uniformity in Collaborative Filtering_第9张图片
Towards Representation Alignment and Uniformity in Collaborative Filtering_第10张图片
Towards Representation Alignment and Uniformity in Collaborative Filtering_第11张图片
DirectAU引入了一个超参数 γ \gamma γ这控制了均匀性损失的重量。值得注意的是,这是DirectAU唯一需要调优的超参数,DirectAU不像以前的CF方法那样依赖负采样。因此,不需要考虑负样本的数量和采样策略。

这使得DirectAU易于在实际应用中使用。图6显示了在三个数据集上更改此超参数时性能的变化。我们可以观察到类似的趋势,即性能先增加,然后降低。不同的数据集适合不同程度的一致性,这取决于数据集的特征。我们发现,对于每个用户具有更多平均交互的数据集(即Gowalla,Yelp2018),更高的一致性权重可能更可取,在这种情况下,由于对齐丢失,表示可能更容易被推近。请注意훾 不限于0.2到10,这在实践中可能需要更大的范围和细粒度步骤。
Towards Representation Alignment and Uniformity in Collaborative Filtering_第12张图片
在本文中,我们研究了协同过滤(CF)中表示的期望属性。具体来说,受对比表征学习最新进展的启发,我们建议从对齐和一致性的角度衡量对比表征中的表征质量。我们首先从理论上揭示了通常采用的BPR损耗与这两个性质之间的联系。然后,我们实证分析了典型CF方法在对齐和一致性方面的学习动态。我们发现,不同的方法可能在不同方面都很好,而更好的对齐或更好的一致性都会导致更高的推荐性能。基于分析结果,提出了一种直接优化这两个特性的损失函数,并进行了有效的实验。与最先进的CF方法相比,具有拟议损失函数的简单矩阵分解模型具有更高的性能。我们希望这项工作能够通过对表征质量的深入分析,激发CF社区对学习范式的更多关注。

在未来,我们将研究其他也有利于对齐和一致性的学习目标,以进一步提高有效性和效率。
Towards Representation Alignment and Uniformity in Collaborative Filtering_第13张图片

你可能感兴趣的:(论文阅读,人工智能)