论文 | 翻译 ——Improving performances of Top-N recommendations with co-clustering method(2020:协同过滤RS)

0.专有词汇

interation data:交互数据(评分)bipartite network:二部网络(二部图)

demograhic information:人口统计信息

probabilistic matrix factorization:概率矩阵分解

unipartite form:单部形式             transaction data:交易数据(1:买了,0:没买)

absolute coordinate distance:绝对坐标距离

Bayesian personalized ranking(BPR):贝叶斯个性化排序(矩阵分解的变种)

adjacent matrix:邻接矩阵            benchmark methods:基准方法

 

0.摘要

论文 | 翻译 ——Improving performances of Top-N recommendations with co-clustering method(2020:协同过滤RS)_第1张图片

1.Introduction

【论述过程】

①信息冗余宏观背景 → ②推荐算法的数据分类 → ③推荐算法分类 → ④落脚到CF(人口统计信息+商品内容信息难获取,易失真) → ⑤CF问题:忽略了用户仅仅对特定的商品表示出兴趣 → ⑥聚类-CF问题:需额外信息+考虑不全面 → ⑦提出了一种新的基于用户-商品检测的推荐方法 → ⑧剩余文章的内容安排

【一种新的基于用户-商品社区检测的推荐方法(UICDR):流程】

①用户和商品的共同聚类

②借助传统近邻协同过滤推荐算法进行推荐

【创新点】

①使用加权二部图来表示用户-项目交互行为,并修改了文章先前的研究工作

②提出了一种二部模块化的单部形式和一种新的优化方法

③提供了一种缓解冷启动问题的新思路

论文 | 翻译 ——Improving performances of Top-N recommendations with co-clustering method(2020:协同过滤RS)_第2张图片

2.Related works

【论述过程】

①交互数据说明(评分矩阵/购买行为矩阵) → ②协同过滤 → ③基于聚类的协同过滤和冷启动问题

2.1. Collaborative filtering

【论述过程】

①基于商品的协同过滤推荐算法介绍(基于近邻的算法中任选的一种)

②矩阵分解方法介绍(基于模型的算法中任选的一种)

2.1.1.Item-based collaborative filtering

【论述过程】

①相似度计算公式分类 → ②排除“距离相似度”(愿意:维度影响精度) → ③分别给出基于“评分矩阵”和“交易矩阵”的评分预测公式

论文 | 翻译 ——Improving performances of Top-N recommendations with co-clustering method(2020:协同过滤RS)_第3张图片

2.1.2.Matrix factorization

【论述过程】

①矩阵分解的基本形式 → ②矩阵分解变种算法:BPR、Slim、autoencoder和EigenRec

论文 | 翻译 ——Improving performances of Top-N recommendations with co-clustering method(2020:协同过滤RS)_第4张图片

2.2. Cluster-based collaborative filtering and cold start problem

【论述过程】

聚类-推荐算法问题:(1)仅采用单一视角聚类(用户聚类或商品聚类),忽略了另一个聚类视角的信息;(2)最佳聚类数需要人为给定

②冷启动解决办法:(1)使用外部信息;(2)使用联合聚类结果替代缺失信息;(3)深度学习方法:基于内容

③本文使用一种“共同聚类的新方法

论文 | 翻译 ——Improving performances of Top-N recommendations with co-clustering method(2020:协同过滤RS)_第5张图片

3.A new method to co-cluster users and items

【论述过程】:提出了一种用户和项的协同聚类方法

  1. 二部图(二分图)介绍
  2. “二部模块”和“Bi-Louvain社区发现算法”介绍
  3. 优化二部模块的新方法

【注明】

过程过于繁琐,非个人专业领域,简单来说就是对图聚类算法进行改进,对二部图进行聚类

4.User-item community detection based recommendation

【论述过程】

  1. 指出:文章提出的UICDR推荐算法是(Section 3中提出的新联合聚类算法+协同过滤算法:混合算法)
  2. 混合方法细节描述
  3. 混合方法的复杂度分析

4.1.Details of hybrid method

【方法流程】

  1. 输入用户商品评分矩阵
  2. 对数据进行预处理并划分为:训练数据+测试数据
  3. 基于训练数据构造用户-商品二部图,并基于Section 3中改进算法进行联合聚类
  4. 针对每一个聚类簇构建推荐模型
  5. 确定目标用户近邻,并对测试集中的每个用户进行Top-N推荐

4.1.1.Preprocess data

【数据预处理流程】

  1. 数据过滤:设定阙值,对评分较少的用户或商品进行过滤
  2. 数据分割:每个用户80%的评分作为训练集,20%评分作为测试集

4.1.2.Co-cluster users and items

【联合聚类流程】

  1. 构建用户-商品二部图(基于python中的NetworkX库
  2. 基于原始的Louvain社区发现算法提出新的联合聚类算法
  3. 对商品和用户进行社区分割

4.1.3.Train model in each cluster

【聚类簇中模型构建流程】

  1. 在每个聚类簇中构建传统近邻协同过滤推荐算法模型
  2. 比较“基于用户的协同过滤推荐算法”和“基于商品的协同过滤推荐算法”模型的性能

4.1.4.Make recommendations

【产生推荐流程】

  1. 确定待推荐用户u所在聚类簇Cu
  2. 基于4.1.3中模型确定Cu中用户u的邻域
  3. 基于商品预测评分生成推荐列表

4.2.Complexity analysis

【论述过程】

  1. 指明分析范围:训练阶段
  2. 时间复杂度来源:二部社区划分+协同过滤推荐模型

5.Experiments and evaluations

本部分中文章对数据集、对照实验和实验结果对比参数进行了相关说明。

  • 数据集:文章实验数据集共包括4部分(Movielen-100k、Movielen-10m、CE-Data和E-Data)。CE-Data是作者采集自我国大型电商平台且经过过滤的真实数据(猜测是淘宝),E-Data则是在CE-Data基础之上进一步抽取的流行商品类目对应的数据集。
  • 基准方法(对照算法):文章共选择了8中对照算法,其中包括文章所提算法,即UICDR、I-Cosine、I-Pearson、U-Cosine、U-Pearson、POP、SVD和BPR。
  • 性能评估方法:准确性(precision)、归一化折现累积增益(NDCG)、

 

你可能感兴趣的:(学术论文)