基于联邦学习的推荐系统综述
参考文献
基于联邦学习的推荐系统综述
Federated Recommendation Systems
Journal-CN-SSI-22-Survey-Slides
(作者知乎)| 前沿综述 | 联邦学习怎样应用在推荐系统中?快速了解《基于联邦学习的推荐系统综述》
联邦学习解决的问题
客观原因
随着通用数据保护条例(general data protection regulation,GDPR) 等隐私和数据保护法律法规的颁布,以及人们隐私保护意识的提高,用户数据中的隐私安全愈发受到重视。 GDPR 等法律法规要求,在未经用户同意的情况下,任何组织和机构不得收集数据主体的个人数据。 然而传统的机器学习算法在没有获取足够多的用户数据的情况下,往往难以通过训练得到一个有效的模型。
实际问题
为了解决用户数据的隐私问题,以及在不直接获取用户原始数据的前提下得到一个有效的模型。
联邦学习范式
联邦学习使得在模型训练的整个过程中,用户的原始数据始终保留在用户(客户端) 本地,服务端和用户之间通过共享加密的或不包含隐私信息的中间参数的方式,进行模型训练和参数更新,进而在保护用户隐私的前提下构建一个有效的机器学习模型。
联邦学习本质上是一种既联合多方又不共享各方原始数据的分布式学习框架,在保护各个参与方数据中的隐私的前提下,联合各个参与方共同训练,得到一个共享的模型。需要说明的是,与传统的分布式学习框架相比,联邦学习中的各个参与方通常对自己的数据具有绝对的控制权。 因此,服务端在训练过程中需要满足各个参与方不同程度的隐私保护的要求。
联邦学习分类
目前对联邦学习的研究大多是基于横向联邦学习和纵向联邦学习,而对联邦迁移学习的研究相对较少。
①横向联邦学习
横向联邦学习是指在参与联合训练的多方中,特征重叠较多,样本重叠较少。实际上就是说用户少,但含有的重叠特征信息多。
②纵向联邦学习
纵向联邦学习是指在参与联合训练的多方中,特征重叠较少,样本重叠较多。实际上就是说重叠用户(同一用户)多,但含有的特征信息少,
③联邦迁移学习
联邦迁移学习是指在参与联合训练的多方中,特征重叠和样本重叠都较少,即啥都少。
联邦学习模型架构
①客户端-服务端
②去中心化架构
客户端-服务端 VS 去中心化架构
客户端– 服务端架构能够利用服务端的计算资源,减少客户端的计算压力,但容易发生单点故障。同时,对于好奇的服务端,其可能根据客户端上传的中间参数推断客户端的隐私信息,从而泄露客户端的隐私。 相比客户端– 服务端架构,去中心化架构不使用服务端或者服务端仅提供初始化模型参数和协助客户端之间通信的功能,而不对模型进行更新。
去中心化架构的主要优势包括以下3 个方面。
(1) 匿名性。 在模型训练过程中,客户端能以匿名的方式发送中间参数给其他客户端,从而解决客户端之间的隐私泄露问题。
(2) 节省服务端的资源。 服务端仅需初始化模型参数,将模型参数分发给各个客户端,不需要参与模型的更新。
(3) 高可用性。 不存在单点故障,即不会因为服务端的某一个部件出错而导致整个联邦学习系统中止训练。
客户端– 服务端架构和去中心化架构的相同之处在于客户端的原始数据不离开本地,通过服务端与客户端之间的通信或客户端与客户端之间的通信,以发送中间参数的训练方式来得到一个共享的模型。 在实际应用中,考虑到不同模型的优化需求,使用这两种架构时的训练流程会有所不同,例如,为了减少通信成本,一些基于客户端– 服务端架构的联邦学习算法会采用在客户端多次训练后再将中间参数上传给服务端的训练方式。
4个角度分类
模型的架构取决于不同的部署环境,不同的架构在对模型进行联邦化时需要设计不同的训练流程。 对不同模型的联邦化的研究是联邦学习的研究重点,而隐私保护技术是在模型联邦化过程中需要使用的重要技术手段。 对于联邦化后的模型,考虑到不同的业务需求,例如,提高通信效率和模型性能等,可以设计不同的模型优化策略。
①模型的架构
②模型的联邦化
③模型的优化
④隐私保护技术的应用
推荐系统概述
传统的推荐方法主要包括基于内容的推荐、基于协同过滤(collaborative filtering,CF) 的推荐和混合推荐。
基于内容的推荐算法
基于内容的推荐算法的核心思想是给用户推荐与其历史交互过的物品相似的物品,它能够解决物品的冷启动问题。 其中物品特征的提取较为关键,只要能构建出新物品的特征描述,该新物品就有可能被推荐给用户。 由于推荐的物品通常是与用户交互过的物品较为相似的物品,因此基于内容的推荐算法难以推荐一些新颖的物品。
基于协同过滤的推荐算法
基于协同过滤的推荐算法的核心思想是给用户推荐与其历史偏好相似的用户群体交互过的物品,其主要包括基于邻域的推荐算法和基于模型的推荐算法。 其中,基于邻域的推荐算法主要分为两大类: 基于用户的协同过滤推荐算法和基于物品的协同过滤推荐算法。
- 基于用户的协同过滤算法:给用户推荐和他兴趣相似的其他用户喜欢的物品。
- 基于物品的协同过滤算法:给用户推荐和他之前喜欢的物品相似(相关)的物品。
矩阵分解(matrix factorization,MF) 是协同过滤推荐算法中最受欢迎的算法之一,其以高维的(用户,物品) 评分矩阵为输入,输出一个低维的用户特征矩阵和一个低维的物品特征矩阵,通过用户特征矩阵和物品特征矩阵的内积计算得到用户对物品的评分矩阵。
与基于内容的推荐算法相比,基于协同过滤的推荐算法考虑了不同用户偏好之间的关系,但存在用户和物品的冷启动问题。
混合推荐
混合推荐算法将多种推荐算法以一定的方式组合起来,以解决单一推荐算法存在的问题。 例如,将基于内容的推荐算法和基于协同过滤的推荐算法结合起来的混合推荐算法,能够解决物品的冷启动问题,同时考虑了用户之间的偏好关系,从而构建一个更好的推荐模型。
补充–典型的推荐系统架构
一个典型的推荐系统架构如下图所示:
一般会划分为召回和排序两层。
- 召回负责从百万级物品中粗选出千级数量物品,常用算法有协同过滤、用户画像等,有时候也叫粗排层;
- 排序负责对召回层召回的千级物品进行精细排序,也叫精排层;
表示学习 VS 特征工程
表示学习(representation learning),又叫特征学习(feature learning)或者表征学习,一般指模型自动从数据中抽取特征或者表示的方法,是模型自动学习的过程;
特征工程(feature engineering),主要指对于数据的人为处理提取,得到我们认为的适合后续模型使用的样式,是人工提取的工程。狭义的特征工程指的是“数据清洗”:处理缺失值,特征选择,维度压缩等各种预处理手段,但从更广义的角度看,这些处理是为了使得数据有更好的表达以便后续应用。
推荐系统现存在的问题
推荐算法是基于集中式架构设计的,其中客户端(即用户) 仅充当数据产生者和数据传输者的角色,而数据处理和模型构建的过程由服务端来实现。 由于客户端需要将用户的原始数据上传到服务端,因此存在用户隐私泄露的风险。 同时,为了充分利用数据的价值,挖掘更高维的潜在特征,服务端构建的推荐模型越来越复杂。 此外,当用户数据增长到一定的数量级,传统的集中式推荐系统通常难以满足越来越高的存储成本和计算成本的要求。 分布式推荐系统将用户数据或模型参数分布在各个数据节点或者计算节点中,通过使用分布式计算和并行计算等技术来加快模型的训练,从而支持更大规模的数据的处理和更复杂的推荐模型的构建。 需要说明的是,隐私保护不是设计分布式推荐系统时首要关注的问题,因而服务端通常可以收集各个节点的原始数据和模型参数。
在推荐系统的应用场景中,可以将原始数据划分为用户个人信息、物品属性信息和用户与物品之间的交互信息。 对用户而言,隐私信息包括用户的个人信息(例如,性别、年龄和地理位置等)、用户对物品的显式反馈(例如,用户对物品的评分等) 和用户对物品的隐式反馈(例如,用户对物品的点击、收藏和购买等) 等。 一般认为,同一组织内部的物品属性信息是共享的,不属于用户的个人隐私。 而对不同组织,物品属性信息以及模型参数可能涉及公司的商业机密,因此通常不能直接与其他组织共享。
联邦推荐发展阶段
在2019 年的神经信息处理系统大会(NeurIPS) 上,微众银行以联邦推荐为主题介绍了他们的多个应用场景,同时还基于自主研发的企业级联邦学习平台FATE (federated AI technology enabler)提出了联邦矩阵分解和联邦因子分解机等算法,引起了众多研究人员的关注。
目前,对联邦推荐的研究仍处于起步阶段,大多数联邦推荐算法通过设计不同的联邦训练策略对传统的推荐模型进行联邦化,从而保护用户的隐私。值得注意的是,联邦学习领域中的一些重要问题,如通信成本、计算效率和激励机制等,在联邦推荐算法的设计中还较少涉及,但它们在模型的训练和部署等方面有较大影响。
联邦推荐分类
联邦推荐系统是联邦学习领域的一个重要应用场景,在这个场景中,一个客户端可以是一个用户或一个组织,客户端需在不共享数据的前提下联合建模。
三个角度
①架构设计
1、客户端-服务端架构
2、去中心化架构
②推荐系统的联邦化
推荐模型的联邦化具有一定的共性,一个联邦推荐模型的训练框架通常适用于具有相同训练方式的其他模型。。然而考虑到不同场景中的隐私保护级别可能不同以及不同模型参数可能带来的不同隐私问题,不同推荐模型在联邦化的过程中存在一定的差异。 对于模型的联邦化,可以划分为以下三种。
1、基于协同过滤的推荐算法的联邦化
2、基于深度学习的推荐算法的联邦化
3、基于元学习的推荐算法
③隐私保护技术在联邦推荐系统中的应用
1、基于同态加密的推荐算法
2、基于差分隐私的推荐算法
3、基于本地差分隐私的推荐算法
4、基于安全多方计算的推荐算法
未来研究展望
最近,十三届全国人大常委会第二十九次会议通过了《中华人民共和国数据安全法》[114],对企业收集和使用公民个人信息等问题作出规制。 联邦学习通过不上传原始数据的学习范式,结合多种隐私计算技术,能在相关法律法规的要求下发挥数据的价值,因此在推荐系统的应用中受到了学术界和工业界越来越多的关注。 然而,目前联邦学习在推荐系统中的应用仍处于起步阶段,在未来有很多值得尝试和探索的研究方向。
①推荐系统的联邦化
- 传统的推荐模型的联邦化方面的相关工作仍存在其他的隐私问题
- 在联邦推荐模型中,通过隐私保护技术来保护隐私方面会带来通信成本增加、计算复杂度增大和推荐性能下降等新的问题
- 联邦模型的训练方式与非联邦版本等价的同时,算法的训练效率较低
- 在对基于深度学习的推荐算法进行联邦化方面,客户端的存储资源和计算能力通常无法与庞大的神经网络相匹配,并且客户端自身的数据量有限,难以训练出较好的深度学习模型。边缘计算和知识蒸馏是两个解决客户端资源受限的研究思路
- 目前还没有公开发表的面向序列反馈和异构反馈建模的联邦推荐方法
②联邦推荐系统的优化
- 模型压缩**、通信策略的改进、激励机制和客户端采样等优化方法如何在联邦推荐模型中应用**
- 如何为特定的推荐模型设计更有效的优化算法
③联邦推荐场景中的隐私安全问题
- 如何衡量联邦场景中的隐私安全问题,并对已有工作中存在的隐私问题,设计一个更为有效的解决方法
- 如何在可能存在恶意的客户端和服务端或者存在一些数据质量较低的客户端的环境下,设计联邦推荐模型
- 客户端如何运用模型投毒防御和对抗攻击防御等防御手段来保护自己模型的安全性和有效性
部分联邦推荐相关的论文(非完整列表)
- 去中心化的分布式矩阵分解框架(DMF):Chaochao Chen, Ziqi Liu, Peilin Zhao, Jun Zhou, Xiaolong Li. Privacy preserving point-of-interest recommendation using decentralized matrix factorization [C]. In: Proceedings of the 32nd AAAI Conference on Artificial Intelligence (AAAI’18), pages 257-264, 2018. paper
- 联邦协同过滤推荐算法(FCF):Muhammad Ammad-ud-din, Elena Ivannikova, Suleiman A. Khan, Were Oyomno, Qiang Fu, Kuan Eeik Tan, Adrian Flanagan. Federated collaborative filtering for privacy-preserving personalized recommendation system [J]. CoRR, 2019, abs/1901.09888. paper
- 基于隐私保护的余弦相似度算法(PPCSC):Harmanjeet Kaur, Neeraj Kumar, Mohammad S. Obaidat. Multi-party secure collaborative filtering for recommendation generation [C]. In: Proceedings of 2019 IEEE Global Communications Conference (GLOBECOM’19), pages 1-6, 2019. paper
- 用户能调节自身隐私级别的去中心化分布式矩阵分解框架(PDMFRec):Erika Duriakova, Elias Z. Tragos, Barry Smyth, Neil Hurley, Francisco J. Pena, Panagiotis Symeonidis, James Geraci, and Aonghus Lawlor. PDMFRec: A decentralised matrix factorisation with tunable user-centric privacy [C]. In: Proceedings of the 13th ACM Conference on Recommender Systems (RecSys’19), pages 457-461, 2019. paper
- 联邦矩阵分解算法(FederatedMF):Koustabh Dolui, Illapha Cuba Gyllensten, Dietwig Lowet, Sam Michiels, Hans Hallez, Danny Hughes. Towards Privacy-preserving Mobile Applications with Federated Learning: The Case of Matrix Factorization [C]. In: Proceedings of the 17th Annual International Conference on Mobile Systems, applications, and Services (MobiSys’19), pages 624–625, 2019. paper
- 基于秘密共享技术的共享矩阵分解方法(SharedMF):Senci Ying. Shared MF: a privacy-preserving recommendation system [J]. CoRR, 2020, abs/2008.07759. paper
- 基于FATE平台的在线联邦推荐系统(FedRecSys):Ben Tan, Bo Liu, Vincent W. Zheng, Qiang Yang. A federated recommender system for online services [C]. In: Proceedings of 14th ACM Conference on Recommender Systems (RecSys’20), pages 579-581, 2020. paper
- 基于位置敏感哈希的联邦推荐算法(FRecLSH):Hongsheng Hu, Gillian Dobbie, Zoran Salcic, Meng Liu, Jianbing Zhang, Xuyun Zhang. A locality sensitive hashing based approach for federated recommender system [C]. In: Proceedings of 20th International Symposium on Cluster, Cloud and Internet Computing (CCGRID’20), pages 836-842, 2020. paper
- 基于差分隐私技术的本地协同过滤算法(DPLCF):Chen Gao, Chao Huang, Dongsheng Lin, Depeng Jin, Yong Li. DPLCF: differentially private local collaborative filtering [C]. In: Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR’20), pages 961–970, 2020. paper
- 安全社交推荐框架(SeSoRec):Chaochao Chen, Liang Li, Bingzhe Wu, Cheng Hong, Li Wang, Jun Zhou. Secure social recommendation based on secret sharing [C]. In: Proceedings of the 24th European Conference on Artificial Intelligence (ECAI’20), pages 506-512, 2020. paper
- 可快速训练的联邦推荐框架(FedFast):Khalil Muhammad, Qinqin Wang, Diarmuid O’Reilly-Morgan, Elias Z. Tragos, Barry Smyth, Neil Hurley , James Geraci, Aonghus Lawlor. FedFast: going beyond average for faster training of federated recommender systems [C]. In: Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’2020), pages 1234–1242, 2020. paper
- 基于深度结构化语义模型的联邦多视图框架(FL-MV-DSSM):Mingkai Huang, Hao Li, Bing Bai, Chang Wang, Kun Bai, Fei Wang. A federated multi-view deep learning framework for privacy-preserving recommendations [J]. CoRR, 2020, abs/2008.10808. paper
- 安全的联邦子模型学习框架(SFSL):Chaoyue Niu, Fan Wu, Shaojie Tang, Lifeng Hua, Rongfei Jia, Chengfei Lv, Zhihua Wu, Guihai Chen. Billion-scale federated learning on mobile clients: A submodel design with tunable privacy [C]. In: Proceedings of the 26th Annual International Conference on Mobile Computing and Networking (MobiCom’20), pages 31:1-31:14, 2020. paper
- 联邦多视图矩阵分解算法(FED-MVMF):Adrian Flanagan, Were Oyomno, Alexander Grigorievskiy, Kuan Eeik Tan, Suleiman A. Khan, Muhammad Ammad-ud-din. Federated multi-view matrix factorization for personalized recommendations [J]. CoRR, 2020, abs/2004.04256. paper
- 基于联邦学习的元矩阵分解框架(MetaMF):Yujie Lin, Pengjie Ren, Zhumin Chen, Zhaochun Ren, Dongxiao Yu, Jun Ma, Maarten de Rijke, Xiuzhen Cheng. Meta Matrix Factorization for Federated Rating Predictions [C]. In: Proceedings of the 43rd International ACM SIGIR conference on research and development in Information Retrieval (SIGIR’20), pages 981-990, 2020. paper
- 隐私保护的推荐框架(PriRec):Chaochao Chen, Jun Zhou, Bingzhe Wu, Wenjing Fang, Li Wang, Yuan Qi, Xiaolin Zheng. Practical privacy preserving POI recommendation [J]. ACM Transactions on Intelligent Systems and Technology, 2020, 11(5):52:1-52:20. paper
- 联邦新闻推荐框架(FedNewsRec):Tao Qi, Fangzhao Wu, Chuhan Wu, Yongfeng Huang, Xing Xie. Privacy-preserving news recommendation model training via federated learning [J]. CoRR, 2020, abs/2003.09592. paper
- **面向显式反馈的无损联邦推荐算法(FedRec++):**Feng Liang, Weike Pan, Zhong Ming. FedRec++: Lossless federated recommendation with explicit feedback [C]. In: Proceedings of the 35th AAAI Conference on Artificial Intelligence (AAAI’21), pages 4224-4231, 2021. paper
- 基于同态加密技术的安全联邦矩阵分解框架(FedMF):Di Chai, Leye Wang, Kai Chen, Qiang Yang. Secure federated matrix factorization [J]. IEEE Intelligent Systems, 2021, 36(5):11-20. paper
- 隐私保护的推荐系统框架(PPRSF):Jiangcheng Qin, Baisong Liu, Jiangbo Qian. A novel privacy-preserved recommender system framework based on federated learning [C]. In: Proceedings of the 4th International Conference on Software Engineering and Information Management (ICSIM’2021), pages 82-88, 2021. paper
- 强隐私保护的面向隐式反馈的联邦协同过滤:Lorenzo Minto, Moritz Haller, Benjamin Livshits, Hamed Haddadi. Stronger privacy for federated collaborative filtering with implicit feedback [C]. In: Proceedings of the 15th ACM Conference on Recommender Systems (RecSys’21), pages 342–350, 2021. paper
- 联邦序列推荐模型(DeepRec):Jialiang Han, Yun Ma, Qiaozhu Mei, Xuanzhe Liu. DeepRec: On-device deep learning for privacy-preserving sequential recommendation in mobile commerce [C]. In: Proceedings of the 30th International Conference on World Wide Web (WWW’21), pages 900–911, 2021. paper
- GNN联邦推荐学习框架(FedGNN):Chuhan Wu, Fangzhao Wu, Yang Cao, Yongfeng Huang, Xing Xie. FedGNN: federated graph neural network for privacy-preserving recommendation [J]. CoRR, 2021, abs/2102.04925. paper
- 基于虚假掩码和秘密共享的联邦推荐(FR-FMSS):Zhaohao Lin, Weike Pan, Zhong Ming. FR-FMSS: federated recommendation via fake marks and secret sharing [C]. In: Proceedings of the 15th ACM Conference on Recommender Systems (RecSys’21), pages 668–673, 2021. paper