Manipulating Federated Recommender Systems: Poisoning with Synthetic Users and Its Countermeasures
联合推荐系统(FedRecs)被认为是隐私保护技术,以在不共享用户数据的情况下协作地学习推荐模型。由于所有参与者都可以通过上传梯度直接影响系统,因此FedRec很容易受到恶意客户端的中毒攻击。然而,大多数现有的中毒攻击FedRecs要么是基于一些先验知识或具有较低的有效性。为了揭示FedRecs的真实的漏洞,在本文中,我们提出了一种新的中毒攻击方法,在不依赖任何先验知识的情况下,有效地操纵目标项目的排名和曝光率。具体来说,我们的攻击操纵目标项目的曝光率由一组合成的恶意用户上传有毒梯度考虑目标项目的替代产品。我们在两个真实世界的推荐数据集上使用两个广泛使用的FedRecs(Fed-NCF和Fed-LightGCN)进行了广泛的实验。 实验结果表明,我们的攻击可以显着提高不受欢迎的目标项目的曝光率与极少数的恶意用户和更少的全球时代比国家的最先进的攻击。除了揭示安全漏洞,我们设计了一种新的对策中毒攻击FedRecs。具体来说,我们提出了一个分层梯度裁剪稀疏更新,以抵御现有的中毒攻击。实验结果表明,该防御机制提高了FedRecs的鲁棒性。
推荐系统被广泛地部署在许多在线场景中(例如,电子商务(Wei等人,2007; Chen等人,2020 b)和社交媒体(Yin等人,2015; Yin and Cui,2016; Wang等人,2020年)),帮助用户从海量信息中发现自己感兴趣的内容。传统的推荐系统需要收集用户的个人数据以集中的方式训练推荐模型(Zhang et al. 2019年)。随着人们对隐私的日益关注和新的隐私保护法规(例如:欧盟的GDPR(Voigt和Von dem Bussche,2017)和CCPA(Harding等人,2019)在美国)、联合推荐器(FedRecs)(Ammad-Ud-Din等人,2019年)最近已经成为一种隐私保护解决方案,可以在个人设备之间协作学习推荐模型,而无需将用户的原始数据上传到中央服务器。
虽然FedRecs可以减轻训练推荐系统的隐私问题,但最近的研究(Zhang et al. 2022 b; Rong等人,2022 b,a)示出了FedRecs固有地易受梯度中毒攻击(也称为模型中毒攻击)的影响,因为它们的开放和分散的特性允许任何客户端参与训练过程,并且恶意客户端可能参与其中(Tolpegin等人,2020年)的情况。具体而言,具有受损设备的用户将上传污染的梯度以实现针对性的对抗目标(例如:操纵项目等级和暴露率)。PipAttack(Zhang等人,2022 b)提出了对FedRecs的梯度中毒攻击的第一个工作,以提高目标项目的曝光机会。但它需要许多恶意用户,并假设对手知道所有项目的流行度信息。FedRecAttack(Rong等人,2022 b)实现了具有更少恶意用户的项目促销。 然而,它基于一个更强的假设,即恶意用户可以从良性用户那里获取一定比例的数据,这在大多数FedRec中并不适用。(Rong例如,2022a)提出了一种无需先验知识假设的梯度中毒攻击。然而,它的性能是不稳定的和不期望的,因为它从高斯分布中随机采样向量来充当目标项的嵌入的代理。综上所述,现有的梯度中毒攻击FedRecs要么是基于不切实际的先验知识,或与不理想的性能。此外,虽然这些工作强调了对梯度攻击的新防御机制的迫切需要,但尚未开发出有效的防御解决方案。
为了揭示中毒攻击对FedRecs的真实的威胁,本文提出了一种新的梯度中毒攻击方法PSMU(Poisoning with Synthetic Malicious Users)。PSMU旨在提高目标项目的暴露率(即,以使目标项目出现在更多用户的前K个推荐列表中)。PSMU的想法基于我们的有趣发现,即随机构建的合成用户和真实的用户的前K个推荐之间的相似性由于流行性偏差而惊人地高(Abdollahpouri等人,2019年),如表1所示。基于这一发现,我们提出了一个假设,如果一个目标项目有一个高的曝光率之间的合成用户,那么这个项目将有很高的机会被推荐给真实的用户的FedRecs。在此假设下,PSMU如下工作。 恶意用户在参与FedRec的训练过程时随机选择一组项作为交互项。然后,恶意用户基于随机选择的肯定项学习合成用户嵌入,并基于合成用户嵌入优化目标项的排名。此外,为了进一步提高目标项目的竞争性,我们通过增加目标项目的备选方案来扩大竞争集。目标项目的预测偏好得分要求高于前K个推荐项目及其替代项目的预测偏好得分(即,目标项目的竞争集合)。
FedRecs的脆弱性凸显了对针对中毒攻击的新防御的及时需求。遗憾的是,没有现有的工作试图为FedRecs中的这个安全问题提供解决方案。在一般的联邦学习中已经进行了一些研究(例如,联合分类(Zhang等人,2021b)),但它不能直接应用于FedRecs,因为FedRecs和一般联邦学习之间存在以下主要差异。(1)与一般的联邦学习不同,来自不同客户端的数据不是IID。因此,来自不同客户端的相同项目的梯度可能彼此显著不同。然而,广泛使用的拜占庭防御方法(例如,克鲁姆(Blanchard等人,2017)、Bulyan(Guerraoui等人,2018)、修剪平均值(Yin等人,2018))中,通常假设客户端的数据具有相同的分布,并直接比较客户端上传的梯度以消除中毒效应。 因此,它们通常会导致FedRecs的性能显著下降(参见第5.7节中的详细信息)。(2)与一般的联邦学习相比,FedRecs中的服务器不能访问客户端的私有参数。因此,依赖于访问整个模型的现有防御方法不能在FedRecs中工作(Fang et al. 2020年)的情况。
在本文中,我们提出了一种新的防御方法对梯度中毒攻击的中心服务器,命名为分层梯度裁剪与稀疏更新(HiCS)。首先,中央服务器剪辑所有接收到的梯度以避免主导梯度。第一剪辑限制中毒梯度的效果。然而,它仍然是不够的,因为我们不能设置一个太小的裁剪因子,以保证收敛。因此,进一步采用具有稀疏更新的自适应裁剪来对抗梯度中毒攻击。具体地,经裁剪的梯度将在存储器组中累积。服务器仅选择库中的几个最重要的项嵌入梯度来更新模型。在更新之前,利用自适应裁剪因子将另一裁剪应用于累积梯度,以进一步减小污染梯度的影响。
为了证明我们提出的攻击和防御的通用性和有效性,我们用两个常用的FedRecs(Fed-NCF(Ammad-Ud-Din等人,2019)和Fed-LightGCN(He等人,2020))在两个真实世界数据集(MovieLens-1 M(哈珀和Konstan,2015)和Amazon Digital Music(McAuley等人,2015))。实验结果验证了梯度中毒攻击对FedRecs的威胁,即使没有任何用户和项目的先验知识,并且恶意用户非常少。同时,实验结果也表明了我们提出的防御方法对所有现有的中毒梯度攻击的有效性。
综上所述,本文的主要贡献如下:
·我们提出了一个有趣的发现,在随机构造的合成用户和真实的用户的前K个推荐之间存在很大一部分重叠项目,这强烈支持我们的猜想,如果目标项目在合成用户中享有高曝光率,则它将在基于CF的推荐系统中在真实用户中具有高曝光率。
·提出了一种有效的FedRecs梯度中毒攻击方法PSMU,该方法可以在不需要先验知识的情况下操纵项目的排名,并且恶意用户更少,全局历元更少,揭示了FedRecs更严重的梯度中毒攻击漏洞。
·据我们所知,我们是第一个提出基于梯度裁剪和稀疏更新的防御方法(HiCS),以解决FedRecs上的梯度中毒攻击的威胁。
·使用两个广泛使用的FedRecs在两个真实世界的推荐数据集上进行了大量的实验,验证了我们的攻击和防御方法的通用性和有效性。
由于 FedRecs 提供了一种隐私保护解决方案来训练推荐系统 (Zheng 等人,2016年),它们近年来引起了越来越多的关注。阿马德等人。 (Ammad-Ud-Din 等人,2019)提供了第一个 FedRec 框架。之后,近年来又提出了很多扩展版本 (Long et al .,2023年)。穆罕默德等人。 (穆罕默德等人,2020)改进了用户抽样和聚合策略,以加速 FedRec 的收敛过程。FedRec++ (Liang 等人,2021年)探索了一种通过显式反馈学习推荐系统的安全方法。 (吴等人,2021年)和 (Wu 等人,2022b)尝试使用图形神经网络 (Scarselli 等人,2008年)和对比学习 (Chen et al . ,2020a; 余等。,2022年)在 FedRecs 中。伊姆兰等。 (伊姆兰等人,2022年)提出了一种资源高效的 FedRec 来学习用户偏好。
随着 FedRecs 的广泛应用,潜在的安全问题引起了研究人员的关注 (Zhang 和 Yin,2022年; 王等人。,2022年; 元等。,2023a),而中毒攻击是最近新出现的威胁之一。一般来说,投毒攻击可以分为数据投毒和梯度投毒。
数据中毒攻击。数据中毒攻击通过注入对抗性交互来污染训练数据来进行攻击 (Kapoor 等人,2017年)。为了创建高质量的虚假交互,数据中毒攻击必须利用整个数据集的信息 (Fang 等人,2018; 张等人。,2021a; 黄等人。,2021年; 范等。,2022年; 张等人。,2022a)。因此,数据中毒攻击通常在集中式推荐系统中进行研究。 (吴等人,2022a)是FedRecs中唯一的数据中毒攻击,但它的重点是降低FedRecs的准确性,这与我们的工作主题无关。
梯度中毒攻击。梯度中毒攻击(也称为模型中毒攻击)专门针对联邦学习(FL)场景 (Fang et al .,2020)。PipAttack (张等人,2022b)是第一个在 FedRecs 中进行梯度中毒攻击的工作。它通过将目标项目的嵌入调整为与流行项目的嵌入相似来提升目标项目。PipAttack 有两个缺点:(1)它假定所有项目的流行信息都可用于恶意用户;(2) 它依赖于很大比例的恶意用户(例如超过10%). FedRecAttack (荣等人,2022b)以较少的恶意用户实现了攻击者的目标,然而,它基于甚至破坏 FedRec 协议的更强假设,即它需要从良性用户访问一定比例的交互数据。 (荣等人,2022a)是唯一不依赖于任何先验知识的梯度中毒攻击。然而,它不够有效,因为它只是根据高斯分布随机生成的向量来近似用户嵌入。因此,现有的中毒攻击要么需要无法获得的先验知识,要么性能低下,无法揭示中毒攻击对 FedRecs 的真正威胁。
防御。FedRecs 中针对中毒攻击的防御仍未得到充分探索。FRU (Yuan et al . ,2023b)提供了一种使用联合取消学习的恢复方式 (Nguyen 等人,2022年)有效地重建被破坏的 FedRecs。但是,它不能直接防御中毒攻击。