[SIGIR 2022] Privacy-Preserving Synthetic Data Generation for Recommendation Systems

摘要

推荐系统主要基于用户历史交互数据(例如,先前点击或搜索的项目)进行预测。在收集用户行为数据以构建推荐模型时,存在隐私泄露的风险。然而,现有的隐私保护解决方案仅设计用于在模型训练和结果收集阶段解决隐私问题。当直接与组织共享私人用户交互数据或将其发布给公众时,隐私泄露问题仍然存在。为了解决这个问题,在本文中,我们提出了一种用户隐私可控合成数据生成模型(UPC-SDG),该模型基于用户的隐私偏好为用户生成合成交互数据。

具体来说,

在data层面,我们设计了一个选择模块,从用户交互数据中选择那些对用户偏好贡献较小的items

在item级别,提出了一个合成数据生成模块,以根据用户的偏好生成与所选项目相对应的synthetic item。

此外,我们还提出了一种隐私实用性权衡策略,以平衡合成数据的隐私和实用性

在三个可公开访问的数据集上进行了广泛的实验和消融研究,以证明我们的方法在生成未充分利用用户隐私偏好的合成数据方面的有效性

1 引言

现有解决方案仍存在以下三个局限性:

(1)通信和计算成本。分散方法中的数据传输和本地计算使这些方法难以应用于现实世界的推荐场景;

(2)数据共享或发布的风险。在与其他组织明确共享数据或将原始数据存储在公共场所(例如,公共云)时,存在相当大的隐私泄露风险;

(3)对于不同的推荐场景,用户有不同的隐私偏好。例如,用户会更关注他们的医疗和财务信息隐私保护,而不是杂货购买记录。现有解决方案在构建推荐系统时忽略了用户隐私偏好。

[SIGIR 2022] Privacy-Preserving Synthetic Data Generation for Recommendation Systems_第1张图片

总之,这项工作的主要贡献总结如下:

  • 我们从隐私角度强调了现有推荐系统的局限性。受此启发,我们提出了一种新的UPC-SDG模型,该模型在用户隐私偏好下从原始数据生成保护隐私的合成数据。

  • 在data层面,我们提出一个选择模块,以选择对用户偏好贡献较小的利润。

在utility层面,开发了一个合成物品生成模块来创建相应的合成物品。

  • 为了最大化合成物品的效用,同时为原始物品提供必要的隐私保护,我们提出了一种隐私效用权衡策略,以优化综合项目生成过程。

  • 我们在三个真实数据集上进行了广泛的实验,以验证我们的模型,并进行了全面的消融研究,以验证模型的关键假设。实验结果证明了该方法的有效性

2 相关工作

2.2 保护隐私的合成数据

数据的公开发布和自由交换将有利于研究和开发,但对于具有隐私影响的敏感数据(如临床和基因组学数据)来说并不总是可行的。

针对这一隐私挑战,已提出了两大类解决方案。

第一类中,基于数据匿名化的方法(2,36)试图使用各种定义来净化数据,以使其不容易被重新识别。例如,Barak等人。[2]通过将噪声添加到傅里叶系数来从原始数据构建期望的数据。

尽管这些方法有一些重要的用例,但它们通常不是基于能够抵御各种类型的身份识别攻击的严格的隐私定义

第二类中,已经提出了使用严格的差分隐私定义(1、3、9)生成真实合成数据的方法。为了最大化数据的效用,生成的合成数据的分布应尽可能接近原始数据集的分布

尽管如此,它不应该包含太接近真实数据实例的合成示例,因为原始数据等的隐私可能会受到损害。

特别是,Acs等人[1]首先使用私有内核k均值将理论原始数据集聚类为k个聚类。之后,采用生成神经网络为每个聚类生成合成。

Bindschaedler等人。3]引入了看似合理的可否认性,而不是直接将噪声添加到生成模型中。隐私阈值确保了发布合成数据时可信的可否认性。在这里,对手无法通过观察合成记录来判断特定输入是否属于原始数据。

Cunningham等人。(9)提出了两种具有高度实用性的方法,用于从重新定位生成合成位置数据,这两种方法都保护了每个个体在原始数据集中的存在和真实位置。

3 本文的模型

3.1 Preliminaries

3.1.2 隐私定义

[SIGIR 2022] Privacy-Preserving Synthetic Data Generation for Recommendation Systems_第2张图片

3.3 合成数据生成

3.3.1 Data Level

[SIGIR 2022] Privacy-Preserving Synthetic Data Generation for Recommendation Systems_第3张图片
[SIGIR 2022] Privacy-Preserving Synthetic Data Generation for Recommendation Systems_第4张图片

3.3.2 Item Level

[SIGIR 2022] Privacy-Preserving Synthetic Data Generation for Recommendation Systems_第5张图片
[SIGIR 2022] Privacy-Preserving Synthetic Data Generation for Recommendation Systems_第6张图片

隐私效用权衡策略:

使用隐私规则器来限制所选原始项目和生成的合成项目之间的相对相似性差异。

敏感度γ被用作安全余量,即所选原始项目和生成的合成项目之间的相似度在一定范围内被容忍。

用户u如果更喜欢该项目,会给合成项目更高的分数。

隐私效用权衡策略的最终损失函数公式为(15)

你可能感兴趣的:(论文笔记,人工智能,python)