在上一周看了两篇社交图与差分隐私的论文后,就想着找一找浙江大学NESA实验室中关于差分隐私的论文看看,发现了两篇。今天分享的是这一篇论文,让我们开始吧!
属性图
The rich information in a social network can be described
by a graph in which nodes represent the users, edges represent
the relations between them, and feature vectors associated with
the nodes represent the attributes [10]. Such a graph is often
referred to as an attributed graph [19].
节点:用户
边:用户之间的关系
属性:与节点关联的特征向量
这里考虑的是邻接表,每个节点都存在一个w维的二进制属性向量。
一个属性图可以被分成多个分区,每个分区又会存在一个边缘分区,可以理解为外圈的节点,这些节点不属于当前分区但是必须和当前分区有直接联系。
技术问题:
LDP与CDP相比存在两个问题:
1)噪声大,数据效用降低
2)每个用户都要干扰自己的数据,存在额外开销成本
随机响应机制
用户的答案存在一定概率,数据分析者能够计算每个用户真实回答的无偏分布。并且这个概率p要符合上图提到的要求才能满足差分隐私。
这里要是看不懂的小伙伴可以看看我另外一篇博客,里面有解释。点这里
频率估计的局部差分私有协议:一个LDP频率估计协议由三种算法组成:编码、扰动和聚合[39]。LDP下频率估计的协议是RAPPOR[11]和随机矩阵投影[15]。一些研究人员使用频率估计协议作为原语来解决LDP设置中的其他问题(如[12]-[14],[39])。在编码方法的基础上,可以将LDP频率估计协议组织为直接编码(DE)、直方图编码(HE)、Unary编码(UE)和局部哈列(LH)。Wang等人。[39]总结并仔细分析了现有的LDP频率估计协议。
大方向:数据效用和隐私保护的权衡问题
小方向:图合成效果和用户局部视图隐私保护的权衡问题
创新点:目前基于差分隐私合成图的技术没有考虑节点属性及其与图结构的关系,仅限于图结构。
威胁模型:攻击者能劫持数据收集器,意味着第三方不受信任。
However,existing works on LDP graph learning and synthesis focused
on modeling network structure alone, without taking into account node attributes and their relations with the graph structure [5], [74].
深入分析:作者更加关心点属性和点属性之间的关系。最终的图就落实到了一个属性图,这种图有两个特点,分别是同质性与社交影响。这两个相辅相成,同质性表示相似属性的点可能会形成连接,社会影响表示形成连接的点可能具有相同属性。所以合成图不能仅限于考虑图的结构,还可以考虑点的属性,将两者结合起来。注意,作者的分析是基于二进制属性以及无向图上。
对策:属性图合成方法AsgLDP:利用LDP来保护图的结构特征和节点属性的工作。但是还是用的边差分隐私。
关键:如何通过精细的设计注入的噪声,解决权衡问题。
技术难点:
1)在隐私保护下直接收集图结构和节点属性,每个用户对网络的局部视图有限;
2)即使我们将它们推广到分散设置,它们的机制可能无法从管理员收集的噪声数据中生成准确的属性图。
框架需要实现的效果:
1)管理员可以在满足LDP的同时从每个节点收集网络结构和属性
2)管理员能够学习原始数据的图结构和节点属性的聚合信息
3)通过利用这些聚合信息,管理员能够生成具有高效用的合成属性图。
描述:
1)AsgLDP首先以分散的方式收集局部图结构和节点属性,同时严格满足LDP。
2)计算原始图的无偏度分布,并估计节点属性的联合分布
3)接下来,AsgLDP基于收集到的聚合信息构建一个种子属性图,并进一步优化生成数据的效用-隐私权衡,以保持一般的图属性。
关键技术:随机跳转来收集节点度,并利用随机属性列表来收集属性信息。基于收集到的聚合信息,AsgLDP进一步优化了生成的图的效用,从而保留了一般图的属性。
实验指标:
1)图结构属性,如度分布、模块化和聚类系数;
2)属性的特征,如节点属性的分布和属性社区搜索。
未来研究方向:
1)修改阶段1,使得AsgLDP处理不同类型属性的效率
2)将节点LDP、边的权重和属性纳入AsgLDP的框架中
3)如何适应AsgLDP来适应复杂的机器学习任务
问题:目前要想发布一个有意义的全图信息,需要依赖每个用户的本地视图。这其中存在冲突,主要体现在搜集用户数据会涉及敏感信息,若是在搜集的过程中过度保护用户敏感信息又会影响合成全图信息的效用。
对策:以一种分散的方式收集和生成社会图,同时为收集到的数据提供本地差异隐私(LDP)。
现有方法的问题:现有的基于ldp的合成图生成方法要么由于过多的噪声注入而无法保留重要的图属性(如模块化和聚类系数),要么无法处理属性数据,从而限制了属性数据的采用和适用性。
作者的方法:AsgLDP,一种在满足LDP的同时生成保护隐私的属性图数据的新技术。AsgLDP通过仔细设计注入的噪声和估计属性数据的联合分布来保留各种图的属性。
过程:在AsgLDP中有两个关键步骤:1)在满足LDP的情况下收集和生成图数据,2)优化生成数据的隐私-效用权衡,同时保留一般的图属性,如度分布、社区结构和属性分布。
实验与结论:通过理论分析和对6个真实数据集的实验,我们演示了AsgLDP在保留度分布、社区结构和属性社区搜索等一般图属性方面的有效性,同时严格满足LDP。我们还表明,与最先进的方法相比,AsgLDP在效用和隐私之间实现了优越的平衡。
关键词-分散的社交网络,合成属性图生成,局部差异隐私,社区发现。
社交网络数据已经在各种应用中被探索,如市场营销[60]、[63]、商品推荐[64]、[65]和疾病检测[67]、[68]。然而,这些社交网络数据通常包含敏感信息,如人之间值得信任的友谊、朋友之间的重要互动、公司之间的商业交易,因此,如果直接发布,就会引发隐私担忧。在文献中,已经提出了几种集中的保护隐私的图生成技术,同时满足严格的隐私保证,如差异隐私(DP),这在学术界、工业界都被公认为[2]、[18]、[35]-[37]事实上的数据隐私标准。与集中式差异隐私不同,我们专注于保护分散式社交网络的隐私,其中每个用户只拥有图的一部分。此外,社交网络中的用户可能与各种敏感属性(如年龄、位置和性偏好)相关联。例如,在传染病监测系统中,我们需要收集每个用户的健康状况(如肺炎、流感和支气管炎)的报告,以及每个用户的联系网络,该网络是通过疾病传播的互动网络。因此,为了在不泄露敏感信息的情况下获得分散的社交图的知识,收集这些敏感的本地观点是至关重要的。
本地差异隐私(LDP)已被谷歌[11]、Apple[15]、三星[13]等科技公司广泛用于收集分布式数据。然而,现有的LDP图学习和合成工作只集中在网络结构的建模上,而没有考虑节点属性及其与图结构[5]、[74]的关系。现实世界中的社会图通常与节点属性相关联,并确实表现出节点属性之间的相关性。例如,众所周知,可归属的社会图具有同质性[38]和社会影响[28]的特性,其中同质性表示节点与类似的属性很可能形成连接,而社会影响表明所连接的节点很可能具有相似的属性。此外,社交网络中的信息扩散也可能受到图结构和节点属性[18]的影响。然而,现有的这些相关关系从未采用基于隐私的图数据生成方法。
在本研究中,我们开发了一种新的归属图合成方法AsgLDP。据我们所知,AsgLDP是第一个利用LDP来保护图的结构特征和节点属性的工作。
通过仔细设计注入的噪声,AsgLDP首先以分散的方式收集局部图结构和节点属性,同时严格满足LDP。然后,计算原始图的无偏度分布,并估计节点属性的联合分布。接下来,AsgLDP基于收集到的聚合信息构建一个种子归因图,并进一步优化生成数据的效用-隐私权衡,以保持一般的图属性。此外,我们利用6个真实世界的社交网络数据集来证明AsgLDP在保存一般图属性方面的有效性:1)图结构属性,如度分布、模块化和聚类系数;2)属性属性,如节点属性的分布和属性社区搜索。
总之,我们的工作做出了以下贡献。
1)我们提出了AsgLDP,这是一个新颖有效的框架,以LDP以分散的方式收集和生成属性社会图(与属性信息相关的社会图结构),这是我们所知的第一次这样的尝试。
2)AsgLDP首先收集原始分散属性图的无偏聚合信息,同时严格满足LDP。具体来说,我们唯一地提出了随机跳转来收集节点度,并利用随机属性列表来收集属性信息。基于收集到的聚合信息,AsgLDP进一步优化了生成的图的效用,从而保留了一般图的属性。
3)通过理论分析和在多个真实数据集上的实验,我们证明了AsgLDP框架可以很容易地与现有的LDP机制和图模型相结合,生成具有LDP保证的合成属性社会图。此外,AsgLDP在保持度分布、社区结构、属性分布和属性社区搜索方面比现有的方法具有显著优势。
几十年来,社会图表一直被用于研究社会环境,长期以来人们一直认识到,仅凭社会网络的结构可能不足以识别社会社区[9]。最近,随着现实世界中社交网络可用信息的激增,社交图中的节点往往与许多属性相关联,如性别、成人等。
传统的图生成模型主要集中于图结构的建模,保持网络的结构特征,如度分布和聚类系数[16]、[17]、[22]、[23]、[55]、[56]、[66]。现有的生成图数据的工作无法处理具有相关属性[5]、[16]、[17]、[20]、[21]、[61]、[62]的社交图。现有的工作可以(可能)应用于考虑节点属性,如指数随机图(ERG)[24]、乘法分配图(MAG)[25]、潜在空间(LS)方法[26]、混合成员随机块模型(SBM)[27]、归属图模型(AGM)[19]和TriCycLe[18]。
然而,在LDP下,应用这些方法以分散的方式生成属性社会图仍然存在挑战:
1)在隐私保护下直接收集图结构和节点属性,每个用户对网络的局部视图有限;
2)即使我们将它们推广到分散设置,它们的机制可能无法从管理员收集的噪声数据中生成准确的属性图。
为了克服这些挑战,我们提出AsgLDP在满足LDP保证的同时,分散地收集和生成高可用的归属图数据。
我们的目标是设计一个框架来支持以下功能:
1)管理员可以在满足LDP的同时从每个节点收集网络结构和属性
2)管理员能够学习原始数据的图结构和节点属性的聚合信息
3)通过利用这些聚合信息,管理员能够生成具有高效用的合成属性图。
为了实现这些目标,我们设计了由两个阶段组成的AsgLDP:收集LDP下属性图数据的无偏聚合信息,在优化效用-隐私权衡的同时生成合成属性图。如图所示。
第一阶段(在LDP下收集属性图数据的无偏汇总信息):
1)预处理。首先,由于管理员没有任何关于图形结构的信息,他/她需要指定参与用户的数量,分配隐私预算(例如,ϵ1用于保护属性列表,ϵ2用于保护节点度),并计算度扰动域。这些参数将从管理员传输到每个用户(节点)。
2)处理。其次,每个用户根据分配的隐私预算干扰其属性列表和节点度,然后将噪声属性列表和度发送给数据管理员。
3)计算分布。最后,数据管理员计算无偏度分布和属性的联合分布。
第二阶段(在优化实用程序-隐私权衡的同时生成合成属性图):
1)种子图创建和属性图优化。在第一步中,管理员根据从第一阶段学习到的参数创建一个种子属性图。构造过程包括两个阶段:1)我们根据从第一阶段学习到的属性的联合分布为每个节点分配属性;2)我们使用接受-拒绝采样方法[29]来构造节点之间的边,使合成度分布接近原始度分布。
2)属性图优化。我们量化了合成图与原始图之间的属性一致性、结构一致性和社区一致性。基于这些指标,我们对种子图进行聚类,然后检测边缘和属性异常。最后,我们根据以下标准优化属性图的生成:1)度和属性的分布应该与原始图相似,2)同一社区中的节点比社区之外的节点更密切相关(例如,具有更相似的属性和更多的边连接)。
在文献[16]、[17]、[22]、[24]、[30]、[49]中已经提出了大量的图生成方法。第一个生成图模型,ErdoRenyi模型[49],以等概率构造每条边。Chuang和LU提出了CL模型[30],该模型扩展了ER模型,并允许边缘以不同的概率存在。然而,该模型的结构特征与所发现的结构特征并不匹配在许多现实世界的网络中,增加复杂性和更复杂的图模型,如TCL图模型[17]、BETR图模型[16]、克罗内克图模型[22]、指数随机图模型[24]等。这些方法中大多数只尝试对图的结构特征建模,而忽略节点属性。一个显著的例外是乘法归因图模型[25],它利用潜在的节点属性来匹配关系结构。另一个值得注意的例外是属性图模型[19],它生成精确的样本和对在观察到的边和节点属性集下具有相似结构和相关性的图的分布进行模型。
上述图生成模型不能防止合成图生成过程中的信息泄漏。为了解决这个问题,最近的工作集中在开发图形生成方法,同时确保集中设置[18]、[20]、[36]、[50]、[51]中的差异隐私。在差分隐私图数据生成的社区中发展了两个概念:节点差异隐私和边缘差异隐私[6],[7]。这些不同的私有图生成方法背后的关键步骤为:
1)从原始输入数据中提取模型参数
2)在满足差分隐私的同时产生噪声模型参数
3)基于具有这些噪声参数的图生成模型构建合成图数据。
但是,这些方法要求数据发布者知道整个输入图。因此,它们不适用于我们本文中所考虑的分散设置,其中数据发布者对整个图只有有限的局部视图。
LDP是差分隐私的一个重要变体,以保护在不受信任的数据管理员[4],[75]下的分布式用户的隐私。在发送到不受信任的数据管理员之前,将向每个用户计算的本地查询结果插入适当数量的噪声。然后,管理员对噪声数据进行后处理,以获得聚合的查询输出,这可以进一步与公众共享。LDP首先是由埃夫菲米耶夫斯基·[75]提出的。然后,Duchi等人。从信息论[4]的角度,系统地研究了LDP的框架,并展示了LPD下的上效用界。从那时起,许多LDP技术被提出用于数值或分类值的频率估计。厄林森等人。提出了RAPPOR[11],这是现实应用中的LDP频率估计技术。Fanti等人。扩展RAPPOR以学习数据频率,而没有显式的字典知识[40]。Kairouz等人。进一步引入k-随机响应,以任意数量的可能值保护分类属性,同时保证LDP[53]。他们还通过结合基于队列的散列、k-随机反应和RAPPOR,[52],分别呈现出O-随机反应和O-RAPPOR。Hsu等人。使用随机投影和测量浓度来估计Heavy Hitters,同时满足LDP[54]。然后,Bassily等人。提出了一种在满足LDP保证[15]的情况下,具有信息理论最优误差的简洁直方图估计算法。另一个研究线使用频率估计作为原始语来保护其他领域的数据隐私。秦等人。提出了一种两阶段的LDP机制,称为LDPMiner,旨在利用LDP[12]对集值数据提供准确的Heavy Hitters估计。Nguyen等人。提出了和谐,作为一种实用、准确、高效的收集和分析智能设备[13]用户数据的系统。和谐数据可以处理包含数值属性和分类属性的多维数据,并支持基本的统计数据和复杂的机器学习任务。此外,Ye等人。提出了PrivKV,旨在提供关键值数据的频率和平均估计。此外,还有高维数据出版物[41],[57],[58]的工作。
最接近我们的工作是LDPGen[5],它旨在与LDP综合分散的社会图。然而,它仅限于对图结构的保护,而没有考虑到图的属性信息。据我们所知,我们是第一个提出一种有效的方法,以分散的方式合成属性图,同时满足LDP。
在本文中,我们提出了AsgLDP,以分散的方式保护归属社会图的隐私。通过仔细分析社会图的结构和属性特征,我们的框架旨在综合在分散属性图的同时严格满足LDP。理论分析和广泛的实验都证实了AsgLDP的实用性、效率和实用性。通过在第一阶段修改步骤1,我们可以很容易地扩展AsgLDP以适应各种数据类型。如何进一步提高AsgLDP处理不同类型属性的效率将是未来工作的一个有趣方向。未来,我们计划将节点LDP、边的权重和属性纳入AsgLDP的框架中。此外,如何适应AsgLDP来适应复杂的机器学习任务将是另一个有趣的未来方向