(翻译)相关差分隐私:将信息隐藏在 non-IID 数据集中(一)

原文来自朱天清老师的《Correlated Differential Privacy: Hiding Information in Non-IID Data Set》
摘要:(差分隐私很流行,现有的研究主要在一个数据集上,现实生活中,很少有数据集是完全独立的。不同记录之间的关系被称为相关信息,数据集被称为相关数据集。本文提出了一个高效率的相关差分隐私解决方案并设计了一个相关数据发布机制,以此降低相关数据集采用差分隐私发布时添加的大量的噪声。考虑到数据集之间的相关等级,本文的相关敏感度可以显著的降低噪音。相关数据发布机制相关迭代机制是基于迭代方法设计的,用于回答大量查询。实验结果显示,本文的方法对于大量数据查询的平方差要比传统的方法小)

第一部分 介绍
(差分隐私的目的是在发布统计数据的同时不泄露个体隐私,多年来,差分隐私已经成为多样化隐私保护数据挖掘和隐私保护数据发布的重要隐私模型)
(以往的差分隐私的研究都假定数据集之间是相互独立的,但实际情况并不如此,实际情况中数据集之间的关联可能会泄露额外的隐私信息。例如,差分隐私保证了删除一个用户不会影响到统计结果,但是,在社交网络数据集中,用户不可避免的与其他用户有关联,这种关联可能有助于识别出被删除的用户。另一个例子就是假定攻击者知道家庭中的一个成员患了流感,他就有可能推断出家庭里其他成员很有可能也患有流感。我们把这种关系称为关联信息,涉及的记录称为关联记录。攻击者掌握了相关信息将会更有可能获取敏感信息,这违背了差分隐私的定义。隐私怎样在关联数据集严格的保护隐私是我们要解决的问题)
(在过去的十多年中,很少有研究关注相关差分隐私。Kifer [1]说过,若相关记录被忽视了,那么隐私保护所达到的效果会比预想中的低的多。随后的文章中提出了一种新的隐私定义,名为Pufferfish [2],这种定义考虑到了相关记录,但他并不满足差分隐私的定义。chen等人 [3]通来解决过将隐私保护预算乘以相关记录的数量来解决社交网络中的关联信息问题。这种直接的方法并不是最优的,因为它在结果中引入了大量的噪音,这些噪音掩盖了数据的本身的实用性。因此,相关差分隐私中的主要障碍是相关记录给攻击者提供了额外的信息,这种隐私泄露很难用传统的方法来解决,更不用说还要满足差分隐私了)
(随着在相关数据集上研究的进展,特别是最近提出的有关non-IID [4]数据集的研究,现在有可能解决上述问题。相关信息可以表示为函数和参数,这两者可以进一步被定义为差分隐私保护机制中的背景信息。例如,Cao等人 [4]利用时间间隔和相关分析定义了相关记录,并且利用内部行为(inter-behavior)函数模型化了相关信息。这种解决方法了在差分隐私机制中加入了模型化函数的问题,但这种方法仍然有三个问题没有得到解决:
第一个问题是怎样识别和表示相关记录。记录之间的关系通常不是很明显。对于掌握那些记录是相互关联的并且他们之间是怎么联系的还需要更深入的研究。
第二个问题是如果我们只是单纯的用初始隐私保护预算乘以相互关联记录的数量,添加的噪声之大将会严重的影响数据的实用性。
第三个问题是应对大量查询的情况。当查询数量非常大时,隐私保护预算不得不被分割为小部分,这会增加每个查询的噪声。这种问题在相互关联的数据集中尤为明显,因为需要回答更多的问题,相关记录数量越多,需要引入的噪声就越大。
(所有的这些问题意味着相关信息不应该直接被用在差分隐私中,需要一个新颖的机制来解决。对于第一个问题,我们发现大多数记录都仅仅是部分相关。换句话说,删除一个记录可能对其他数据有不同的影响。我们将这些影响定义为相关等级,并且利用了等级的多样化来计算噪音。基于此,我们提出了相关敏感度,相比于以往的全局敏感度,相关敏感度引入的噪声更少。第二个问题可通过在数据发布机制中节省隐私预算来缓解。如果某些查询可用随机值或者中位数来回答,那么隐私保护预算就可以被节省下来,噪声也会降低很多。基于这些发现,我们提出了有关关联差分隐私的解决方案,本文的成果如下:
第一,对相关差分隐私的问题同他的应用和挑战做了理论上的分析。提供了一个清楚的问题定义,并解释了关联数据集中差分隐私的重要性。
第二,基于数据之间的相关等级,我们提出了相关敏感性的概念,他可以帮助我们减少差分隐私中的噪声等级。
第三,我们设计了相关迭代机制来回答大量的查询。这种机制构建了一个数据集序列通过迭代的更新数据集来回答所有的问题。主要的优势是节省了隐私预算并且减少了每个查询所添加的噪音。
本文的其余部分如下。第二部分是一些预备知识,第三部分是问题陈述,第四部分讨论了相关数据集分析,第五部分讨论了相关迭代机制。机制的理论隐私效果和实用性分析在第六部分,第七部分是实验结果,第八部分是结论)

第二部分 预备知识
(网页崩了,这章节翻译过的都没了,这部分没什么重要的东西,不想再翻译了)
具体来说,我们试图解决以下问题:
怎么定义数据集中的相关记录?
怎么计算相关数据集的敏感等级?
怎么设计一个相关数据发布机制?


你可能感兴趣的:(差分隐私初探)