对差分隐私比较感兴趣,看了几篇文章,了解一下大概的思想。现在决定重新看一下,发现有些文章内容不是很懂,干脆就一边翻译一边看了,不懂的地方我会加下划线,如果有人看到了,还请不吝指教。(如果未来有人看到我这篇翻译,请在2018年9月份之前告诉我,在21世纪20年代,
什么职业最火)
(注:文章是Cynthia Dwork的《Differential Privacy》)
差分隐私
摘要:在1977年,Dalenius明确了统计数据库中的一个愿景:在没有访问数据库内部的权限的前提下,任何关于个人的信息都不能从数据库中获得。(对于这种愿景)我们大体上给出了一个不可能实现的结论,即结论表明了Dalenius在语义安全上的形式化目标是不可能实现的。与想象的不同,即使某个人不在数据库内,(查询结果的变体)同样可以威胁到这个人的隐私。这种状况催生了一种新的手段,差分隐私。这种手段,直观上来说,可以捕捉到因参与到数据库中而增加的隐私泄露风险。这种技术发展于一系列文章中[8,13,3],最终在文章[12]中提到,这种技术可以达到任何隐私保护水平。在许多情况下可以做到既能保证数据库信息的准确性,又能保证具有很高的隐私保护水平。
介绍
统计数据库是从样本里计算出来的量的数据。如果一个数据库是一个表示人口的样本,隐私保护的目的就是使用户在学习人口总体提数据特征的同时也能保护在样本里个人的隐私信息。这里的所讨论的方法是催生于这样一种问题:如何公布人口数据的有效信息(作为一种数据库的代表),同时保护了个人的隐私。不经意间,这种在文献[8,13,3],尤其是在文献[12]中发展起来的技术是如此的有用,进而可以扩充到更大的范围,而不是最初的“代表性数据库”(人口样本?),使对于一个目标的隐私保护分析变得有意思。例如,在不泄露节点与边信息的同时,可以发布一个具体的内联网络,而不是一个样本子网来提供网络的特征信息。因此,我们可以将差分隐私用在更广泛的问题上。
一个严格的隐私处理需要定义:是什么导致了隐私泄露?隐私侵犯的动力是什么?在没有数据库权限的情况下,攻击者都有哪些背景知识(新闻,医疗研究,就业统计)?当然,数据实用性也需要正确对待,因为不发布或者仅发布噪声也不会造成隐私泄露;我们稍后会回到这一点,但是在这篇文章里,隐私是首要考虑的,我们先确定我们的隐私目标,然后在满足这种目标的前提下探究如何提升数据的实用性(
在这方面,安全函数的评估各有不同,隐私只有在按照函数计算时才会得到保证,如果函数被纰漏,隐私保护也就无从谈起?)。
1977年的一篇关于Dalenius[6]的论文提出了一种愿望,为数据库提供了一种语义安全的概念,五年后,Goldwasser和Micali为密码系统定义了语义安全概念[15]:对统计数据库的访问不能使人得到任何没有访问数据库就得不到隐私数据。我们展示了这种隐私保护是达不到的。原因就在于附加信息,即不是攻击者从数据库得到的信息,证明思路如下例。假如一个人的身高数据被认为是一项高度隐私数据,身高的数据的泄露会造成隐私泄露。假如数据库提供了不同民族女性的平均身高,一个有数据库查询权限的攻击者并且掌握了额外的信息“Terry Gross 比立陶宛女性的平均身高低2英寸”推断出了这位女性的身高,造成隐私泄露,同时其他任何掌握了同样额外信息的人,若没有访问数据库的权限,只能得到相对较少的信息。
这个“不可能”的结论有两个值得注意的方面:(1)不论Terry Gross是否在数据库中,它都适用(2)Dalenius的目标,形式化为语义安全的宽松版本不能实现,但在密码系统中可以实现。第一点很自然的形成了一种新的隐私目标:对于一个人的隐私风险,或者宽泛的说,任何风险例如被汽车保险公司拒绝的风险,不应该因为参与到数据库中而大幅提升。这被称为差分隐私
分别在我们的数据集和密码系统上实现差分可能性的差别在于实用性需求。隐私攻击者类似于密文窃听者,用户比作密文接受者,
但是没有秘钥将他们分开,他们(攻击者和用户)都是同一个人。
总体上来说,数据库是设计用来传递具体的信息。一个附加信息生成者知道这个数据,因此知道用户将从数据集里得到什么。这可以被用来在攻击者或用户之间建立共享秘密,这种秘密其他没有数据库权限的人是不知道的。反过来说,假设一套密码系统,还有一对候选信息,比如{0,1}.知道哪个信息将被加密对于密文来说没有任何线索;很自然的说,附加信息产生者不知道窃听者将会看到什么密文。这是因为密文的定义必须对窃听者没有任何可用性。
在这篇文章中,我们证明了“不可能”的结论,定义了差分隐私,并且从[8,13,3,12]中提到的交互式技术总结出这种技术可以到达任何想要的隐私保护水平。在许多情况下,可以同时满足数据的高精确度和隐私保护的高水平要求。
相关工作:有大量关于数据库隐私保护的文献;我们仅仅提到几个这种方法被拿出来的领域。从1989年来相关技术的综述请参照文献[1]。到目前为止,对信息泄露最广泛的处理是在统计学界;例如,在1988年,Journal of Official Statistics用一整期来说明这个问题。包含了大量对于统计数据库的隐私保护技术以及调查研究。但是,据我们所知,关于差分隐私的严格定义和对攻击者的分级并不是这些文章研究的内容。
在19世纪80年代,理论计算科学团体对隐私泄露有一个非常专业的定义,或者说如何才认为攻击者攻击成功了(参照[9]等)。
由于现代密码学已经使我们形成部分信息泄露危险的概念,随后的隐私保证被认为是不够普遍的。信息安全团体也在研究数据库方面的隐私。尽管这方面的研究似乎已经停滞了20多年,Denning的工作[7]是最接近最近提出的这种方法的[13,3,12]。
Agrawal和Srikant[2]的工作和Sweeney对于隐私的破坏在计算机科学中重新燃起了兴趣。特别是在数据库领域。我们的兴趣源于同Helen Nissenbaum博士以此谈话的话题。
隐私数据分析:数据集
有两种隐私模型机制:交互式和非交互式。在非交互数据集中,数据收集者,一个受信任的团体,发布所收集数据清洗后的版本;关于这方面的文献用的术语有“匿名化”和“泛化”。传统上来说,数据清洗用的技术有扰动,抽样,也包括已出标识符(名字,出生日期,社保账号)。也包括发布各种概要和统计数据。在交互式数据集中,同样是受信任的数据收集者,提供了一个用户可以提问的接口,并从接口中得到答案(可能包含噪声)。
关交互式数据集有很多很好的研究结果[13,3,12],但非交互数据集则认为是更难一些(参照[14,4,5]),可能是由于在数据清洗的同时确定数据的有效性比较困难。这些直觉在文献[12]中有所体现,在此文献中展示了一些离散的结果。
隐私泄露完全防护的不可实现性
(未完待续)