differential privacy 差分隐私入门 (二)

(书接上回)

 对差分隐私比较感兴趣,看了几篇文章,了解一下大概的思想。现在决定重新看一下,发现有些文章内容不是很懂,干脆就一边翻译一边看了,不懂的地方我会加下划线,如果有人看到了,还请不吝指教。(注:文章是Cynthia Dwork的《Differential Privacy》)

隐私泄露完全防护的不可实现性

这种“不可能的结果”需要注意数据的实用性,毕竟如果一个机制只输出空字符串或者仅仅是噪声,显然也是保护了隐私。首先提到一些现有的机制,比如直方图发布或者K-Anonymity技术[19],很明显,对于一个有用的机制来说,他的输出不应该被用户预测到;在随机化的机制里也是如此,但是其中的不可预测性不是来自于随机机制的随机选择。感觉上来说,应该有一系列的问题(其中大多数),这些问题的答案对于用户来说是可学习的,但在事前是不知道到的。因此我们提出了一个可用性向量,称为 w,这是一个有着固定长度 k 的二进制向量(对于二进制值无特别意义)。我们可以认为关于数据问题的答案就是这些可用性向量。
数据库的隐私侵犯可以用图灵机 C 来描述,输入数据库分布 D 的描述,通过这个描述生成一个数据库 DB,一个所谓隐私侵犯的字符串并输出一个单独的比特(我们不知道具体的D的分布是什么)。我们要求C总是停止。我们说,如果在C中,给定一对(D,DB),生成了一个C(D,DB,s)接受的字符串s,则认为隐私被侵犯了。下文中C将省略。

附加信息生成者是一个图灵机,他的输入是数据库的分布D和以此生成的数据库DB,输出一个附加信息字符串z。攻击者和模拟者都会获得这个字符串。模拟者没有任何数据库的权限,攻击者可以通过隐私保护机制访问数据库。

我们用一种交流式的图灵机来模拟对手。下面的理论说明了对于任何隐私保护机制 San()和任何分布在San()中满足某种技术的分布D,总会有一些附加信息z,使得z单独出现没有影响,但是若是和访问数据库的权限结合起来,就可以认为会造成隐私泄露。除了对上面讨论的效用矢量的熵要求进行形式化外,分布上的技术条件表明,了解隐私泄露的长度并不能帮助人们猜测隐私问题。
理论1:给定任何的隐私保护机制San()和一个隐私泄露判定者C。存在一个附加信息生成者和一个攻击者,对于任何满足假设3的分布D,和所有的模拟攻击者A*,
Pr[A(D,San(D,DB),X(D,DB))wins]-Pr[A*(D,X(D,DB))wins]>= ∆
 ∆一个合格的选定的常数。The probability spaces are over choice of DB ∈R D and the coin flips of San, X, A, and A∗?(翻译者:就说隐私保护机制的存在增加了隐私泄露的风险 ∆?)

在看到附加信息生成者输出的信息之前,分布D描述了攻击者所知道关于数据库的任何信息。例如,可能知道数据库的行与至少拥有两只宠物的人有关联。注意在定理的声明中,所有参与方可以可到分布D,可能还有一个C的硬链接;但是,攻击者并不会使用它们。

当所有w都是从San(DB)中得到时X和A所选择的策略:为了研究我们的观点,我们先用一些非正式的方式来描述这种特殊情况的策略,在这种情况下,对手总是从隐私机制中学习所有的效用向量w。这是比较现实的,例如,当数据清洗提供了一个在各个年龄区间患病的人数统计直方图,或者数据清洗者从数据库中随机选出一部分子集来发布不同疾病,不同年龄段的统计信息。这个简单的例子让我们可以使用一个假设3 的更宽泛的版本:
假设2:
1,任意0<γ<1,存在nγ,使得Pr[|DB|>nγ]<γ(DB属于RD);nγ可以被D当做输出计算出来。
2,存在一个l是下面两项成立:
(a)给定任何隐私泄露长度l,使用向量的最小熵是l。
(b)对于每一个DB属于D都有长度为l的隐私泄露。
3,Pr[B(D,San(DB))wins ]<=u成立,对于任何交互式图灵机B,u是一个合适的小常量。 The probability is taken over the coin flips of B and the privacy mechanism San(), as well as the choice of DB ∈R D?

直觉上来说,2(a)部分意味着我们可以从实用性向量中随机抽取l个比特。。。

(恕奴愚钝,越来越看不懂了,下一篇直接到差分隐私吧)



你可能感兴趣的:(differential privacy 差分隐私入门 (二))