本地化差分隐私(Local Differential Privacy)浅析

       书接上文,这次来谈谈本地化差分隐私:

一、背景

       传统的差分隐私是将原始数据集中到一个数据中心,然后在此对数据施加差分隐私算法,并对外发布,称之为中心化差分隐私(Centralized Differential Privacy)。因此,中心化差分隐私有一个前提:可信的第三方数据收集者,即保证所收集的数据不会被窃取和泄露。然而,在实际生活中想找到一个真正可信的第三方数据收集平台十分困难,这极大地限制了中心化差分隐私的应用。

       鉴此,本地化差分隐私应运而生,基于不可信第三方的前提下,其将数据隐私化的工作转移到每个用户,用户自己来处理和保护个人数据,极大地降低了隐私泄露的可能性。

       中心化差分隐私与本地化差分隐私数据处理框架,如下图所示:

            本地化差分隐私(Local Differential Privacy)浅析_第1张图片            本地化差分隐私(Local Differential Privacy)浅析_第2张图片

                         中心化差分隐私数据处理框架图                                    本地化差分隐私数据处理框架图

二、定义

       任意本地化差分隐私函数f,定义域为Dom(f),值域为Ran(f),对任意输入tt^{'} \in Dom(f),输出t^{*} \in Ran(f)都有

                                                      P[ f(t) = t^{*} ] \leq e^{\varepsilon }\timesP[ f(t^{'}) = t^{*} ] 

       注意:a. 本地化差分隐私技术通过控制任意两条记录的输出结果的相似性,从而确保算法f满足本地化差分隐私,即输出同为t^{*},窃密者无法确认输入为t还是t^{'}

                 b.  \varepsilon越小,任意两条记录输出结果相似性越高;反之,亦然。

三、扰动机制

       目前,随机响应(randomized response) 技术是本地化差分隐私保护技术的主流扰动机制,如下:

1、扰动性统计

       引入一个现实场景:有n个用户,假设AIDS患者的真实比例为\pi。我们希望对其比例进行统计,于是发起一个敏感的问题:“你是否为AIDS患者? ”,每个用户对此进行响应,第i个用户的答案为X_{i}是或否,但出于隐私性考虑,用户不会直接响应真实答案.假设其借助于一枚非均匀的硬币来给出答案,其正面向上的概率为p,反面向上的概率为1-p 。抛出该硬币,若正面向上,则回答真实答案,反面向上,则回答相反的答案。

       首先,进行扰动性统计。利用上述扰动方法对n个用户的回答进行统计,可以得到艾滋病患者人数的统计值.假设统计结果中,回答“ 是”的人数为n_{1},则回答“ 否”的人数为n-n_{1}。 显然,按照上述统计,回答“是”和“否”的用户比例如下:

                                                    P(X_{i}= = \pi p +  (1-\pi )(1-p)

                                                    P(X_{i}= = (1-\pi )p + \pi(1-p)

2、校正

       显然,上述统计比例并非真实比例的无偏估计,因此需要对统计结果进行校正。

       因此,构建以下似然函数 :

                                                    L = [ \pi p + (1-p)(1-\pi )]^{n_{1}}[(1-\pi )p+\pi (1-p)]^{n-n_{1}}

       并得到\pi的极大似然估计:

                                                    \widehat{\pi }=\frac{p-1}{2p-1}+\frac{n_{1}}{(2p-1)n}

       求导过程:a. 对L取对数,得:

                                                    ln(L) = n_{1}ln[\pi (2p-1)+(1-p)] + (n-n_{1})ln[p-\pi (2p-1)]

                        b. 对上式关于\pi求导,得:

                                                    0=\frac{n_{1}(2p-1)}{\pi (2p-1)(1-p)}+\frac{(n_{1}-n)(2p-1)}{p-\pi (2p-1)}

                        c. 化简上式,可得:

                                                    \widehat{\pi }=\frac{p-1}{2p-1}+\frac{n_{1}}{(2p-1)n}

       \widehat{\pi }的数学期望证明\widehat{\pi }是真实\pi的无偏估计:

                                                    E(\widehat{\pi })=\frac{1}{2p-1}[p-1+\frac{1}{n}\sum_{i=1}^{n}X_{i}]=\frac{1}{2p-1}[p-1+\frac{1}{n}nPr(X_{i}=

       即                                         E(\widehat{\pi })=\frac{1}{2p-1}[p-1+\pi p+(1-\pi )(1-p)]=\pi

       由此可以得到校正的统计值,其中N表示统计得到的AIDS人数估计值:

                                                    N=\widehat{\pi }\times n=\frac{p-1}{2p-1}n+\frac{n_{1}}{2p-1}

       综上,根据总人数n,回答“是”的人数n_{1}扰动概率p,即可得到真实患病人数的统计值。为保证其满足\varepsilon-本地化差分隐私,根据定义,隐私预算\varepsilon设定为:

                                                    \varepsilon =ln\frac{p}{1-p}

       注意:p的取值为(0,1),即ln\frac{p}{1-p}的值可正可负,但e^{\varepsilon }恒大于0

四、本地化与中心化差分隐私的异同点

1、组合特性

       本地化差分隐私继承中心化差分隐私的串行和并行组合特性。(详见上篇文章)

2、数据处理

       中心化差分隐私的数据处理依靠可信第三方;本地化差分隐私的数据处理依靠的是用户本身

3、噪声机制

       中心化差分隐私的噪声机制主要以拉普拉斯机制和指数机制为主;本地化差分隐私的噪声机制主要以随机响应为主。

       暂定初稿,以后会慢慢补充

       That's all, good luck.

 

你可能感兴趣的:(Differential,Privacy,本地化差分隐私,Local,Differential,Privacy)