最近实验室的师弟汇报高斯机制,自己也经常遇到,所以学习一下。本文来自Dwork女士的《The Algorithmic Foundations of Differential Privacy》的附录A,其中有一些细节没有看懂,期盼有明白的同学能够给予解答,同时也希望能指出本文存在的错误。
定义一:(隐私损失 privacy loss)对于两个相邻的数据集 D , D ′ D,D' D,D′(即 ∣ ∣ D − D ′ ∣ ∣ 1 = 1 ||D-D'||_1=1 ∣∣D−D′∣∣1=1),输出 o o o 和随机函数 M M M ,该随机函数造成的隐私损失 c M ( o , D , D ′ ) c_M(o,D,D') cM(o,D,D′)定义为 c M ( o , D , D ′ ) : = l n P r [ M ( D ) = o ] P r [ M ( D ′ ) = o ] c_M(o,D,D'):=ln\frac{Pr[M(D)=o]}{Pr[M(D')=o]} cM(o,D,D′):=lnPr[M(D′)=o]Pr[M(D)=o]
定理一:随机函数 M M M是 ( ϵ , δ ) (\epsilon, \delta) (ϵ,δ)-DP 的充分条件是其隐私损失 c M ( o , D , D ′ ) c_M(o,D,D') cM(o,D,D′)满足 P r [ c M ( o , D , D ′ ) > ϵ ] ≤ δ Pr[c_M(o,D,D')>\epsilon]\leq\delta Pr[cM(o,D,D′)>ϵ]≤δ
证明:定义 B = { o : c M ( o , D , D ′ ) > ϵ } B=\{o:c_M(o,D,D')>\epsilon\} B={o:cM(o,D,D′)>ϵ}
P r [ M ( D ) ∈ S ] = P r [ M ( D ) ∈ S ∩ B ] + P r [ M ( D ) ∈ ( S − B ) ] ≤ P r [ M ( D ) ∈ B ] + P r [ M ( D ) ∈ ( S − B ) ] ≤ P r [ M ( D ) ∈ B ] + e ϵ P r [ M ( D ′ ) ∈ ( S − B ) ] ≤ P r [ M ( D ) ∈ B ] + e ϵ P r [ M ( D ′ ) ∈ S ] \begin{aligned} Pr[M(D) \in S]&=Pr[M(D)\in S\cap B] + Pr[M(D)\in (S-B)] \\ &\leq Pr[M(D)\in B]+Pr[M(D)\in(S-B)] \\ &\leq Pr[M(D)\in B]+e^\epsilon Pr[M(D')\in(S-B)]\\ &\leq Pr[M(D)\in B]+e^\epsilon Pr[M(D')\in S] \\ \end{aligned} Pr[M(D)∈S]=Pr[M(D)∈S∩B]+Pr[M(D)∈(S−B)]≤Pr[M(D)∈B]+Pr[M(D)∈(S−B)]≤Pr[M(D)∈B]+eϵPr[M(D′)∈(S−B)]≤Pr[M(D)∈B]+eϵPr[M(D′)∈S]
如果 P r [ c M ( o , D , D ′ ) > ϵ ] < δ Pr[c_M(o,D,D')>\epsilon]<\delta Pr[cM(o,D,D′)>ϵ]<δ ,
则Pr[M(D) ∈ \in ∈ S] ≤ \leq ≤ Pr[M(D) ∈ \in ∈ B] + e ϵ ^\epsilon ϵPr[M(D’) ∈ \in ∈ S].
即算法M满足 ( ϵ , δ ) − D P (\epsilon,\delta)-DP (ϵ,δ)−DP.
说明: ( ϵ , δ ) − D P (\epsilon, \delta)-DP (ϵ,δ)−DP的充分条件是隐私损失被限制在 ϵ \epsilon ϵ之内,同时也允许很小的概率 δ \delta δ打破这个限制。
其中 △ 2 f = m a x a d j a c e n t D , D ′ ∣ ∣ f ( D ) − f ( D ′ ) ∣ ∣ 2 \triangle_2f=max_{{adjacent}_{D,D'}}||f(D)-f(D')||_2 △2f=maxadjacentD,D′∣∣f(D)−f(D′)∣∣2,f为查询函数。
P r [ M ( D ) = o ] P r [ M ( D ′ ) = o ] = P r [ f ( D ) + N = o ] P r [ f ( D ′ ) + N = o ] = P r [ N = o − f ( D ) ] P r [ N = o − f ( D ′ ) ] = e − [ o − f ( D ) ] 2 2 σ 2 e − [ o − f ( D ′ ) ] 2 2 σ 2 = e − [ o − f ( D ) ] 2 2 σ 2 e − [ o − f ( D ) + Δ f ] 2 2 σ 2 = e − x 2 2 σ 2 e − ( x + Δ f ) 2 2 σ 2 \begin{aligned} \frac{Pr[M(D)=o]}{Pr[M(D')=o]}&=\frac{Pr[f(D)+N=o]}{Pr[f(D')+N=o]}\\&=\frac{Pr[N=o-f(D)]}{Pr[N=o-f(D')]}\\&=\frac{e^{-{\frac{[o-f(D)]^2}{2\sigma^2}}}}{e^{-{\frac{[o-f(D')]^2}{2\sigma^2}}}}\\&=\frac{e^{-{\frac{[o-f(D)]^2}{2\sigma^2}}}}{e^{-\frac{[o-f(D)+\Delta f]^2}{2\sigma^2}}}\\&=\frac{e^{-{\frac{x^2}{2\sigma^2}}}}{e^{-\frac{(x+\Delta f)^2}{2\sigma^2}}} \end{aligned} Pr[M(D′)=o]Pr[M(D)=o]=Pr[f(D′)+N=o]Pr[f(D)+N=o]=Pr[N=o−f(D′)]Pr[N=o−f(D)]=e−2σ2[o−f(D′)]2e−2σ2[o−f(D)]2=e−2σ2[o−f(D)+Δf]2e−2σ2[o−f(D)]2=e−2σ2(x+Δf)2e−2σ2x2
由于概率恒正
∣ l n e − x 2 2 σ 2 e − ( x + Δ f ) 2 2 σ 2 ∣ = ∣ l n e − 1 2 σ 2 [ x 2 − ( x + Δ f ) 2 ] ∣ = ∣ − 1 2 σ 2 [ x 2 − ( x 2 + 2 x Δ f + Δ f 2 ) ] ∣ = ∣ 1 2 σ 2 ( 2 x Δ f + ( Δ f ) 2 ) ∣ < ϵ \begin{aligned} |ln\frac{e^{-{\frac{x^2}{2\sigma^2}}}}{e^{-\frac{(x+\Delta f)^2}{2\sigma^2}}}|&=|lne^{\frac{-1}{2\sigma^2}[x^2-(x+\Delta f)^2]}|\\&=|-\frac{1}{2\sigma^2}[x^2-(x^2+2x\Delta f +\Delta f^2)]|\\&=|\frac{1}{2\sigma^2}(2x\Delta f+(\Delta f)^2)|\\&<\epsilon \end{aligned} ∣lne−2σ2(x+Δf)2e−2σ2x2∣=∣lne2σ2−1[x2−(x+Δf)2]∣=∣−2σ21[x2−(x2+2xΔf+Δf2)]∣=∣2σ21(2xΔf+(Δf)2)∣<ϵ
说明:书上少写了一个t
P r [ x > t ] = ∫ t ∞ 1 2 π σ e − x 2 2 σ 2 d x ≤ − σ 2 π ∫ t ∞ 1 t e − x 2 2 σ 2 d − x 2 2 σ 2 ≤ σ 2 π t e − t 2 2 σ 2 \begin{aligned} Pr[x>t]&=\int_{t}^{\infty}\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{x^2}{2\sigma^2}}dx\\&\le-\frac{\sigma}{\sqrt{2\pi}}\int_{t}^{\infty}\frac{1}{t}e^{-\frac{x^2}{2\sigma^2}}d-\frac{x^2}{2\sigma^2}\\&\le\frac{\sigma}{\sqrt{2\pi}t}e^{-\frac{t^2}{2\sigma^2}} \end{aligned} Pr[x>t]=∫t∞2πσ1e−2σ2x2dx≤−2πσ∫t∞t1e−2σ2x2d−2σ2x2≤2πtσe−2σ2t2
1 2 σ 2 ( σ 2 ϵ Δ f − Δ f 2 ) 2 = 1 2 σ 2 [ Δ f ( c 2 ϵ − 1 2 ) ] 2 = [ Δ f ( c 2 ϵ − 1 2 ) ] 2 [ ϵ 2 c 2 ( Δ f ) 2 ] 1 2 = 1 2 ( c 2 ϵ − 1 2 ) 2 ϵ 2 c 2 = 1 2 ( c 2 − ϵ + ϵ 2 / 4 c 2 ) \begin{aligned} \frac{1}{2\sigma^2}(\frac{\sigma^2\epsilon}{\Delta f}-\frac{\Delta f}{2})^2&=\frac{1}{2\sigma^2}[\Delta f(\frac{c^2}{\epsilon}-\frac{1}{2})]^2\\&=[\Delta f(\frac{c^2}{\epsilon}-\frac{1}{2})]^2[\frac{\epsilon ^2}{c^2(\Delta f)^2}]\frac{1}{2}\\&=\frac{1}{2}(\frac{c^2}{\epsilon}-\frac{1}{2})^2\frac{\epsilon^2}{c^2}\\&=\frac{1}{2}(c^2-\epsilon+\epsilon^2/4c^2) \end{aligned} 2σ21(Δfσ2ϵ−2Δf)2=2σ21[Δf(ϵc2−21)]2=[Δf(ϵc2−21)]2[c2(Δf)2ϵ2]21=21(ϵc2−21)2c2ϵ2=21(c2−ϵ+ϵ2/4c2)
先讨论第一项 l n ( ( σ 2 ϵ / Δ f − Δ f / 2 ) / σ ) ln((\sigma^2\epsilon/\Delta f-\Delta f/2)/\sigma) ln((σ2ϵ/Δf−Δf/2)/σ),得出c的一个不太紧的界,由第二项 ( σ 2 ϵ / Δ f − Δ f / 2 ) 2 / 2 σ 2 (\sigma^2\epsilon/\Delta f-\Delta f/2)^2/2\sigma^2 (σ2ϵ/Δf−Δf/2)2/2σ2得出一个关于c更紧的界(tighter)。不清楚 c ≥ 1 c\ge1 c≥1这一条件怎么来的,由对数函数的性质可推出 c ≥ 3 / 2 c\ge3/2 c≥3/2.
这里能去掉第一项的原因是当 c = 3 / 2 c=3/2 c=3/2时,第一项为0;当 c > 3 / 2 c>3/2 c>3/2时,第一项大于0.故只留第二项这个不等式也是成立的.
证明结束.
1、为什么 σ = c Δ f / ϵ \sigma=c\Delta f/\epsilon σ=cΔf/ϵ要写成这种形式;
2、不清楚 c ≥ 1 c\ge1 c≥1怎么来的;
3、再看看高斯在DP- SGD中的应用.
The Algorithmic Foundations of Differential Privacy
Composition Theorem