链接: (1) Ghazi, B.; Golowich, N.; Kumar, R.; Manurangsi, P.; Zhang, C. On Deep Learning with Label Differential Privacy. arXiv preprint arXiv:2102.06062 2021.
.
本文主要贡献是在多分类深度学习任务中,提出了一个使用label differential privacy 的深度学习算法,实现了在提高准确率的同时,保证了隐私性,同时该算法利用了每一轮训练的结果作为先验知识,提高下一轮训练的准确率
对于任一两个只相差一条数据的邻接数据库D和D’ ,和对任一输出集A的子集S都有
P r [ A ( D ) ∈ S ] ≤ e ε ⋅ P r [ A ( D ’ ) ∈ S ] + δ Pr\lbrack A(D)\in S\rbrack \le e^{\varepsilon} \cdot Pr\lbrack A(D^{’})\in S\rbrack + \delta Pr[A(D)∈S]≤eε⋅Pr[A(D’)∈S]+δ
对于任一仅在label上相差一条数据的训练集D和D’ ,和对任一输出集A的子集S都有
P r [ A ( D ) ∈ S ] ≤ e ε ⋅ P r [ A ( D ’ ) ∈ S ] + δ Pr\lbrack A(D)\in S\rbrack \le e^{\varepsilon} \cdot Pr\lbrack A(D^{’})\in S\rbrack + \delta Pr[A(D)∈S]≤eε⋅Pr[A(D’)∈S]+δ
对于任何的正整数 K, 令 [K] := {1, . . . , K}. [K] 表示标签集
描述了一个基于Label-DP的深度学习算法
对每个Label y i y_i yi使用GRR生成一个隐私的随机Label y i ~ \widetilde{y_i} yi
\
DP-SGD 每一轮训练都梯度进行新的查询,即进行一次DP算法
而我们的算法只需要对标签进行一次DP算法,后续重复使用
直观上:
算法A 输出 概率分类器,给定一个unlabel的样本x,可以给每个类y∈[K]分配一个概率py
将数据集S划分为不相交的S(1), ……, S(T)
并设置第0轮(初始)模型的M0,给说所有的类输出相同的概率分布
个人总结
multi-stage多阶段算法的第t 阶段,即表示为第t轮
此处多阶段multi stage算法即为 多轮训练算法
LP-1ST表示算法的第一轮,LP-2ST表示算法的第二轮,以此类推
LP-1ST等价于使用普通的RR算法
对任意的 ε > 0, 如果RRWithPrior满足ε-DP, 则 LP-MST 满足 ε-LabelDP.
组合性
目标是利用先验概率使得随机化后的标签 y ~ \widetilde{y} y t最大化 输出是正确的概率(等效于最大化信噪比)
对于y算法需要满足ε-DP
RRWithPrior使用了一个“RRTop-k的子程序”
(k为预设值,期望输入的尽可能地接近前k个概率大的标签
Lemma :RRTop-k 满足 ε-DP
证明
对于任何的输入 y , y , ∈ [ K ] y,y^, \in \lbrack K \rbrack y,y,∈[K] 以及任何可能的输出 y ~ ∈ Y k \widetilde{y} \in Y_k y ∈Yk
P r [ R R T o p − k ( y ) = y ~ ] = e ε e ε + k − 1 Pr[RRTop-k(y) = \widetilde{y}]=\frac{e^{\varepsilon}}{e^{\varepsilon}+k-1} Pr[RRTop−k(y)=y ]=eε+k−1eε 当 y = y ~ y=\widetilde{y} y=y ,取到最大
P r [ R R T o p − k ( y , ) = y ~ ] = 1 e ε + k − 1 Pr[RRTop-k(y^,) = \widetilde{y}] = \frac{1}{e^{\varepsilon}+k-1} Pr[RRTop−k(y,)=y ]=eε+k−11当 y , ∈ Y k ∖ y ~ y^, \in Y_k \setminus \widetilde{y} y,∈Yk∖y ,取到最小
对于任何的输入 y , ∉ [ K ] y^, \notin \lbrack K \rbrack y,∈/[K]
P r [ R R T o p − k ( y , ) = y ~ ] = 1 k ≥ 1 e ε + k − 1 Pr[RRTop-k(y^,) = \widetilde{y}] = \frac{1}{k} \ge \frac{1}{e^{\varepsilon}+k-1} Pr[RRTop−k(y,)=y ]=k1≥eε+k−11
that P r [ R R T o p − k ( y ) = y ~ ] P r [ R R T o p − k ( y , ) = y ~ ] ≤ e ε e ε + k − 1 1 e ε + k − 1 = e ε \frac{Pr[RRTop-k(y) = \widetilde{y}]}{Pr[RRTop-k(y^,) = \widetilde{y}]} \le \frac{\frac{e^{\varepsilon}}{e^{\varepsilon}+k-1}}{\frac{1}{e^{\varepsilon}+k-1}}=e^{\varepsilon} Pr[RRTop−k(y,)=y ]Pr[RRTop−k(y)=y ]≤eε+k−11eε+k−1eε=eε
得到如下公式:
RRWithPrior 可以被认为是 结合计算 maximizes P r [ R R T o p − k ( y ) = y ] Pr[RRTop-k(y) = y] Pr[RRTop−k(y)=y] 的阈值k 的RRTop-k
计算k值
计算使得 P r [ R R T o p − k ( y ) = y ] = e ε e ε + k − 1 ⋅ ∑ y ~ ∈ Y k p y ~ Pr[RRTop-k(y) = y] = \frac{e^{\varepsilon}}{e^{\varepsilon}+k-1} \cdot \sum_{\widetilde{y} \in Y_k}p_{\widetilde{y}} Pr[RRTop−k(y)=y]=eε+k−1eε⋅∑y ∈Ykpy 最大化的k值
P r [ R R T o p − k ( y ) = y ] = ∑ y ∈ [ K ] p y q y ∣ y = ∑ y ∈ Y k p y q y ∣ y Pr[RRTop-k(y) = y] =\sum_{y\in[K]}p_{y}q_{y|y}=\sum_{y\in Y_k}p_yq_{y|y} Pr[RRTop−k(y)=y]=y∈[K]∑pyqy∣y=y∈Yk∑pyqy∣y
表示输入标签y 经过随机机制R后 的输出标签仍然为y
O b j p ( R ) = P r y ∼ p [ R ( y ) = y ] Obj_p(R)=Pr_{y\sim p}\lbrack R(y) = y\rbrack Objp(R)=Pry∼p[R(y)=y]
设p为[K]上的任一概率分布,并且R是满足 ε − D P \varepsilon-DP ε−DP 的算法,则有
O b j p ( R R W i t h P r i o r ) ≥ O b j p ( R ) . Obj_p(RRWithPrior) ≥ Obj_p(R). Objp(RRWithPrior)≥Objp(R).
令 q y ~ ∣ y = P r [ R ( y ) = y ~ ] q_{\widetilde{y}|y} = Pr[R(y)=\widetilde{y}] qy ∣y=Pr[R(y)=y ]
则有 O b j p ( R ) = P r y ∼ p [ R ( y ) = y ] = ∑ y ∈ [ k ] q y ∣ y ⋅ p y Obj_p(R)=Pr_{y\sim p}\lbrack R(y) = y\rbrack = \sum_{y\in \lbrack k\rbrack}q_{y|y}\cdot p_y Objp(R)=Pry∼p[R(y)=y]=∑y∈[k]qy∣y⋅py
∑ y ~ ∈ [ K ] q y ~ ∣ y = 1 , ∀ y ∈ [ K ] , a n d q y ~ ∣ y ≥ 0 , ∀ y ~ , y ∈ [ K ] \sum_{\widetilde{y}\in[K]} q_{\widetilde{y}|y}=1,\ \forall y \in [K], \ \ and \ \ q_{\widetilde{y}|y}\ge0, \forall \widetilde{y}, \ y \in [K] ∑y ∈[K]qy ∣y=1, ∀y∈[K], and qy ∣y≥0,∀y , y∈[K]
ε − D P \varepsilon-DP ε−DP 则保证了如下公式 q y ~ ∣ y ≤ e ε ⋅ q y ~ ∣ y , ∀ y ~ , y , y , ∈ [ K ] q_{\widetilde{y}|y} \le e^{\varepsilon} \cdot q_{\widetilde{y}|y^{,}} \ \ \ \forall \widetilde{y},\ y,\ y^,\ \in[K] qy ∣y≤eε⋅qy ∣y, ∀y , y, y, ∈[K]
讨论在RR机制上的普适性,如是否可以推广到RAPPOR上
Z ≥ 0 [ K ] × [ K ] → R ≥ 0 \mathcal{Z}^{[K]}_{\ge0} \times [K] \to \mathcal{R}_{\ge0} Z≥0[K]×[K]→R≥0
对任一 优良的quality score, 任一先验p, 和任一ε>0, 都有一个ε-DP算法 A 在所有的ε-DP算法, 最大化 E y ∼ p [ s c r ( B ( y ) , y ) ] , 且 该 算 法 的 输 出 集 合 大 小 总 为 1 E_{y\sim \textbf{p}}[scr(B(y),y)],且该算法的输出集合大小总为1 Ey∼p[scr(B(y),y)],且该算法的输出集合大小总为1
令B为任一能最大化 E y ∼ p [ s c r ( B ( y ) , y ) ] E_{y\sim \textbf{p}}[scr(B(y),y)] Ey∼p[scr(B(y),y)],且能满足ε-DP的算法,则可将其转化为想要的算法A,证明如下
令算法A设置如下: 首先运行算法B获得集合Y,然后输出 $ {\phi(Y) }$,由于后处理算法的特性,算法A也时一个满足 ε-DP的算法,且可得如下推导过程
推导得的算法A即为引理中即能$ 最大化E_{y\sim \textbf{p}}[scr(B(y),y)],且输出集合大小总为1 的满足ε-DP的算法A$
在multi stage training 中实施 enhancements 增强功能十分有用
因为训练的数据都是经过RRWithPrior 扰动后的数据,实施的enhancemens措施主要为:删除前面轮次噪声过大的数据
Data Splits:该参数决定了不同训练阶段的数据比例
使用temperature 参数 t t t 修改所学的先验p
令 f k ( x ) f_k(x) fk(x)为 输入x上在第k类任务上 关于学得的先验模型 的logits预测
如果将prior稀疏化,t大于1通常没有帮助的
理想情况下希望在RRWithPrior计算出的k能够满足如下条件:真实标签y 总是在prior p的前top-k的概率里,否则随机响应一定输出一个错误的扰动标签。
实现方法:
这是一个需要折衷考虑的问题,stage-1的准确率过高或过低都不好
Mixup:控制正则化强度的超参数α,α越大,正则化越强
在1-4 stage 测试精度提高, >4的stage会导致某些数据集的收益递减
此部分暂不做深入了解
推得公式如下:
此部分大概过了一下,暂未深入阅读推导
span:由梯度组成的生成空间