背景: 机器学习算法的正常运行依赖于大量的敏感信息,因此引发了社会各界对隐私和机器学习公平性等问题的担忧。
研究现状: 目前,机器学习领域的许多研究要么只关注隐私,要么只关注机器学习公平性,如何同时实现隐私和机器学习公平还有待挖掘。
创新点: 论文提出了两种在 L o g i s t i c Logistic Logistic 回归上同时实现隐私保护和机器学习公平的方法。
这篇论文和需要函数机制作为先验知识,可以先阅读另一篇博客 Functional Mechanism。
论文提出了两种方法在 L o g i s t i c Logistic Logistic 回归上同时实现差分隐私和机器学习公平。
符号 | 描述 |
---|---|
D = { X , S , Y } D=\{X,S,Y\} D={X,S,Y} | 包含 n n n 条数记录的数据集 |
X = ( X 1 , X 2 . . . . X d ) X=(X_1,X_2....X_d) X=(X1,X2....Xd) | 有 d d d 个特征的非保护属性 |
S S S | 保护属性 |
Y Y Y | 标签 |
y ^ \widehat{y} y | 预测值 |
ω \omega ω | 权重 |
t i = { x i , s i , y i } t_i=\{x_i,s_i,y_i\} ti={xi,si,yi} | 第 i i i 条记录 |
f ( t i ; ω ) f({t_i};\omega) f(ti;ω) | 单个记录的损失函数 |
f D ( ω ) = ∑ i = 1 n f ( t i , ω ) f_D(\omega)= \sum_{i=1}^nf(t_i,\omega) fD(ω)=∑i=1nf(ti,ω) | 目标函数 |
ω ˉ = a r g min ω ∑ i = 1 n f ( t i ; ω ) \bar\omega = arg \min_{\omega}\sum_{i=1}^nf(t_i;\omega) ωˉ=argωmini=1∑nf(ti;ω) | 损失函数最小时,对应的权重 |
g D ( ω ) g_D(\omega) gD(ω) | 公平性约束项 |
τ \tau τ | 公平性约束的阈值 |
函数机制的详细描述可查看我的另一篇博客 Functional Mechanism: Regression Analysis under Differential Privacy - 故、梦
公平是一个十分抽象的概念,看似公平的情形换个角度看就不再公平,即不存在绝对的公平。
分类公平中有很多种公平性规则,论文使用 D e m o g r a p h i c P a r i t y Demographic {\,} Parity DemographicParity 作为公平性规则。
D e m o g r a p h i c P a r i t y Demographic {\,} Parity DemographicParity 要求预测结果与保护属性无关,即
P r ( Y ^ = 1 ∣ S = 1 ) = P r ( Y ^ = 1 ∣ S = 0 ) (1) Pr(\widehat{Y}=1|S=1)=Pr(\widehat{Y}=1|S=0) \tag{1} \quad Pr(Y =1∣S=1)=Pr(Y =1∣S=0)(1)
不公平程度 R D RD RD 可以由以下式子表示:
R D = ∣ P r ( Y ^ = 1 ∣ S = 1 ) − P r ( Y ^ = 1 ∣ S = 0 ) ∣ (2) RD = |Pr(\widehat{Y}=1|S=1)-Pr(\widehat{Y}=1|S=0)| \tag{2} \quad RD=∣Pr(Y =1∣S=1)−Pr(Y =1∣S=0)∣(2)
公平性约束项 g D ( ω ) = ∑ i = 1 n ( s i − s ˉ ) x i T ω g_D(\omega) = \sum_{i=1}^n(s_i-\bar{s})x_i^T\omega gD(ω)=∑i=1n(si−sˉ)xiTω 「 s i s_i si 为第 i i i 条记录的保护属性值, s ˉ \bar{s} sˉ 为保护属性的均值」
加入公平性约束项后,新的目标函数 f ~ D ( ω ) = f D ( ω ) + α ∣ g D ( ω ) − τ ∣ \tilde{f}_D(\omega) = f_D(\omega) + \alpha|g_D(\omega)-\tau| f~D(ω)=fD(ω)+α∣gD(ω)−τ∣
α \alpha α 是一个用于平衡公平性和精度的超参数, τ \tau τ 是公平性约束的阈值
根据函数机制,将新的目标函数用泰勒展开到 2 2 2 阶
f ~ D ( ω ) = ( ∑ i = 1 n ∑ j = 0 2 f 1 ( j ) ( 0 ) j ! ( x i T ω ) j ) − ( ∑ i = 1 n y i x i T ) ω + α ∣ ∑ i = 1 n ( s i − s ˉ ) x i T ω − τ ∣ (3) \tilde{f}_D(\omega) = \left(\sum_{i=1}^n\sum_{j=0}^2\frac{f_1^{(j)}(0)}{j!}(x_i^T\omega)^j \right)- \left( \sum_{i=1}^ny_ix_i^T \right)\omega + \alpha \left | \sum_{i=1}^n(s_i-\bar{s})x_i^T\omega - \tau {\,} \right | \tag{3} \quad f~D(ω)=(i=1∑nj=0∑2j!f1(j)(0)(xiTω)j)−(i=1∑nyixiT)ω+α∣∣∣∣∣i=1∑n(si−sˉ)xiTω−τ∣∣∣∣∣(3)
与函数机制在 L o g i s t i c Logistic Logistic 回归上的展开不同,PFLR 多了一个一次项。
为了方便说明,令 α = 1 \alpha=1 α=1 , τ = 0 \tau = 0 τ=0 。那么 f ~ D ( ω ) \tilde{f}_D(\omega) f~D(ω) 的全局敏感度 Δ f ~ \Delta_{\tilde{f}} Δf~ 为:
Δ f ~ = 2 max t ( ∣ ( f 1 ( 1 ) ( 0 ) 1 ! − y + ∣ s − s ˉ ∣ ) ∑ l = 1 d x ( l ) ∣ + ∣ f 1 ( 2 ) ( 0 ) 2 ! ∑ l , m d x ( l ) x ( m ) ∣ ) ≤ 2 ( 3 d 2 + d 2 8 ) = d 2 4 + 3 d \Delta_{\tilde{f}} = 2 \max_t \left(\left| \left(\frac{f_1^{(1)}(0)}{1!} - y + |s-\bar{s}| \right)\sum_{l=1}^dx_{(l)} \right| +\left|\frac{f_1^{(2)}(0)}{2!}\sum_{l,m}^dx_{(l)}x_{(m)} \right |\right) \\ \le 2{\,}(\frac{3d}{2}+\frac{d^2}{8}) = \frac{d^2}{4}+3d Δf~=2tmax⎝⎛∣∣∣∣∣(1!f1(1)(0)−y+∣s−sˉ∣)l=1∑dx(l)∣∣∣∣∣+∣∣∣∣∣∣2!f1(2)(0)l,m∑dx(l)x(m)∣∣∣∣∣∣⎠⎞≤2(23d+8d2)=4d2+3d
相比于普通的函数机制, PFLR 要求非保护组和保护组到决策边界有相同的距离。
在 FPLR 中我们发现公平性约束可以叠加到函数机制目标函数的一次项上。
根据这个思路,可以直接将公平性约束加入到一次项的噪声中,这样就能减少噪声的注入。
具体实现是将拉普拉斯噪声的均值 μ \mu μ 由 0 0 0 改为 ∑ i = 1 n ( s i − s ˉ ) x i \sum_{i=1}^n(s_i-\bar{s})x_i ∑i=1n(si−sˉ)xi ,
FPLR 的全局敏感度此时等于函数机制的全局敏感度: Δ f = d 2 4 + d \Delta_f=\frac{d^2}{4}+d Δf=4d2+d
然而,求解出的 μ \mu μ 已经造成了隐私的泄露。所以需要在 μ \mu μ 中加入差分隐私。
μ \mu μ 的全局敏感度可以表示为:
Δ g = 2 max t ∣ ∑ l = 1 d ( s t r − s ˉ ) x t r ( l ) ∣ ≤ 2 d \Delta g=2 {\,}\max_{t}\left|\sum_{l=1}^d(s_{tr}-\bar{s})x_{tr(l)}\right| \le 2d Δg=2tmax∣∣∣∣∣l=1∑d(str−sˉ)xtr(l)∣∣∣∣∣≤2d
令 μ \mu μ 的隐私保护强度为 ϵ g \epsilon_g ϵg , f D ( ω ) f_D(\omega) fD(ω) 的隐私保护强度为 ϵ f \epsilon_f ϵf
根据顺序组合定理,让 ϵ f + ϵ g = ϵ \epsilon_f+\epsilon_g = \epsilon ϵf+ϵg=ϵ ,则 PFLR ∗ ^* ∗ 满足 ϵ − d i f f e r e n t i a l p r i v a c y \epsilon-differential {\,}{\,} privacy ϵ−differentialprivacy
实验过程:分别在 Adult 和 Dutch 数据集上做了 5 5 5 组实验来验证算法的性能。
当隐私保护强度从 1 → 0.1 1 \rightarrow 0.1 1→0.1 时,PrivLR ,PFLR 的精度快速下降,不公平程度快速上升。
而 PFLR*的精度和不公平程度在 ϵ = 0.1 \epsilon = 0.1 ϵ=0.1 时仍能保证较高的精度 74.91 74.91% 74.91,较小的不公平程度 0.28 0.28% 0.28
PFLR*的精度更高,说明它在保证 ϵ \epsilon ϵ 隐私的情况下,注入的噪声比PrivLR 更少