论文题目:《An Efficient Two-Layer Mechanism for Privacy-Preserving Truth Discovery》
发表时间:KDD 2018
论文作者:Yaliang Li、Chenglin Miao、Lu Su、Jing Gao、Qi Li、Bolin Ding、Zhan Qin、Kui Ren
向在线用户征求答案是解决许多具有挑战性任务的有效方法。由于用户质量的多样性,推断他们在聚合期间提供正确答案的能力很重要。因此,真相发现方法可用于自动捕获用户质量,并通过加权组合聚合用户贡献的答案。尽管真相发现是答案聚合的一个有效工具,但现有的工作对参与用户的隐私保护不足。为了填补这一空白,我们提出了基于扰动的机制,为用户提供隐私保障,并保持汇总答案的准确性。我们首先提出了一种单层机制,其中所有用户都采用相同的概率来干扰他们的答案。然后对受干扰的答案进行聚合,但聚合精度可能会相应下降。为了提高效用,提出了一种两层机制,允许用户从超分布中采样自己的概率。我们从理论上比较了一层和两层机制,并证明它们提供了相同的隐私保证,而两层机制提供了更好的实用性。这一优势是因为两层机制可以利用真相发现中估计的用户质量信息来减少扰动造成的精度损失,这一点在真实数据集上的实验结果证实了这一点。实验结果还证明了所提出的两层机制在隐私保护方面的有效性,聚合的准确性损失可以容忍。
众包问题可以很好解决具有挑战性的任务,Truth Discovery通过迭代评估用户权重从而聚合结果,但是却没有保护用户隐私,在现实应用中可能会降低users参与积极性甚至使users估计提交错的答案以达到保护隐私的作用,所以本文引入隐私保护机制(差分隐私),提出了两种模型:One-Layer Mechanism和Two-Layer mechanism。在Two-Layer mechanism模型中作者的设计非常巧妙的利用了Truth Discovery的性质,笔者认为是文章的一大亮点。
在众包问题中存在以下问题:
针对这两个问题提出了Truth Discovery
Truth Discovery的大概步骤如下:
可以引入加密或者多方计算来保证Truth Discovery的隐私保护,但是计算代价昂贵不太合适
差分隐私可以说是移动众包里面的根基了,如果不清楚的话可以去看看卡兵写的博客差分隐私,写的简单易懂并且也够用。
在本篇文章中并不用差分隐私因为差分隐私是假设服务器可信,而本问题的假设是服务器不可信,所以使用局部差分隐私(原理和差分隐私类似)。这里简要说一下个人理解的局部和全局差分隐私,局部差分隐私是在本地进行扰动,全局是在服务器进行数据扰动。
P ( M ( x 1 ) ∈ S ) ≤ e ϵ ( M ( x 2 ) ∈ S ) P(M(x_1)\in S) \le e^\epsilon (M(x_2)\in S) P(M(x1)∈S)≤eϵ(M(x2)∈S)
其中 ϵ \epsilon ϵ越接近0,隐私保护的越好
伪代码如下:
简单的说就是给定用户一个扰动概率 p f p^f pf,允许用户以概率 p f p^f pf的概率对答案进行修改,将修改后的答案上传到服务器,上传到服务器之后进行Truth Discovery。
论文中举了一个例子如下:
在这里举一个中文例子当 s = 3 , p f = 0.4 s=3,p^f=0.4 s=3,pf=0.4的时候,我的答案是A,那么我上传到服务器的数据有60%概率是A,20%概率是B,20%的概率是C。其实就是加入扰动从而混淆视听达到保护隐私的效果,但是导致了结果的准确率下降。
One-Layer Mechanism为用户提供隐私保护。然而,为了提供强大的隐私保障,需要将预定义的扰动概率 p f p^f pf设置为一个大值。在这种情况下,所有用户都以同样大的概率扰乱他们的答案。因此,汇总答案的准确性可能会显著降低,并且效用可能无法得到满足。所以论文作者在这里提出了One-Layer Mechanism的改进版Two-Layer Mechanism
伪代码如下:
大概的思路就是让用户从一个概率分布中找一个 p u f p^f_u puf作为一个用户的扰动因子,
然后再进行真相发现。
One-Layer Mechanism机制的 ϵ = l n ( 1 − p f ) ( s − 1 ) p f \epsilon =ln \frac{(1-p^f)(s-1)}{p^f} ϵ=lnpf(1−pf)(s−1)
Two-Layer Mechanism机制的 ϵ = l n ( 2 − a − b ) ( s − 1 ) a + b \epsilon =ln \frac{(2-a-b)(s-1)}{a+b} ϵ=lna+b(2−a−b)(s−1)
具体的证明过程原论文中写的真的非常清楚了,这里就不重复造轮子了。
One-Layer Mechanism机制由于扰动所引起的误差为:
Δ = ( p f ) n = ( b x n ) \Delta = (p^f)^n = ( \frac{b}{x}^n) Δ=(pf)n=(xbn)
Two-Layer Mechanism机制由于扰动所引起的误差遵循high probability
这一部门的证明论文中写的已经非常清楚了,如果要细读可以去看看论文
实验结果表明,在保证隐私的前提下,该双层机制比单层机制具有更好的实用性,因为双层机制能够充分利用用户质量估计在真相发现中的优势。此外,本文还证明了所提出的两层机制是一个通用框架,在各种情况下都能很好地执行。
Two-Layer Mechanism非常棒的利用了Truth Discovery的性质,因为当一个Users的 P u f P_u^f Puf比较大时,通过Truth Discovery 的内部机制可以让该用户的 W u W_u Wu变得非常小,从而让用户对准确率的影响变小,吸收了扰动对误差带来的影响,同时每个用户的 P u f P_u^f Puf不同,又一定程度上提高了隐私保护性。