【差分隐私发论文朝哪个方向走?】差分隐私的过去,现在和将来

The Past,Present,and Future of Differential Privacy

  • 写在前面的话
  • 概述
  • 现状
    • 什么是隐私?
  • Past
    • 总结
  • Now
    • 相关性数据
    • 非结构化数据
    • LDP的问题
    • 总结
  • Future

写在前面的话

《2021网络安全西湖学术论坛线上报告》11.25晚上场由Yang Cao报告,报告内容为《The Past,Present,and Future of Differential Privacy》。大家想看原视频可以去我的b站看,我大致看了报告,但是下文的理解都是个人理解,与原文作者看法无关,单纯就是个人笔记,仅供参考。看这篇博客之前需要你对差分隐私有基础的了解。

概述

整个报告分三个部分,大家在听的时候关注一个问题:什么是隐私?
【差分隐私发论文朝哪个方向走?】差分隐私的过去,现在和将来_第1张图片

现状

我们来考虑一个场景,我们通过用户搜集信息。这些信息可能是声音,可能是地理位置还有可能是图片,这些信息我们都可以定义为隐私,因为它关系到每个用户的敏感信息。当这些信息被搜集到服务器,通过计算得到结果,这里的计算过程也是隐私,并且计算结果也是隐私。计算过程反映了算法设计的隐私,计算结果可以间接反映用户的隐私也可以反映统计性的隐私。最终发布出去的数据也是隐私。总而言之,隐私的定义是很模糊的,我认为还是得从攻击者的角度思考。当这些数据与隐私攻击存在强联系的时候,我觉得可以考虑称之为隐私,纯属个人看法。
【差分隐私发论文朝哪个方向走?】差分隐私的过去,现在和将来_第2张图片
隐私问题并不是一个假设化的东西,目前存在的隐私攻击有很多。来自于人脸识别中的数据重构攻击,以及成员推理攻击,这些都是来源于机器学习中的隐私问题。现实世界中关于隐私的泄露也有很多,比如Facebook的隐私泄露事件。隐私问题隐藏在数据科学发展的进程中,使得个人或者企业都不再愿意分享自己的数据,形成一个个数据孤岛,这种情况会阻碍科学的进步。
【差分隐私发论文朝哪个方向走?】差分隐私的过去,现在和将来_第3张图片
这些是具体的例子,屡见不鲜了。
【差分隐私发论文朝哪个方向走?】差分隐私的过去,现在和将来_第4张图片
【差分隐私发论文朝哪个方向走?】差分隐私的过去,现在和将来_第5张图片
【差分隐私发论文朝哪个方向走?】差分隐私的过去,现在和将来_第6张图片
这个时候人们就需要隐私保护,从三个阶段考虑,分别是数据搜集阶段,数据处理阶段和数据发布阶段。
【差分隐私发论文朝哪个方向走?】差分隐私的过去,现在和将来_第7张图片

什么是隐私?

这个问题非常重要,我们怎么去定义隐私。网上有很多客观的定义,但是我认为对于我们做研究用处不大。在安全的场景下是我们发送信息给特定的人或特定的集体,目的是谁能接触到这些信息,这其实是一个访问控制的问题。在隐私的场景下是我们发布数据到公众或者给不特定的人,目的是限制从发布的信息推出其他信息。其中最大的区别就是,安全场景下攻击者是确定的,在隐私场景下攻击者不是确定的,因为隐私场景更具有一般性。但是我认为这样的想法很局限,隐私的考虑还是得从攻击考虑。不同的攻击所涉及的信息不同,自然隐私的定义也不同,大家也可以发表自己的意见。
【差分隐私发论文朝哪个方向走?】差分隐私的过去,现在和将来_第8张图片

Past

数据隐私的问题早得到关注。从最初数据库开始,出现匿名化的保护方法,但是这样的方法很粗糙。匿名化没有办法定义攻击者的背景知识,当攻击很强的时候,匿名化就会失效。从2006年开始,差分隐私被提出,拥有严格数学证明的差分隐私用随机化结果的方法征服了大家,同时它对于攻击者的假设很强。
【差分隐私发论文朝哪个方向走?】差分隐私的过去,现在和将来_第9张图片
下面是k匿名化的具体操作。
【差分隐私发论文朝哪个方向走?】差分隐私的过去,现在和将来_第10张图片
【差分隐私发论文朝哪个方向走?】差分隐私的过去,现在和将来_第11张图片
【差分隐私发论文朝哪个方向走?】差分隐私的过去,现在和将来_第12张图片

【差分隐私发论文朝哪个方向走?】差分隐私的过去,现在和将来_第13张图片
匿名化的局限性前面也提过了,这里提到了一点很有意思。隐私应该是算法的一个属性而不是数据的一个属性。我认为这句话是在说,k匿名化只考虑了数据的一般性,没有把隐私的特性考虑进来。由此引出差分隐私,差分隐私的算法将隐私形式化定义起来了。
【差分隐私发论文朝哪个方向走?】差分隐私的过去,现在和将来_第14张图片
差分隐私的定义来自于密码学的安全语义,即我有两个消息,当我经过“加密”给你,你不知道这个“加密”的数据是其中的哪一个,那么就说明我这个“加密”是成功的,即实现数据可用不可见。差分隐私通过去除一条数据,达到不管这个数据在或者不在里面,你都区分不出来的效果。可谓是非常巧妙的构思。
【差分隐私发论文朝哪个方向走?】差分隐私的过去,现在和将来_第15张图片
差分隐私最初来源于数据库,关于具体的内容这里就不赘述了,大家应该都很了解。但是我们需要明白的是差分隐私是存在约束的,这个算法的输出很大程度上受到单条数据的影响。并且对于数据的假设是独立分布和结构化的。
【差分隐私发论文朝哪个方向走?】差分隐私的过去,现在和将来_第16张图片
随着大家不断的研究,差分隐私也有很多变种。
【差分隐私发论文朝哪个方向走?】差分隐私的过去,现在和将来_第17张图片
差分隐私有几种基本的机制,这里也是基础知识就不啰嗦了,我认为这里少了一个随机响应机制。
【差分隐私发论文朝哪个方向走?】差分隐私的过去,现在和将来_第18张图片
差分隐私的组合定理和一些性质,这里少了高级组合定理和MA。
【差分隐私发论文朝哪个方向走?】差分隐私的过去,现在和将来_第19张图片

总结

对差分隐私的过去做一个总结:
1、匿名化并不能很好地保护隐私
2、隐私应该是算法的一个属性而非数据的
3、差分隐私拥有严格的数学证明
4、差分隐私的基本机制:拉普拉斯机制,指数机制和高斯机制
5、差分隐私的组合定理和一些性质
【差分隐私发论文朝哪个方向走?】差分隐私的过去,现在和将来_第20张图片

Now

这一部分是大家更加关心的部分,差分隐私的研究分为学术界和工业界。差分隐私的火热从Dwork经典论文的引用情况可以看出,逐年增长,大家都在设计一个差分隐私版本的隐私算法。简单来说就是我们之前用的算法不涉及隐私保护,我们需要加如差分隐私变成一个新的算法。比如数据分享,数据挖掘和机器学习,都变成了差分隐私机器数据分享,差分隐私数据挖掘和差分隐私机器学习。最终的目的是达到隐私和效用的平衡。为了实现一个对应的隐私保护水平,我们能达到的数据效用的情况是怎样的。大家看黑色的线,等同于一个笨方法实现差分隐私,比如我直接用拉普拉斯机制。但是我设计一个聪明的办法能够达到蓝色的线。两者在同等隐私保护水平下,当然蓝色的数据效用更好。这也是目前发paper看的一个重要的点。
【差分隐私发论文朝哪个方向走?】差分隐私的过去,现在和将来_第21张图片
差分隐私在数据库,数据挖掘,机器学习,联邦学习,密码学等等领域都有应用。
【差分隐私发论文朝哪个方向走?】差分隐私的过去,现在和将来_第22张图片
在工业界差分隐私也广受好评,谷歌和苹果都用差分隐私搜集用户数据,Facebook和美国人口普查局利用差分隐私发布数据。
【差分隐私发论文朝哪个方向走?】差分隐私的过去,现在和将来_第23张图片
这里苹果和谷歌用LDP来搜集用户数据的目的在于使用户信任自己,人口普查局和Facebook用CDP的目的是避免遭受链接攻击。
【差分隐私发论文朝哪个方向走?】差分隐私的过去,现在和将来_第24张图片
然而差分隐私并没有那么完美,关于隐私的定义仍然存在问题。前面也提到了,差分隐私对于隐私数据的定义是独立分布且结构化的。对于相关性的数据和非结构化的数据怎么用差分隐私?并且差分隐私是会损失数据效用的,如果在机器学习这样复杂计算环境中用差分隐私必然会出现数据效用问题。
【差分隐私发论文朝哪个方向走?】差分隐私的过去,现在和将来_第25张图片
作者开始介绍他们团队做的一些工作,也是对上述问题的一些思考和解答。
【差分隐私发论文朝哪个方向走?】差分隐私的过去,现在和将来_第26张图片

相关性数据

考虑一个这样的场景,每个用户在每个时间点会出现在不同的位置,如果不考虑这个位置相关性直接加噪会造成多余的隐私损失。途中loc4和loc5是相联系的,是需要考虑的。这里作者考虑的是暂时的联系,就是loc3可能在某一时间点不能通行,以至于loc4下一步只能到loc5。
【差分隐私发论文朝哪个方向走?】差分隐私的过去,现在和将来_第27张图片
知道问题后需要对差分隐私定义进行修改,在先验部分加入相关性的信息,使得隐私预算增加。通过实验结果可以看出,隐私损失会随着时间增加,这个工作的创新点在于之前的工作都认为发布完差分隐私的保护数据后,这边保护程度不会改变,但是数据之间存在相关性是会对其有影响的,以后发布的数据会影响之前发布数据的隐私,现在发布的数据也会影响以后发布数据的隐私。
【差分隐私发论文朝哪个方向走?】差分隐私的过去,现在和将来_第28张图片
关于quantify就是一开始设置一个小的隐私预算,通过算法计算得到的隐私预算会大但是会被约束在一个可接受的范围内。
【差分隐私发论文朝哪个方向走?】差分隐私的过去,现在和将来_第29张图片
考虑一个分享自身位置数据给第三方的场景,比如你用美团就要分享自己的位置,并且在IOT,云服务和智慧城市也需要搜集位置信息。这个时候用户可能想保护的隐私可能是“我上周去过医院”,“我在两个地方来回跑”。当前的工作只能保护你在哪,或者去过哪,这和之前提到的隐私不匹配,无法保护其中的关联性。
【差分隐私发论文朝哪个方向走?】差分隐私的过去,现在和将来_第30张图片
作者团队通过布尔表达式将这个问题形式化,将事件,时间和位置联系起来。从而设计了一个隐私框架来完成上述的隐私定义工作。
【差分隐私发论文朝哪个方向走?】差分隐私的过去,现在和将来_第31张图片
场景和前面那个一样,但是考虑的只是位置分享。这里作者考虑的是应用依赖的问题,不同的应用对于位置的需求不一样,天气预报可能只是想知道一个模糊的位置信息比如城市,移动广告可能需要位置的语义,比如你在体育馆还是商城,社交网络可能是你和你朋友之间的距离。这些可能都不需要你一个具体的位置信息,这需要上述这些不完整的信息就能运转给你提供服务。能否设计一个可定制的隐私保护模型?为了让用户可以设计不同的隐私策略对于位置信息。
【差分隐私发论文朝哪个方向走?】差分隐私的过去,现在和将来_第32张图片
问题就是如何灵活定义?当前的工作不能满足,一个是基于匿名不够严谨,另一类是基于差分隐私但是不够灵活。
【差分隐私发论文朝哪个方向走?】差分隐私的过去,现在和将来_第33张图片
用图的形式定义出来,什么东西需要保护什么不需要保护,有线就需要保护,没有线就不care。创新点就在于此。
【差分隐私发论文朝哪个方向走?】差分隐私的过去,现在和将来_第34张图片

非结构化数据

声音,图像,视频都是非结构化数据。场景是发布声音的隐私数据,其中的隐私就是声纹。
【差分隐私发论文朝哪个方向走?】差分隐私的过去,现在和将来_第35张图片
原始的数据库,声纹存储成数据记录,通过差分隐私使得声纹的顺序调换。
【差分隐私发论文朝哪个方向走?】差分隐私的过去,现在和将来_第36张图片

LDP的问题

联邦学习的差分隐私的应用,传统的机器学习是把数据搜集在一个服务器里面进行训练,但是搜集数据变得越来越困难,出现了联邦学习和LDP来保护隐私。但是DP-FL存在相应的确定,由于信息太多了,用差分隐私会使得模型精度变差,这里的工作就是如何平衡好隐私和效用问题。
【差分隐私发论文朝哪个方向走?】差分隐私的过去,现在和将来_第37张图片
作者对于目前的工作做了改进,得到最好的结果。

【差分隐私发论文朝哪个方向走?】差分隐私的过去,现在和将来_第38张图片
【差分隐私发论文朝哪个方向走?】差分隐私的过去,现在和将来_第39张图片
【差分隐私发论文朝哪个方向走?】差分隐私的过去,现在和将来_第40张图片
【差分隐私发论文朝哪个方向走?】差分隐私的过去,现在和将来_第41张图片

总结

当前差分隐私的总结:
1、目前差分隐私算法的改进还在研究
2、LDP虽然流行,但是效用不好(Shuffle DP能够一定程度改善)
3、从工程上理解,不同应用对于数据的需求不一样,不一定要所有数据全部给出,针对性效果会更好,从而获取更好的效用
4、研究的思路:定义,算法,系统和理论
5、作者的工作
【差分隐私发论文朝哪个方向走?】差分隐私的过去,现在和将来_第42张图片

Future

总结一下未来差分隐私的研究方向:
1、相关性数据
2、非结构化数据
3、LDP的数据效用问题
4、LDP变种的安全性问题
【差分隐私发论文朝哪个方向走?】差分隐私的过去,现在和将来_第43张图片
【差分隐私发论文朝哪个方向走?】差分隐私的过去,现在和将来_第44张图片

你可能感兴趣的:(差分隐私,安全,网络安全,概率论,差分隐私,人工智能)