顶刊学者带你深度理解本地差分隐私【会议笔记】

Analyzing Sensitive Data with Local Differential Privacy

  • 写在前面的话
  • 背景知识
  • 本地差分隐私存在可优化的部分
  • 数据效用
    • 随机响应
    • 怎么选择合适的方法?
    • 考虑偏币情况
    • 总结
  • 功能扩展
    • 挑战1:怎么聚合?
    • 挑战2:范围预测?
    • 挑战3:多维度查询
    • 实验
  • 更好的隐私保护
  • 结语

写在前面的话

《2021网络安全西湖学术论坛线上报告》11.22上午场由Tianhao Wang报告,报告内容为《Analyzing Sensitive Data with Local Differential Privacy》。大家想看原视频可以去我的b站看。主要讲了三个方面,分别是数据效用,功能改进以及可信任模型。如下图:
顶刊学者带你深度理解本地差分隐私【会议笔记】_第1张图片

背景知识

顶刊学者带你深度理解本地差分隐私【会议笔记】_第2张图片
当前大数据时代下隐私保护的重要性不言而喻。
顶刊学者带你深度理解本地差分隐私【会议笔记】_第3张图片
顶刊学者带你深度理解本地差分隐私【会议笔记】_第4张图片

历史上保护隐私的方法是匿名法,但是攻击者可以通过别的数据集去比对,从而推测出敏感信息。
顶刊学者带你深度理解本地差分隐私【会议笔记】_第5张图片
数据发布就存在这样的问题:发布的数据越多,展现的信息越多。
顶刊学者带你深度理解本地差分隐私【会议笔记】_第6张图片
美国人口普查局就这样的问题用了差分隐私的技术,这也是差分隐私技术应用的最大规模的情况。
顶刊学者带你深度理解本地差分隐私【会议笔记】_第7张图片
由于中心化差分隐私会存在不信任第三方的情况,所以苹果和谷歌采用本地差分隐私来完成数据分析,最有名的是苹果分析用户最常用的表情。

本地差分隐私存在可优化的部分

顶刊学者带你深度理解本地差分隐私【会议笔记】_第8张图片
本地差分隐私也存在可优化的部分,分别是噪声化较重,功能简单以及潜在的隐私问题。作者从三个角度考虑,分别是准确性(也就是数据的效用),还有功能性的扩展以及更好的隐私保护。从基本的机制到实现相关的算法,最终整合成系统。

下面的应该是作者团队工作的参考文献,绿色部分最后一篇是解决数据效用问题,绿色部分第一篇是解决功能性扩展问题,剩下那个是提供更好的隐私保护。
顶刊学者带你深度理解本地差分隐私【会议笔记】_第9张图片

数据效用

第一个存在优化的问题就是数据效用,目前本地差分隐私存在的方法主流就是随机响应。谷歌和苹果所用的方法分别是PAPPOR以及Hashing/Hadamard,这两个方法的特点分别是在编码部分优化和本地Hashing优化。具体的论文大家可以去看看。作者团队的工作和它们进行比较,相对于谷歌的方法作者团队的方法将误差降低了50%,相对于苹果则是降低了90%。
顶刊学者带你深度理解本地差分隐私【会议笔记】_第10张图片

随机响应

问一个敏感问题,抛两次均匀质地的硬币,在最后可以通过无偏估计去除噪声。既保护了隐私又不影响统计数据。
顶刊学者带你深度理解本地差分隐私【会议笔记】_第11张图片
下面是如何进行无偏估计,只要我们有回答yes的人数和p概率即可算出真正得病的人数。
顶刊学者带你深度理解本地差分隐私【会议笔记】_第12张图片
上面的例子都是二进制数的情况,回答情况不是yes就是no。如何扩展到非二进制的情况,假设v是属于D范围数值序列,用户抛一枚偏币(偏币可以分为正面和其他情况),如果抛到正面就回答v的原值,若不是正面则回答出了v原值其他的值(下图这个w我不太清楚)。抛到正面的概率为p,其他情况的概率为(1-p)/(d-1)。也就是把原来反面的概率分为均匀的d-1等份。此时还是满足差分隐私,并且无偏估计的计算方法还是一样。(之前我一直以为随机响应只能用于二进制数值)。然而当d太大,也就是v从属的数值序列过多,p就会变得很小,也就是得到真正v的值的概率会变小。
顶刊学者带你深度理解本地差分隐私【会议笔记】_第13张图片

怎么选择合适的方法?

顶刊学者带你深度理解本地差分隐私【会议笔记】_第14张图片
在解决这个问题上,谷歌和苹果各有自己的解决办法。谷歌用UE的方法,将v的值映射为一个字符串,在字符串的每一位进行扰动。苹果用LH的方法,通过HASH函数将数据序列设置为0或者1,通过随机响应进行扰动。作者团队发现其中存在某些问题,这些方法的主要思想是对于每个客户端的值要么是0要么是1,其中的d也就是2.但是由于抛两次硬币的情况,隐私预算得分为两份。这个数据范围d被压缩到了2,但是这里面仍然存在冲突域,所以如何选择算法成为问题。
关于UE可以看下面这幅图:图源顶刊学者带你深度理解本地差分隐私【会议笔记】_第15张图片
关于Local Hashing看下面这两幅图:
顶刊学者带你深度理解本地差分隐私【会议笔记】_第16张图片
顶刊学者带你深度理解本地差分隐私【会议笔记】_第17张图片

考虑偏币情况

谷歌和苹果的方法都将d压缩为了2,如果我们考虑其他情况呢?
顶刊学者带你深度理解本地差分隐私【会议笔记】_第18张图片
作者团队想到的方法是基于偏币情况考虑的,不用考虑压缩d的情况。最终p的情况只由隐私预算决定。
顶刊学者带你深度理解本地差分隐私【会议笔记】_第19张图片
作者团队将自己的方法和谷歌和苹果的方法进行对比。在原始的UE中,1和0都是受到同等程度的干扰。最优UE考虑0出现的频率会比1的更大,不同程度扰动0和1,最大化0保持原值0的概率。怎么做呢?对于1来说,反转的概率为1/2,对于0来说,反转的概率需要满足差分隐私,小概率反转。同样将隐私预算分为两份,与谷歌的方法进行比较,误差降低了50%。
顶刊学者带你深度理解本地差分隐私【会议笔记】_第20张图片
LH方法是将信息压缩为1位数据,再扰动进行传输。这两步会导致信息损失,在压缩的过程中损失巨大,扰动的时候的损失依赖于隐私预算的设定。作者团队的想法是平衡这两步的损失,通过hash进多个分区。也就是偏币的思想,优化过的LH比普通的误差降低了90%。
顶刊学者带你深度理解本地差分隐私【会议笔记】_第21张图片

总结

随机响应对于小范围的情况是最适用的,对于大范围的情况需要做优化。
顶刊学者带你深度理解本地差分隐私【会议笔记】_第22张图片

功能扩展

作者团队考虑到数据库的场景,LDP用于用户的敏感数据并且生成加噪的数据。同时用户也有一些不敏感的数据,目的在于回答在交叉表中相应的查询。
顶刊学者带你深度理解本地差分隐私【会议笔记】_第23张图片
这里面存在三个技术难点,分别是聚合问题,范围预测问题以及多维度问题。下图举例,我们需要确定可信任的边界,简单来说就是查询的条件就是我们扰动的目标。
顶刊学者带你深度理解本地差分隐私【会议笔记】_第24张图片

挑战1:怎么聚合?

基本的方法就是直接计数,聚合后的数据是有误的,因为数据存在噪声。所以需要无偏估计,如果分组的大小是无偏的,那么估计的权重和也是无偏的。白话就是不能直接计数,得算无偏估计。
顶刊学者带你深度理解本地差分隐私【会议笔记】_第25张图片

挑战2:范围预测?

基本方法是直方图,但是如果格子数量过多会导致噪声过多。于是采取分区的方法降低误差,分区用取对数的方法。
顶刊学者带你深度理解本地差分隐私【会议笔记】_第26张图片

挑战3:多维度查询

使用树形结构来表示查询涉及到的维度,这样一来就可以把一个查询分解成好多个子查询,然后分别对每个子查询计算估计值,最后加起来就是查询结果。具体可以看这篇博客。
顶刊学者带你深度理解本地差分隐私【会议笔记】_第27张图片

实验

作者团队爬取数据做了相关实验。总结来说关于这三个挑战早就相关工作做了,作者团队只是应用进系统。前面关于偏币的思想比较有创新点。
顶刊学者带你深度理解本地差分隐私【会议笔记】_第28张图片

更好的隐私保护

这里与CDP和LDP进行对比,作者团队采取了Shuffler的办法,增加了一个可信任的无冲突域的服务器。结合了差分隐私和密码学。
顶刊学者带你深度理解本地差分隐私【会议笔记】_第29张图片
本地扰动后通过加密防止服务器读取数据,在服务器上用Shuffle(密码学的一种随即洗牌方法),最后给苹果进行无偏估计。
顶刊学者带你深度理解本地差分隐私【会议笔记】_第30张图片
假设这个服务器不可信,可以采用同态加密的方法。
顶刊学者带你深度理解本地差分隐私【会议笔记】_第31张图片
安全性加强,洗牌算法如下:
顶刊学者带你深度理解本地差分隐私【会议笔记】_第32张图片
顶刊学者带你深度理解本地差分隐私【会议笔记】_第33张图片
顶刊学者带你深度理解本地差分隐私【会议笔记】_第34张图片
顶刊学者带你深度理解本地差分隐私【会议笔记】_第35张图片
顶刊学者带你深度理解本地差分隐私【会议笔记】_第36张图片
顶刊学者带你深度理解本地差分隐私【会议笔记】_第37张图片
顶刊学者带你深度理解本地差分隐私【会议笔记】_第38张图片

顶刊学者带你深度理解本地差分隐私【会议笔记】_第39张图片
准确性的提高。
顶刊学者带你深度理解本地差分隐私【会议笔记】_第40张图片
顶刊学者带你深度理解本地差分隐私【会议笔记】_第41张图片

结语

顶刊学者带你深度理解本地差分隐私【会议笔记】_第42张图片

你可能感兴趣的:(差分隐私,网络安全,概率论)