目录
差分隐私
差分隐私的提出
差分隐私的两种实现机制
差分隐私模型
差分隐私的特点
差分隐私应用
参考推荐:
差分隐私(Differential privacy)浅析_Ano_onA的博客-CSDN博客_差分隐私-浅析、相关概念、敏感度、机制、组合
差分隐私 走过的坑_Jomaron的博客-CSDN博客_差分隐私攻击
差分隐私(I)_holly一定行的博客-CSDN博客_差分隐私
差分隐私随笔_Je_Ho的博客-CSDN博客
差分隐私学习_even_zhan的博客-CSDN博客
差分隐私保护_跨链技术践行者的博客-CSDN博客_差分隐私保护
差分隐私-整理-知乎_Max_J999的博客-CSDN博客_差分隐私证明-整理
差分隐私及应用_草棚的博客-CSDN博客_差分隐私的应用
差分隐私若干基本知识点介绍(一)_MathThinker的博客-CSDN博客_差分隐私
差分隐私学习总结_weixin_33724570的博客-CSDN博客
差分隐私相关论文集合_河大吴彦祖的博客-CSDN博客_差分隐私论文
设有随机算法,为所有可能输出构成的集合的概率,对于任意两个邻近数据集与以及的任意子集,若算法满足:
则称算法提供 -差分隐私保护。
- 越小,隐私保密度越高;
- 越大,数据可用性越高(保密度越低);
- 为 0时,针对与的输出概率完全相同。
通常情况下, 值取很小,接近于1,即对于只有一条记录差别的两个数据集,如果查询它们的概率非常非常的接近,那么它们满足差分隐私保护。
差分隐私顾名思义就是防止差分攻击了,它想做的事情就是即使你小子知道我发布的100个人的信息,以及另外99个人的信息,你也绝对没办法把这两个信息比对之后获取第100个人的信息。怎么才能做到这一点呢?
差分隐私于是定义:如果你能找出一种方法让攻击者用某种方式查询100个信息和查询那99个信息得到的结果是一致的,那攻击者就没办法找出那第100个人的信息了。但这个“一致” 怎么做到呢?随机性。如果查询100个记录和查询99个记录,输出同样值的概率是一样的,攻击者就无法进行差分攻击。这里我们就得到了差分隐私的核心思想:对于差别只有一条记录的两个数据集,查询它们获得相同值的概率非常非常的接近。Wait,不是说一致的么?为什么变成了非常接近了? 这是因为,如果概率一样,就表示数据集需要完全随机化,那数据的可用性就没有了,隐私保护也没有意义了。所以,我们尽可能的把概率做的接近,而不是一致,以期在隐私和可用性之间找一个平衡。
1、差分攻击
差分攻击是通过比较分析有特定区别的明文在通过加密后的变化传播情况来攻击密码算法的。差分攻击是针对对称分组加密算法提出的攻击方法,看起来是最有效的攻击DES的方法(因为差分攻击需要很大的空间复杂度,实际上可能不如野蛮攻击具有可操作性)。2000年以前,差分攻击就被证明对MD5的一次循环是有效的,但对全部4次循环似乎难以奏效。
2、拉普拉斯噪声
隐私保护整体分成9个部分,包括隐私信息产生、隐私感知、隐私保护、隐私发布、私信息存储, 隐私交换, 隐私分析, 隐私销毁, 隐私接收者。主要研究方向在在隐私保护, 隐私发布/存储/交换, 隐私分析这 3 个部分。
隐私保护的方式分成以下三种包括,数据失真,加密以及访问控制。目前的很多隐私保护技术往往结合了其中的多种技术,例如k-匿名算法、l-匿名算法、t-匿名算法等。
但是,匿名算法有两个重要的缺陷:
- 这些模型并不能提供足够的安全保障,它们总是因新型攻击的出现而需要不断完善。
- 这些早期的隐私保护模型无法提供一种有效且严格的方法来证明其隐私保护水平,因此当模型参数改变时,无法对隐私保护水平进行定量分析。
因此研究人员试图找到一种能够足够好的隐私保护模型,并能够衡量隐私标准的数据保护方法。进而提出了差分隐私。首先,差分隐私保护模型假设攻击者能够获得除目标记录外所有其它记录的信息,这些信息的总和可以理解为攻击者所能掌握的最大背景知识。在这一最大背景知识假设下,差分隐私保护无需考虑攻击者所拥有的任何可能的背景知识,因为这些背景知识不可能提供比最大背景知识更丰富的信息。其次,它建立在坚实的数学基础之上,对隐私保护进行了严格的定义并提供了量化评估方法,使得不同参数处理下的数据集所提供的隐私保护水平具有可比较性。
其实就是在查询结果里加入随机性。任何一种方法,只要用在数据集上能满足差分隐私的核心思想,那这个方法就是满足差分隐私的。所以最常用的方法是在结果上加满足某种分布的噪音,使查询结果随机化。
目前常用的有两种方法,一个是Laplace机制,在查询结果里加入Laplace分布的噪音,适用于数值型输出的保护。例如:zhihu里有多少人是985大学毕业的? 假如结果是2000人,那么每一次查询得到的结果都会稍稍有些区别,比如有很高的概率输出2001,也有较高概率输出2010, 较低概率输出1990,等等。
另外一个是指数机制,在查询结果里用指数分布来调整概率,适用于非数值型输出的保护。例如:中国top 3大学是哪一所。很高概率输出浙江大学,较高概率输出上海交大,较低概率输出武汉大学,很低概率输出蓝翔技校等等。
微软研究院的德沃柯(Dwork) 等人于2006年提出了差分隐私模型。差分隐私具有两个最重要的优点:
- 差分隐私严格定义了攻击者的背景知识:除了某一条记录,攻击者知晓原数据中的所有信息——这样的攻击者几乎是最强大的,而差分隐私在这种情况下依然能有效保护隐私信息;
- 差分隐私拥有严谨的统计学模型,极大地方便了数学工具的使用以及定量分析和证明。
正是由于差分隐私的诸多优势,使其一出现便迅速取代了之前的隐私模型,成为隐私研究的核心,并引起理论计算机科学、数据库与数据挖掘、机器学习等多个领域的关注。
基本思想:
上图给出了差分隐私的一般性方法。当用户(也可能是潜藏的攻击者)向数据提供者提交一个查询请求时,如果数据提供者直接发布准确的查询结果,则可能导致隐私泄漏,因为用户可能会通过查询结果来反推出隐私信息。为了避免这一问题,差分隐私系统要求从数据库中提炼出一个中间件,用特别设计的随机算法对中间件注入适量的噪音,得到一个带噪中间件;再由带噪中间件推导出一个带噪的查询结果,并返回给用户。这样,即使攻击者能够从带噪的结果反推得到带噪中间件,他也不可能准确推断出无噪中间件,更不可能对原数据库进行推理,从而达到了保护隐私的目的。
- 顺序合成:当有一个算法序列同时作用在一个数据集上时, 最终的当有多个算法序列分别作用在一个数据集上多个不同子集上时, 最终的差分隐私预算等价于算法序列中所有算法的预算的和。
- 平行合成:如果一个差分隐私保护算法序列中所有算法处理的数据集彼此不相交,那么该算法序列构成的组合算法提供的隐私保护水平取决于算法序列中的保护水平最差者,即预算最大者。
- 变换不变性:差分隐私对于后处理算法具有免疫性, 如果一个算法的结果满足ε-差分隐私, 那么在这个结果上进行的任何处理都不会对隐私保护有所影响。
- 中凸性:如果有2 个不同的差分隐私算法, 都提供了足够的不确定性来保护隐私, 那么可以通过选择任意的算法来应用到数据上实现对数据的隐私保护, 只要选择的算法和数据是独立的。
优点:差分隐私最强大的一点在于只要你的算法每一个步骤都满足差分隐私的要求,那么它可以保证这个算法的最终输出结果满足差分隐私,换句话说,即使攻击者具有足够多的背景知识,也无法在最终的输出中找出单个人的某项属性。
弱点:由于对于背景知识的假设过于强,需要在查询结果中加入大量的随机化,导致数据的可用性急剧下降。特别对于那些复杂的查询,有时候随机化结果几乎掩盖了真实结果。这也是导致目前应用不多的一个原因。
任何需要保护隐私的算法里都可以使用差分隐私。差分隐私作为一个非常漂亮的数学工具,为隐私研究指明了一个发展的方向。在早期,人们很难证明我的方法保护了隐私,更无法证明究竟保护了多少隐私。现在差分隐私用严格的数学证明告诉人们,只要你按照我的做,我就保证你的隐私不会泄露。
目前在学术上,差分隐私可以被应用在推荐系统,社交网络,基于位置的服务(网络踪迹分析、运输信息保护)、搜索日志保护等领域,当然,也包括了苹果的输入系统。
注:仅作资料整理!
如有错误、侵权,请联系笔者更改删除!!!