论文下载地址:http://cseweb.ucsd.edu/~kamalika/pubs/survey.pdf
相关会议视频:https://youtu.be/qH-jUfzoeXA
私人公司、政府单位、医院等机构在日常中积累了大量的数字化的关于顾客、消费者、病人的个人信息。这些信息大部分是私人的或者敏感的,未来的一种关键技术挑战就是如何设计一个系统或者处理技术,能够在保证数据和个人信息的隐私和安全的前提下,从这些大规模数据中提取信息。为了公共健康之类的目的,个体常常自愿去分享数据,但是他们希望他们的身份或者他们参与了的这一事实不会被泄漏。最近几年,出现了很多解决这些挑战的隐私模型和隐私保护的数据分析算法。在这篇文章中,我们将介绍差分隐私机器学习和信号处理中的相关进展。
目前有很多隐私保护的定义和模型,最近Fung等人[1]的研究比较了几种不同的方法。这些模型大部分被证明对合成攻击无效,合成攻击就是攻击者通过观察算法的输出,利用先前的知识来确认个人信息[2]。比如攻击者可以利用像投票调查这样的可用的公共记录[3]。定义隐私不是简单的事情,隐私、机密、安全这些在不同的场景有不同的含义。越来越明显的是,个人的身份和他们的数据之间并没有真正的分离——与个人相关的数据模式本身就是唯一可识别的。
差分隐私[4]是一种基于密码的隐私定义,过去几年在机器学习和数据挖掘领域活着了显著的关注。对于差分隐私而言有一些不同的定义[5]-[7],但对于本次研究而言,差异隐私通过一个参数 ϵ \epsilon ϵ来衡量隐私风险,这个参数限制了(私有)算法在两个数据集中输出结果的对数似然比,而这两个数据库仅仅有一条个人数据是不同的。当 ϵ \epsilon ϵ比较小的时候,无论一个个体数据是否在数据集中,攻击者对于算法的输出的观察结果都是类似的。这里还有其他的差分隐私文献的研究;特别的,Dwork和Smith[8]的研究包含了大量前期的理论工作。差分隐私的隐私保证本质上是统计性质的,和密码学[9]或信息论[10]的隐私保证不同。
官方统计数据中存在的问题,如发布“过滤的”数据,推动了差分隐私的初步工作。另一种不同的方法是交互查询模型:用户向数据库管理员提出查询,然后管理员提供近似答案。近似值是为了保护个人数据的隐私。通过这两种不同的设置,各个文献扩展到更复杂的数据处理算法,比如实时信号处理[11]-[13],分类[14]-[16],降维[17]-[18],和拍卖设计[19]。
在这些应用中,关键的挑战是估计隐私限制在算法的效果或者表现上的影响。隐私和实用是对立的;一个完全的隐私算法不会发布任何东西。虽然如此,如果可用的数据集包含许多个人信息,那么在隐私保证 ϵ \epsilon ϵ、实用性和数据点数量(样本量) n n n之间有一个平衡。总的来说,这个平衡依赖于数据集的性质,比如它的维度、值域或者稀疏度。在不同的应用领域,如何测量实用性的方法是不同的。比如对于统计学估计,我们也许使用均方差错误(MSE)来测量估计的质量,而对于分类而言,我们也许测量期望损失。通过对各定的数据集计算可以达到的隐私和准确率等级,能够提供一种在相同任务上比较不同差分隐私算法的方法。
虽然差分隐私的理论正在经历显著的发展,这里有大量的遗留工作,去把框架扩展到实际应用中。实际上,很多理论都是针对离散数据发展起来的,而连续型数据产生了很多挑战,从差分隐私算法的实现[20]到理论基础[21]。在本教程中,我们将集中注意力在差分隐私在连续型数据上操作的统计学方法和算法。我们将介绍统计估计量、分类程序、降维技术和信号处理技术。
连续型数据的差分隐私理论不同于离散型数据。例如,在离散数据上学习分类器是很容易的。如果可能的分类器或假设的数量是有限的,或者数据是离散的,那么当数据点n随假设集或数据域的大小呈对数增长时,就有可能学习到最好的分类器[22][23]:对于在 [ 0 , 1 ] d [0,1]^{d} [0,1]d范围内的数据,样本量 n n n一定和维度 d d d线性相关。另一方面,当数据允许是连续型,并且类别允许是无限的,无分布统计学习是不可能的[24]:我们既不知道数据分布的先验知识, n n n也依赖于数据分布。因此在样本需求上没有形式化的上界。这甚至适用于简单的类,如学习阈值和线性分类器:在缺乏隐私约束的条件下,我们可以选择一个n,这样我们对于任何的数据分布都可以学习真正的假说,但为了学习具有差分隐私的真正的假说,必须选择n作为数据的分布函数。
信号处理的技术有可能很好的扩展连续型数据的差分隐私算法。我们集中注意力在连续型数据意味着我们将不讨论在离散型差分隐私上的许多调查主题。特别的,我们将不讨论某些方面的进展,比如说为差分隐私设计的软件系统[25]-[27]、计算直方图和列联表的算法[28][29],或者是大量隐私保护的数据的发布工作(这些能在最近的工作中找到[18][30])。
在数据集 D = ( x 1 , x 2 . . . , x n ) D=(x_{1},x_{2}...,x_{n}) D=(x1,x2...,xn)中有 n n n条记录,其中 x i x_{i} xi是 R d R^{d} Rd中的向量,对应于一条数据。 d d d维向量对应于不同的特征。我们假设这些特征的值域被正则化为 ∣ ∣ x ∣ ∣ ≤ 1 ||x||\leq 1 ∣∣x∣∣≤1,其中 ∣ ∣ ⋅ ∣ ∣ ||\cdot|| ∣∣⋅∣∣是欧几里德范式。尽管在这次研究中我们集中注意力在连续型数据上,目前存在大量的关于离散型数据的差分隐私文献。
假设每个记录 x ( i ) x(i) x(i)代表来自d个不同传感器的数字读数,这些传感器监控与患者健康相关的不同数量(温度、心率)。为了简单起见,我们假设每个测量数据都被正则化为 x i ∈ [ 0 , 1 ] d x_{i}\in [0,1]^{d} xi∈[0,1]d。给定这些传感器在n个患者者上的测量数据,我们能够询问许多统计学和信号处理问题。给定特征的总体平均读数是多少?这些特征之间是如何两两相关的?我们能够从其他特征预测除其中一个特征吗?数据点是否(近似)位于 k ( k < d ) k(k
差分隐私旨在为敏感数据的计算过程提供保障,它具有许多特性,使得成为一种有吸引力的隐私量化方法。隐私通过确保使用下面的承诺进行随机化来保证的:如果在数据库中任何记录的参与(对应于一个个体)不会显著修改输出的可能性,我们认为这个算法是差分隐私的。这个定义有许多特点:它可以抵抗其他隐私模型容易受到的攻击[2],它限制了每个人的隐私风险,并且随着个人数据在多个计算中被使用,它可以优雅地降级。
一个算法 A p r i v ( ⋅ ) A_{priv}(\cdot) Apriv(⋅)在集合 T T T中提供 ϵ \epsilon ϵ-差分隐私,需要对于所有的可测量的 S ⊑ T S\sqsubseteq T S⊑T和所有的差一个简单记录的数据集 D D D和 D ′ D^{'} D′都满足:
它提供 ( ϵ , δ ) (\epsilon,\delta) (ϵ,δ)-差分隐私需要对所有的 S ⊑ T S\sqsubseteq T S⊑T和所有的相差一个记录的数据集 D D D和 D ′ D^{'} D′都满足:
这里我们假设在数据集 D D D中的每个条目都对应一个个体。隐私参数是 ϵ \epsilon ϵ和 δ \delta δ,较小的参数可以保证隐私[4][21]。第二个隐私保证是很弱的[31],当 δ = 0 \delta=0 δ=0是就是第一个。差分隐私的变体,比如 ( 1 , ϵ , δ ) (1,\epsilon,\delta) (1,ϵ,δ)-不可区分性[7]和 δ \delta δ-可能性隐私[32],在文献中也被考虑过;为了我们的目的,我们集中注意力在最受欢迎的变体上。
差分隐私算法有两个重要的特征。首先,如果 v v v是一个 ϵ \epsilon ϵ-差分隐私算法 A p r i v A_{priv} Apriv的输出,那么对于输出的任意函数 g ( v ) g(v) g(v)而言都保证是 ϵ \epsilon ϵ-差分隐私。那是因为输出的后续处理不改变隐私保证,同时后续处理也不使用原始数据。第二个关键特征是数据上的多次计算如何影响隐私保证。如果我们在 ϵ 1 \epsilon_{1} ϵ1和 ϵ 2 \epsilon_{2} ϵ2的隐私保证下在数据集上运行算法 A p r i v ( 1 ) A_{priv}^{(1)} Apriv(1)和算法 A p r i v ( 2 ) A_{priv}^{(2)} Apriv(2),那么 ( A p r i v ( 1 ) , A p r i v ( 2 ) ) (A_{priv}^{(1)},A_{priv}^{(2)}) (Apriv(1),Apriv(2))就能保证最大隐私风险为 ϵ 1 + ϵ 2 \epsilon_{1}+\epsilon_{2} ϵ1+ϵ2的差分隐私。如果我们允许 ( ϵ , δ ) (\epsilon,\delta) (ϵ,δ)-差分隐私的话,也许能获得更好的保证[33]。
对于一个给定的算法或者函数 A n o n p r i v A_{nonpriv} Anonpriv,有许多通用的方法来生成满足其中一个隐私定义的近似算法 A p r i v A_{priv} Apriv。这些方法展示在FIG1 中。这些方法以不同的方式引入了隐私保护的随机性,但大多涉及在原算法 A n o n p r i v A_{nonpriv} Anonpriv的某些步骤中加入噪声。我们描述了以下四种获取差分隐私的关键方法。
假如我们想要提供我们的身体传感器数据给第三方。最容易保证差分隐私的方式是把噪音添加到数据本身上。如果 x x x是真实的d维向量,一个差分隐私版本的x是:
其中Z是一个随机的d维向量,服从:
通过对集合 D D D中的每个向量 x i x_{i} xi添加添加噪音,我们能够保证生成的数据集 D ^ = x 1 ^ , . . . , x n ^ \widehat{D}={\widehat{x_{1}}},...,\widehat{x_{n}} D =x1 ,...,xn 是和 d d d近似 ϵ \epsilon ϵ差分隐私。在标量环境下这对应于添加 L a p l a c e Laplace Laplace分布的噪音。这不是唯一的保证差分隐私的分布,特别的,对于输出上的给定实用程序,在提供差分隐私的同时最大化实用程序的噪声分布可能具有不同的形状。
假设现在我们希望计算人群中每个传感读数的平均值。在这种情况下,我们想要的算法 A n o n p r i v A_{nonpriv} Anonpriv简单的计算一个数据的函数 f D ) fD) fD),我们能够通过像 f ( D ) f(D) f(D)上添加噪音来获得差分隐私。我们需要添加的噪音量依赖于函数 f f f对于输入变化的敏感度。全局敏感度是仅仅一个记录不同的所有数据集 D D D和 D ′ D^{'} D′之间最大的差异:
其中 ∣ ∣ ⋅ ∣ ∣ ||\cdot|| ∣∣⋅∣∣是欧几里德范式。我们能够计算一个 f f f的差分隐私近似:
其中 Z Z Z是d维向量,服从分布:
例如,为了计算平均向量 f ( D ) = ( 1 / 2 ) ∑ i = 1 n x i f(D)=(1/2)\sum_{i=1}^{n}x_{i} f(D)=(1/2)∑i=1nxi,敏感度 S ( f ) = 2 / n S(f)=2/n S(f)=2/n。这是(全局)敏感度方法[4],并且有许多变体来处理其他的更宽松的敏感度概念。例如,平滑敏感方法[34]在给定的数据集 D D D上,通过添加噪音获得一个只有在最坏情况下有较大 S ( f ) S(f) S(f)的函数 f f f,让它作为敏感度的平滑版本函数。
假如我们想要使用活动中的k次心率读数来发表一个活动后病人的心率预测。给定一个早已开源的线性预测 P k {P_{k}} Pk,我们将以差分隐私的方式选择其中的一个。我们可以通过预测的均方误差 M ( P ) M(P) M(P)来测量k阶线性预测器 P k P_{k} Pk的质量。使用这些数据,我们可以获得最大化 M ( P k ∗ ) M(P_{k}^{*}) M(Pk∗)的 k ∗ k^{*} k∗。在这一背景下,对最优化的k添加噪音也许没有意义,但是指数机制[35]给出一种拥有更高实用性的选择输出便宜的方法。定义 q ( D , k ) = − M ( P k ∗ ) q(D,k)=-M(P_{k}^{*}) q(D,k)=−M(Pk∗)来测量k阶预测的实用性,定义敏感度为:
这是对任意输出k和数据集D来最大化质量的变化。指数机制选择一个k的随机值,服从:
这种方法,来源于McSherry和Talwar[35],是一种通用方法,没有限制从离散型数据中选择;无论何时对于算法 A n o n p r i v A_{nonpriv} Anonpriv存在本质表现 q ( D , ⋅ ) q(D,\cdot) q(D,⋅),这个方法都能使用。在许多情况下,从 (9) 中的分布获得样本是容易的,但是对于一些 q ( D , ⋅ ) q(D,\cdot) q(D,⋅)我们不知道如何在多项式时间内从对应的分布中获得样本。
假设在我们的例子中,我们正在监测的一些病人有心脏病。我们想要使用同样的监测数据把未来的患者针对心脏病分类为高风险和低风险。Chaudhuri等人[14]提出一种方法,通过向最优化的目标函数添加扰动来获得差分隐私近似。也就是说,给定一个算法 A n o n p r i v A_{nonpriv} Anonpriv,它通过一个(强)凸函数 J ( g , D ) J(g,D) J(g,D)的极小化来计算输出 f f f,我们可以通过在极小化之前加入噪声来得到一个差分隐私算法 A n o n p r i v A_{nonpriv} Anonpriv:
其中Z的分布和先前的 (4) 中具有同样的形状,但是指数中的系数必须被选择作为优最化的敏感度的函数[14]。
如果我们对输入、输出、目标扰动使用高斯噪音,我们能够获得保证 ( ϵ , δ ) (\epsilon,\delta) (ϵ,δ)差分隐私的算法–高斯噪音的参数将依赖于 ϵ , δ \epsilon,\delta ϵ,δ和特定的目标函数 A n o n p r i v A_{nonpriv} Anonpriv。总的来说,敏感度参数依赖于我们想要近似的,不是在给定的真实数据集 D D D上的 A n o n p r i v A_{nonpriv} Anonpriv。采样-聚合框架[34]试图通过近似实际数据子集上的函数值来缓解这种情况;这可能会为许多数据集带来更少的噪声。最近的研究主要集中在如何利用数据的性质(比如非相干性[36][37])来扩展算法,获得更少的噪音和更好的效果。这些方法中值得注意的是提出-测试-发布框架[38],它在数据上使用差分隐私进行测试来检查一个属性是否成立,然后利用这个属性来选择算法。
在敏感数据分析中最基本的任务之一就是基本描述性统计的计算,比如均值、方差和其他数据分布的参数。在我们的患者监听样例中,我们希望知道患者的安静心率或者心率如何和活动等级相关。发布确切的值并不会维持差分隐私。例如,仅仅有一条记录不同的数据集 D D D和 D ′ D^{'} D′有不同的均值,因此当 S S S包含 A p r i v ( D ) A_{priv}(D) Apriv(D)而不包含 A p r i v ( D ′ ) A_{priv}(D^{'}) Apriv(D′)的时候等式 (1) 不成立。为了阻止这种隐私侵犯,我们能够通过差分隐私计算这些统计数据。我们常常能够使用像FIG1 中的标准方法来保证差分隐私。对于处于有限域区域的数据,许多标准的统计数据可以很容易的在差分隐私和高准确率的条件下计算。当每个个体数据是标量 x i ∈ [ 0 , 1 ] x_{i}\in[0,1] xi∈[0,1]并且这个区间提前知道了,许多统计估计可以做到隐私和一致[39]。从差分隐私的第一个工作开始,估计函数就被提出了,比如均值[4]、中值[34]、协方差矩阵[40][41]和包含密度估计[42]的大量非参数问题[21]。
假设我们想要计算患者人群中的平均心率。对于边界数据,[4]中的全局敏感方法给我们提供了一种简单的对样本均值的差分隐私近似。如果 ( x 1 , . . . , x n ) (x_{1},...,x_{n}) (x1,...,xn)是输入数据集,那么估计函数就是:
其中 ϵ \epsilon ϵ是隐私参数, Z Z Z是服从单位方差 L a p l a c e Laplace Laplace分布的随机噪音。如果 n n n和 ϵ \epsilon ϵ很大,这为样本均值提供了一个相当精确的附加近似值。FIG2a 展示了数据集大小 n = 1000 , ϵ = 0.1 n=1000,\epsilon=0.1 n=1000,ϵ=0.1时这个过程的输出结果的直方图。同样的技术可以用来对方差和 高阶矩也就是对所有的线性统计函数进行差分隐私近似。
假设我们要计算心率的中值。虽然如此,全局敏感度并没有应用到样本中值,因为样本中值的全局敏感度很好:在具有m个0和m+1个1的数据集中,交换一个单一元素会使得中值由1变为0.这里我们使用指数机制来计算从有限域提取的样本中值的差分隐私近似。对于任意 y ∈ [ 0 , 1 ] y\in[0,1] y∈[0,1],定义 F n ( y ) F_{n}(y) Fn(y)作为输入数据 ( x 1 , . . . , x n ) (x_{1},...,x_{n}) (x1,...,xn)的经验累积分布。也就是说 F n ( y ) F_{n}(y) Fn(y)是对满足 x i ≤ y x_{i}\leq y xi≤y的 x i x_{i} xi的分数。通过选择质量函数 q ( D , y ) = ∣ ( 1 / 2 ) − F n ( y ) ∣ q(D,y)=|(1/2)-F_{n}(y)| q(D,y)=∣(1/2)−Fn(y)∣,我们有 S ( q ) = 1 / n S(q)=1/n S(q)=1/n。这个质量函数在真实中值上最大化,根据指数机理得出的样本方差随n的增加而减小。根据**(9)** 中的分布进行抽样估计可以保证 ϵ \epsilon ϵ-差分隐私。FIG2b 展示了对于样本大小 n = 1000 , ϵ = 0.1 n=1000,\epsilon=0.1 n=1000,ϵ=0.1时这个过程的输出的分布。Nissim等人[34]提出了一种计算样本中值的差分隐私近似值的不同算法,该算法添加了与平滑灵敏度成比例的噪声。
个体统计估计量的成功引出了这样一个问题,是否我们能够找到一个这样的性质,能够使得统计估计量在差分隐私下很容易估计。事实证明关键性质是鲁棒性。鲁棒统计是研究污染和数据变化对估计函数性能影响的统计学的一个分支。鲁棒的估计函数对数据中的改变不敏感。例如,对于从无限域中得到的数据,样本均值不是鲁棒的,因为一个简单的异常值能够扰动均值。另一方面,中位数对于中位数处的密度为正的分布是鲁棒的。这里有几种鲁棒性的度量方法和在鲁棒统计估计量上的扩展文献[43]。
Dwork和Lei[38]证明了鲁棒统计学和差分隐私之间的联系,介绍了对几种鲁棒统计估计量的差分隐私估计,包括尾均值、四分位差和回归。这个联系被Chaudhuri和Hsu[44]具现化,他们介绍了过失误差敏感度(GES),这是一种鲁棒性测量方法,规定了在分布 F F F上对任意估计函数 T T T的差分隐私近似的有限样本收敛速率。
给定估计函数 T T T和分布 F F F, T T T在 F F F处沿 x x x方向在 ρ \rho ρ规模的影响函数定义为:
其中 δ x \delta_{x} δx是x处的质点。影响函数可以直观地认为是 T T T在 F F F点沿 x x x点质点在 ρ \rho ρ步长处的方向导数。 T T T在 F F F处以 ρ \rho ρ规模的GES定义为 G R S ρ ( T , F ) = s u p x ∣ I F ρ ( T , F , x ) ∣ GRS_{\rho}(T,F)=sup_{x}|IF_{\rho}(T,F,x)| GRSρ(T,F)=supx∣IFρ(T,F,x)∣;因此GES是最大方向导数的绝对值。Chaudhuri和Hsu[44]证明了两个结论。首先,他们给定一个插件估计量 T ( F n ) T(F_{n}) T(Fn)的差分隐私近似,其中 T T T是有限值域-由于隐私增加的额外错误率 O ( G E S ρ ( T , F ) / ϵ n ) O(GES_{\rho}(T,F)/\epsilon n) O(GESρ(T,F)/ϵn)。第二,他们证明对于 F F F或者 F F F周围小范围的 F ′ F^{'} F′, T ( F ) T(F) T(F)的差分隐私近似的收敛率。在两种情况下,规模参数 ρ \rho ρ是 O ( 1 / ϵ n ) O(1/\epsilon n) O(1/ϵn)的。这些结论证明,GES描述了一个估计值是如何服从于差分隐私近似值的。
Lei[45]通过量化数据和在扰动直方图上建立估计函数,提供了M-估计函数的差分隐私近似,这是一种鲁棒的估计函数。假设在我们的实例中,所有的特征被正则化到[0,1],这样所有的数据都是 [ 0 , 1 ] d [0,1]^{d} [0,1]d。该算法选择一个参数 h n h_{n} hn,将空间划分为边长为 h n h_{n} hn的立方体,通过计算每个立方体上的点的分数计算出数据密度的估计值,然后包 L a p l a c e Laplace Laplace噪音添加到这些计数上来保证差分隐私。使用这个密度估计来计算M-估计函数保证了差分隐私。Lei证明了选择合适的 h n h_{n} hn,当n趋近于 ∞ \infty ∞的时候估计函数的错误逼近0.
在机器学习和信号处理方面的隐私保护算法有越来越多的研究内容。例如,这里有隐私保护分类[14][15][46][47],回归[16][45],主成分分析(PCA)[17,37,40,48],促进[33]和在线学习[49]。Duchi等人[50]提出了一个不同的框架,通过一个噪音(隐私保护)梯度下降过程来分析统计风险最小化。在差分隐私的学习方面有许多理论;在这一部分,我们主要介绍差分隐私机器学习方面的最近应用和实际挑战。
在我们的实例中,假设我们想要学习一种把病人分类为心脏病高风险和低风险的规则。分类是一个简单的和基础的机器学习任务,对于离散数据,研究者提出了计算差分隐私决策树[51-53]的算法。对于连续数据,最通用的分类方法是经验风险最小化(ERM)。例如,对于逻辑回归,一个正规化ERM程序需要标签数据 ( x i , y i ) : i = 1 , 2 , . . . , n {(x_{i},y_{i}):i=1,2,...,n} (xi,yi):i=1,2,...,n,其中特征 x i ∈ R d x_{i}\in R^{d} xi∈Rd,标签 y i ∈ − 1 , + 1 y_{i}\in{-1,+1} yi∈−1,+1,找到新的数据点能够通过 s g n ( f T x ) sgn(f^{T}x) sgn(fTx)获得标签的向量 f f f。这可以通过下面的最小化解决:
其中 ∣ ∣ g ∣ ∣ 2 ||g||^{2} ∣∣g∣∣2防止过拟合的正规化, Λ \Lambda Λ是一个平衡参数。这里有几种差分隐私分类的方法。输出扰动计算 (11) 中的ERM解法并添加噪声。目标扰动[14]解决一个修改的版本:
其中噪音Z保证差分隐私。为了测量分类的效用,我们计算了差分隐私分类器的期望损失。目标扰动在损失上的理论保证是低于添加噪音到 (11) 中的 f f f的输出扰动的。目标扰动有一个接近于 (11) 中非隐私分分类器 f f f的经验表现。接下来的工作扩展了分类器[46]函数的类别,初始的经验证明是可以的[54,55]。其他的方法是基于扰动目标函数,Zhang等人[16]提出了工作机制。他们错误的声明,Chaudhuri等人[14]解决了逻辑回归的非标准形式;虽然如此,他们基于向 (11) 中的泰勒级近似添加噪音的方法能够实现比输出扰动更低的错误率。总的来说 (11) 中最优化的差分隐私近似保证了确切最小化的差分隐私。在隐私保证上的数字化方法的近似计算的影响是一个开放性的问题。
机器学习和信号处理系统的另一个基本构件是降维。数据也许已很高的维度显示,但是本质现象可能是低维度。最简单的例子是当多有的数据都位于或接近原始空间的低维子空间。在这种环境下,数据的协方差矩阵的奇异值分解(SVD)计算了这个低维子空间-也被称为PCA算法。给定n个向量集合 D = x 1 , . . . , x n , x i ∈ R d D={x_{1},...,x_{n}},x_{i}\in R^{d} D=x1,...,xn,xi∈Rd,其中x对应于个体的隐私数据,定义矩阵 X = [ x 1 , . . . , x n ] T X=[x_{1},...,x_{n}]^{T} X=[x1,...,xn]T,每一行是数据向量 x i {x_{i}} xi;定义 A = ( 1 / n ) X T X A=(1/n)X^{T}X A=(1/n)XTX作为数据的第二个 d x d dxd dxd动量矩阵。SVD给出 A = V T Λ V A=V^{T}\Lambda V A=VTΛV,其中 Λ \Lambda Λ是一个 d x d dxd dxd的对角线元素为 λ 1 ( A ) ≥ . . . ≥ λ d ( A ) ≥ 0 \lambda_{1}(A)\geq ...\geq \lambda_{d}(A)\geq 0 λ1(A)≥...≥λd(A)≥0的对角线矩阵,其中 V V V是正交的。A的top-k子空间是V的前k行,定义为 V k ( A ) V_{k}(A) Vk(A)。
这里有几种提出的方法在保护差分隐私的时候近似top-k的PCA子空间。次线性查询(SULQ)方法[40]向矩阵A添加噪音,之后计算噪音矩阵的SVD。Chaudhuri等人[17]提出使用指数机制来取样一个k维子空间来近似top-k的PCA子空间。这对应于从宾汉分布分布中取样,有密度:
其中 U U U是一个 k x d kxd kxd的行正交的矩阵。这个密度在 U = V k ( A ) U=V_{k}(A) U=Vk(A)有最大密度,从接近于真实子空间[17,48]的随机子空间取样。
一个最主要的问题是从宾汉分布中取样。因为差分隐私是一种输出分布的性质,隐私保证取决于从分布中精确采样。Kapralov和Talwar[48]提出了一个根据 (13) 的k=1时的复杂的取样过程,但是在数据维度上运行时间被抑制了。Chaudhuri等人提出使用容易实现的吉布斯采样法[56];不幸的是,没有严格的采样收敛时间的分析。提出一个从分布中实用并且精确的采样方法是一个开放性问题。
这篇文章的一个目的是鼓舞工程师想出差分隐私的点子并且把它应用到信号处理问题中。最近有一些工作将信号处理和信息论中的问题与差分隐私问题联系起来。Rastogi和Nath[57]提出了一种处理在数据集上查询的方法,在数据集中每个个体数据都是想体重那样的时间序列数据。他们的方法在傅里叶域实现了查询序列的差分隐私扰动,并且使用同态加密来确保分布式噪声添加。Fan和Xiong[13]通过学习一个线性预测和使用卡尔曼滤波,想要找到如何发布一个单一时间序列的差分隐私版本。为了控制隐私损失,他们自适应的选择是否发布差分隐私预测的输出或者向真实样本添加 L a p l a c e Laplace Laplace噪音。这种方法在很多情况下都优于离散傅里叶变换方法[57]。
Le Ny和Pappas[11,12]最近研究信号处理框架的差分隐私。他们研究了在聚集信号和使用卡尔曼滤波估计的情况下输入和输出扰动之间的差异,并且证明了在一些环境下在输入上的噪音添加比滤波效果更好。这与许多机器学习的实例形成了对比,在这些例子中,在输入端添加噪音可能会引起学习上的太多干扰。
在差分隐私算法方面的文献快速增长,但是仍然留有许多开放问题。尽管许多理论结果表明,估计统计和学习,同时保持差分隐私是可能的[22,39],一些结论依赖于技术假设,比如离散数据,有限假设集合或者有限值域,这些不总是在左右环境下成立。理解连续数据的基本限制可能有助于理解在差分隐私条件下哪些信号处理任务是可能的。
一个更加直接的问题是如何选择 ϵ δ \epsilon \delta ϵδ。很明显更小的参数能保证更好的隐私[4],同时尽管在选择 ϵ \epsilon ϵ时有一些试探法,理解工作者的隐私风险是一个挑战。因为一个简单的数据集也许在多个计算中被使用,隐私的合成规则意味着我们需要对所有计算选择一个总体 ϵ \epsilon ϵ,对每个计算选择一个预算隐私。在如何为 ( ϵ , δ ) (\epsilon,\delta) (ϵ,δ)-差分隐私选择 δ \delta δ上没有共识:实验常常使用小的固定的 δ \delta δ,但是Ganta等人[2]建议比 1 / n 2 1/n^{2} 1/n2小的多的 δ \delta δ是更合适的。
对于一个给定的隐私等级 ϵ \epsilon ϵ,我们需要更大的样本量 n n n来实现相同等级的实用性或者近似错误。对于更小的样本量,差分隐私的随机化有时会被抑制[29]。在这种情况下不可能提供一种有效的差分隐私。在一些应用中,比如说医学数据挖掘,数据量n是固定的,问题是找到最小的 ϵ \epsilon ϵ,使效用的牺牲是可接受的。
隐私定义依赖于一个理想的计算模型。最近的研究表明[20],从隐私方面看,浮点数据运算的标准实现是有问题的。因为每个计算都需要差分隐私,更复杂的系统比如PINQ[25],AIRAVAT[26]和GUPT[27]只能在较大的 ϵ \epsilon ϵ的情况下工作。即使如此,这些系统的实现仍然会产生隐私风险,尤其是响应查询花费的时间会泄露信息[59]。
差分隐私的观点早已经开始影响一些系统,但是仍然有许多理论和实践挑战。一些信号处理的核心主题正在探索,在信号处理领域的大量专门知识能够帮助刺激新的隐私保护数据处理算法和系统的发展。差分隐私方面的文献迅速增长,并且我们能够涉及新的主题。我们希望有兴趣的读者能够通过不同的隐私视角来调查研究广泛的主题。
从信号处理视角,这里有几个在未来研究中应该探索的方向。首先,在许多信号处理应用中,信号获取是设计的一部分;一个待解决的问题是,如何在测量信号的时候将隐私考虑在内。例如,如果一个信号将在之后被使用在差分隐私系统中,我们应该如何让表示这个信号?我们能否设计一个本身就能保证隐私的信号获取方式?
第二,与个体相联系的信号也许比我们在研究中考虑的d维信号复杂得多。尽管在一维时间序列下许多工作都可以完成,仍然有许多有趣的未解决的问题,比如预报预测法、转移性和其他的核心信号处理任务。图像处理是其他的重要主题,但是目前在现存的隐私文献中获得很少的注意。图像是较高维的信号,许多差分隐私的机器学习方法的数据需求和难以满足数据维度的要求。虽然如此,图像也是一种结构化的信号,这种结构很肯呢个能够用来发展具有更好理论保证和实际效果的算法。
网络信息系统是其他的出现的差分隐私应用。大规模数据挖掘通常涉及希望合作但又不希望泄露数据的部分。尽管目前有许多密码学方法解决这个问题,差分隐私分布式算法仍然处于幼年期[60,61]。社会网络和其他的分布式收集和测量系统也提供大量的隐私保护算法的应用。
在这篇文章中,我们仅仅能够对差分隐私的许多文献进行介绍。连续型数据的差分隐私算法和信号处理最为相关。隐私对时间序列和实时处理的影响不同于离线算法,如参数估计。通过对特定领域和信号假设的应用,我们相信对许多信号处理应用实现有意义的隐私-效用平衡曲线是可能的。虽然如此,在信号处理系统上探索差分隐私的可能性和相关创意还需要很多工作;我们希望本文将有助于激发这项工作。
作者的工作是被National Institutes of Health under award U54-HL108460 支持的。
Anand D. Sarwate ([email protected]) is a research assistant professor at the Toyota Technological Institute at Chicago. He received B.S. degrees in electrical engineering and mathematicsfrom the Massachusetts Institute of Technology in 2002 and a Ph.D. degree in electrical engineering from the University of California at Berkeley in 2008. His research is on distributed signal processing, optimization, machine learning, information theory, and statistics.
Kamalika Chaudhuri ([email protected]) is an assistant professor in the Department of Computer Science and Engineering, University of California, San Diego. She received a bachelor of technology degree in computer science and engineering from the Indian Institute of Technology, Kanpur, in 2002, and a Ph.D. degree in computer science from the University of California at Berkeley in 2007. Her research focuses on the design and analysis of machine-learning algorithms and their applications. In particular, she is interested in privacy-preserving machine learning, where the goal is to develop machine-learning methods for sensitive data while still preserving the privacy of the individuals in the data set.
[1] B. C. M. Fung, K. Wang, R. Chen, and P. S. Yu. (2010, June). Privacy-preserving data publishing: A survey of recent developments. ACM Comput. Surv. [Online]. 42(4), pp. 14:1–14:53. Available: http://dx.doi.org/10.1145/1749603.1749605
[2] S. R. Ganta, S. P. Kasiviswanathan, and A. Smith. Composition attacks and auxiliary information in data privacy. presented at the 14th ACM SIGKDD Int. Conf. Knowledge Discovery and Data Mining (KDD ’08) [Online]. Available: http://dx.doi.org/10.1145/1401890.1401926
[3] L. Sweeney. (2002, Oct.). k-Anonymity: A model for protecting privacy. Int. J. Uncertain. Fuzz. Knowl.-Based Syst. [Online]. 10(5), pp. 557–570. Available: http://dx.doi.org/10.1142/S0218488502001648
[4] C. Dwork, F. McSherry, K. Nissim, and A. Smith. (2006, Mar. 4–7). Theory of Cryptography (Lecture Notes in Computer Science Series, vol. 3876) [Online]. Available: http://dx.doi.org/10.1007/11681878_14
[5] V. Rastogi, M. Hay, G. Miklau, and D. Suciu. Relationship privacy: Output perturbation for queries with joins. presented at 28th ACM SIGMOD-SIGACTSIGART Symp. Principles Database Systems (PODS ’09) [Online]. Available: http://dx.doi.org/10.1145/1559795.1559812
[6] D. Kifer and A. Machanavajjhala. No free lunch in data privacy. presented at 2011 ACM SIGMOD Int. Conf. Management Data [Online]. Available: http://dx.doi.org/10.1145/1989323.1989345
[7] K. Chaudhuri and N. Mishra. (2006, Aug.). Advances in Cryptology—CRYPTO 2006 (Lecture Notes in Computer Science Series, vol. 4117) [Online]. Available: http://dx.doi.org/10.1007/11818175_12
[8] C. Dwork and A. Smith. (2009). Differential privacy for statistics: What we know and what we want to learn. J. Privacy Confident. [Online]. 1(2), pp. 135–154 [Online]. Available: http://repository.cmu.edu/jpc/vol1/iss2/2
[9] J. Vaidya, C. W. Clifton, and Y. M. Zhu. (2006). Privacy Preserving Data Mining (Advances in Information Security Series, vol. 19) [Online]. Available: http://dx.doi.org/10.1007/978-0-387-29489-6
[10] L. Sankar, S. R. Rajagopalan, and H. V. Poor. Utility-privacy tradeoff in databases: An information-theoretic approach. IEEE Trans. Inform. Forensics Sec. [Online]. to be published. Available: http://dx.doi.org/10.1109/TIFS.2013.2253320
[11] J. Le Ny and G. J. Pappas. (2012, Dec.). Differentially private filtering. presented at 51st Conf. Decision and Control (CDC) [Online]. Available: http://dx.doi.org/10.1109/CDC.2012.6426355
[12] J. Le Ny and G. J. Pappas. (2012, Oct.). Differentially private Kalman filtering. presented at 50th Annu. Allerton Conf. Communications, Control and Computing [Online]. Available: http://dx.doi.org/10.1109/Allerton.2012.6483414
[13] L. Fan and L. Xiong. Real-time aggregate monitoring with differential privacy. presented at 21st ACM Int. Conf. Information and Knowledge Management (CIKM ’12 [Online]. Available: http://dx.doi.org/10.1145/2396761.2398595
[14] K. Chaudhuri, C. Monteleoni, and A. D. Sarwate. (2011, Mar.). Differentially private empirical risk minimization. J. Mach. Learn. Res. [Online]. 12, pp. 1069–1109. Available: http://jmlr.csail.mit.edu/papers/v12/chaudhuri11a.html
[15] B. I. P. Rubinstein, P. L. Bartlett, L. Huang, and N. Taft. (2012). Learning in a large function space: Privacy-preserving mechanisms for SVM learning. J. Privacy Confident. [Online]. 4(1), pp. 65–100. Available: http://repository.cmu.edu/jpc/vol4/iss1/4/
[16] J. Zhang, Z. Zhang, X. Xiao, Y. Yang, and M. Winslett. (2012, Jul.). Functional mechanism: Regression analysis under differential privacy. in Proc. VLDB Endowment [Online]. 5(11), pp. 1364–1375. Available: http://vldb.org/pvldb/vol5/p1364_junzhang_vldb2012.pdf
[17] K. Chaudhuri, A. Sarwate, and K. Sinha, “Near-optimal algorithms for differentially-private principal components,”J. Mach. Learn. Res., to be published.
[18] M. Hardt, K. Ligett, and F. McSherry. (2012). Advances in Neural Information Processing Systems 25 [Online]. Available: http://books.nips.cc/papers/files/nips25/NIPS2012_1143.pdf
[19] A. Ghosh and A. Roth. Selling privacy at auction. presented at 12th ACM Conf. Electronic Commerce (EC ’11) [Online]. Available: http://dx.doi.org/10.1145/1993574.1993605
[20] I.Mironov. On significance of the least significant bits for differential privacy. presented at ACM Conf. Computer and Communications Security (CCS ’12)[Online]. Available: http://research.microsoft.com/apps/pubs/?id=173034
[21] L. Wasserman and S. Zhou. (2010). A statistical framework for differential privacy. J. Amer. Stat. Assoc. [Online]. 105(489), pp. 375–389. Available: http://dx.doi.org/10.1198/jasa.2009.tm08651
[22] S. A. Kasiviswanathan, H. K. Lee, K. Nissim, S. Raskhodnikova, and A. Smith. What can we learn privately? presented at IEEE 49th Annu. IEEE Symp. Foundations Computer Science (FOCS ’08) [Online]. Available: http://dx.doi.org/10.1109/FOCS.2008.27
[23] A.Blum, K.Ligett, and A.Roth. A learning theory approach to non-interactive database privacy. presented at 40th Annu. ACM Symp. Theory Computing (STOC ’08) [Online]. Available: http://dx.doi.org/10.1145/1374376.1374464
[24] K. Chaudhuri and D. Hsu. (2011, June). Proceedings of the 24th Annual Conference on Learning Theory (COLT ‘11) (JMLR Workshop and Conference Proceedings Series,vol. 19) [Online]. Available: http://www.jmlr.org/proceedings/papers/v19/chaudhuri11a/chaudhuri11a.pdf
[25] F. McSherry. (2010, Sept.). Privacy integrated queries: An extensible platform for privacy-preserving data analysis. Commun. ACM [Online]. 53(9), pp. 89–97. Available: http://dx.doi.org/10.1145/1810891.1810916
[26] I. Roy, S. T. V. Setty, A. Kilzer, V. Shmatikov, and E. Witchel, “Airavat: Security and privacy for mapreduce,” in Proc. 7th USENIX Conf. Networked Systems Design and Implementation (NSDI ’10), Berkeley, CA.
[27] P. Mohan, A. Thakurta, E. Shi, D. Song, and D. Culler, “GUPT: Privacy preserving data analysis made easy,” in Proc. 2012 ACM SIGMOD Int. Conf. Management Data, pp. 349–360.
[28] B. Barak, K. Chaudhuri, C. Dwork, S. Kale, F. McSherry, and K. Talwar. Privacy, accuracy, and consistency too: A holistic solution to contingency table release. presented at 26th ACM SIGMOD-SIGACT-SIGART Symp. Principles Database Systems (PODS ’07) [Online]. Available: http://dx.doi.org/10.1145/1265530.1265569
[29] X. Yang, S. E. Fienberg, and A. Rinaldo. (2012). Differential privacy for protecting multi-dimensional contingency table data: Extensions and applications. J. Privacy Confident. [Online]. 4(1), pp. 101–125. Available: http://repository.cmu.edu/jpc/vol4/iss1/5/
[30] B. Ding, M. Winslett, J. Han, and Z. Li. Differentially private data cubes: Optimizing noise sources and consistency. presented at 2011 ACM SIGMOD Int. Conf. Management Data [Online]. Available: http://dx.doi.org/10.1145/1989323.1989347
[31] C. Dwork, K. Kenthapadi, F. McSherry, I. Mironov, and M. Naor. Advances in Cryptology—EUROCRYPT 2006 (Lecture Notes in Computer Science Series, vol. 4004) [Online]. Available: http://dx.doi.org/10.1007/11761679_29
[32] A. Machanavajjhala, D. Kifer, J. M. Abowd, J. Gehrke, and L. Vilhuber. (2008, June). Privacy: Theory meets practice on the map. presented at IEEE 24th Int. Conf. Data Engineering (ICDE) [Online]. Available: http://dx.doi.org/10.1109/ICDE.2008.4497436
[33] C. Dwork, G. Rothblum, and S. Vadhan. (2010, Oct.). Boosting and differential privacy. presented at 51st Annu. IEEE Symp. Foundations Computer Science (FOCS’10) [Online]. Available: http://dx.doi.org/10.1109/FOCS.2010.12
[34] K. Nissim, S. Raskhodnikova, and A. Smith. Smooth sensitivity and sampling in private data analysis. presented at 39th Annu. ACM Symp. Theory Computing (STOC ’07) [Online]. Available: http://dx.doi.org/10.1145/1250790.1250803
[35] F. McSherry and K. Talwar. Mechanism design via differential privacy. presented at 48th Annu. IEEE Symp. Foundations Computer Science (FOCS ’07)[Online]. Available: http://dx.doi.org/10.1109/FOCS.2007.41
[36] M. Hardt and A. Roth. Beating randomized response on incoherent matrices. presented at 44th Annu. ACM Symp. Theory Computing (STOC ’12)[Online]. Available: http://dx.doi.org/10.1145/2213977.2214088
[37] M. Hardt and A. Roth, “Beyond worst-case analysis in private singular vector computation,” in Proc. 45th Annu. ACM Symp. Theory Computing (STOC ’13), June 2013, New York.
[38] C. Dwork and J. Lei. Differential privacy and robust statistics. presented at 41st Ann. ACM Symp. Theory Computing (STOC ’09) [Online]. Available: http://dx.doi.org/10.1145/1536414.1536466
[39] A. Smith. Privacy-preserving statistical estimation with optimal convergence rates. presented at 43rd Annu. ACM Symp. Theory Computing (STOC ’11)[Online]. Available: http://dx.doi.org/10.1145/1993636.1993743
[40] A. Blum, C. Dwork, F. McSherry, and K. Nissim. Practical privacy: The
SuLQ framework. presented at 24th ACM SIGMOD-SIGACT-SIGART Symp.
Principles Database Systems (PODS ’05) [Online]. Available: http://dx.doi.
org/10.1145/1065167.1065184
[41] J. Blocki, A. Blum, A. Datta, and O. Sheffet. (2012, Oct.). The Johnson Lindenstrauss Transform itself preserves differential privacy. presented at IEEE 53rd Annu. Symp. Foundations Computer Science (FOCS) [Online]. Available: http://dx.doi.org/10.1109/FOCS.2012.67
[42] R. Hall, A. Rinaldo, and L. Wasserman. (2013). Differential privacy for functions and functional data. J. Mach. Learn. Res. [Online]. 14, pp. 703–727. Available: http://jmlr.csail.mit.edu/papers/v14/hall13a.html
[43] P. J. Huber. (1996). Robust Statistical Procedures (2nd ed.) (CBMS-NSF Regional Conference Series in Applied Mathematics) [Online]. Available: http://dx.doi.org/10.1137/1.9781611970036
[44] K. Chaudhuri and D. Hsu. Convergence rates for differentially private statistical estimation. presented at 29th Int. Conf. Mach. Learn. (ICML-12)[Online]. Available: http://icml.cc/2012/papers/663.pdf
[45] J. Lei, “Differentially private M-estimators. (2011). Advances in Neural Information Processing Systems 24 [Online]. Available: http://books.nips.cc/papers/files/nips24/NIPS2011_0256.pdf
[46] D. Kifer, A. Smith, and A. Thakurta. (2012, June). Proceedings of the 25th Annual Conference on Learning Theory (COLT ’12) (JMLR Workshop and Conference Proceedings Series, vol. 23) [Online]. Available: http://jmlr.csail.mit.edu/proceedings/papers/v23/kifer12/kifer12.pdf
[47] G. Cormode. Personal privacy vs population privacy: Learning to attack anonymization. presented at 17th ACM SIGKDD Int. Conf. Knowledge Discovery and Data Mining (KDD ’11) [Online]. Available: http://dx.doi.org/10.1145/2020408.2020598
[48] M. Kapralov and K. Talwar, “On differentially private low rank approximation,” in Proc. 24th Annu. ACM–SIAM Symp. Discrete Algorithms (SODA ‘13), New Orleans, LA, pp. 1395–1414.
[49] P. Jain, P. Kothari, and A. Thakurta. (2012, June). Proceedings of the 25th Annual Conference on Learning Theory (COLT ’12) (JMLR Workshop and Conference Proceedings Series, vol. 23) [Online]. Available: http://www.jmlr.org/proceedings/papers/v23/jain12/jain12.pdf
[50] J. Duchi, M. Jordan, and M. Wainwright. (2012). Advances in Neural Information Processing Systems 25 [Online]. Available: http://books.nips.cc/papers/files/nips25/NIPS2012_0682.pdf
[51] A. Friedman and A. Schuster. Data mining with differential privacy. presented at 16th ACM SIGKDD Int. Conf. Knowledge Discovery Data Mining (KDD ’10) [Online]. Available: http://dx.doi.org/10.1145/1835804.1835868
[52] N. Mohammed, R. Chen, B. C. M. Fung, and P. S. Yu. Differentially private data release for data mining. presented at 17th ACM SIGKDD Int. Conf. Knowledge Discovery and Data Mining (KDD ’11) [Online]. Available: http://dx.doi.org/10.1145/2020408.2020487
[53] G. Jagannathan, K. Pillaipakkamnatt, and R. N. Wright, “A practical differentially private random decision tree classifier,” Trans. Data Privacy, vol. 5, no. 1, pp. 273–295, 2012.
[54] O. Williams and F. McSherry. (2010). Advances in Neural Information Processing Systems 23 [Online]. Available: http://books.nips.cc/papers/files/nips23/NIPS2010_1276.pdf
[55] M. A. Pathak and B. Raj. (2012, July–Aug.). Large margin Gaussian mixture models with differential privacy. IEEE Trans. Dependable Secure Comput. [Online]. 9(4), pp. 463–469. Available: http://dx.doi.org/10.1109/TDSC.2012.27
[56] P. D. Hoff, “Simulation of the matrix Bingham–von Mises–Fisher distribution, with applications to multivariate and relational data,” J. Comput. Graph. Statist., vol. 18, no. 2, pp. 438–456, 2009.
[57] V. Rastogi and S. Nath. Differentially private aggregation of distributed time-series with transformation and encryption. presented at 2010 ACM SIGMOD Int. Conf. Management Data [Online]. Available: http://dx.doi.org/10.1145/1807167.1807247
[58] A. Beimel, S. P. Kasiviswanathan, and K. Nissim. (2010, Feb. 9–11). Theory of Cryptography (Lecture Notes in Computer Science Series, vol. 5978) [Online]. Available: http://dx.doi.org/10.1007/978-3-642-11799-2_26
[59] A. Haeberlen, B. C. Pierce, and A. Narayan, “Differential privacy under fire,”in Proc. 20th USENIX Conf. Security, Berkeley, CA, 2011.
[60] D. Proserpio, S. Goldberg, and F. McSherry. A workflow for differentially private graph synthesis. presented at 2012 ACM Workshop Online Social Networks (WOSN ’12) [Online]. Available: http://dx.doi.org/10.1145/2342549.2342553
[61] F. McSherry and R. Mahajan. Differentially-private network trace analysis. presented at ACM SIGCOMM 2010 Conf. [Online]. Available: http://dx.doi.org/10.1145/1851182.1851199