PCKV: Locally Differentially Private Correlated Key-Value Data Collection with Optimized Utility论文阅读

具有优化效用的本地差分隐私相关键值数据收集

  • 提出背景
  • 主要贡献
  • 基础知识介绍
  • 提出的框架和机制
    • ①预算分配
    • ②采样协议
    • ③扰动
    • ④聚合和估计
    • ⑤优化隐私预算分配

提出背景

本文提出本地化差分隐私关于键值共同扰动的方法。本文和PrivKVM是处理键值对本地化差分隐私的两种不同角度的方法。

主要贡献

主要贡献:
(1)提出了基于一元编码(UE)和广义随机响应(GRR)两种基线扰动方案下PCKV-UE和PCKV-GRR两种机制的PCKV框架。方案是非交互式的(与PrivKVM相比),因为值的平均值是在一轮中估计的。从理论上分析了期望和均方差,并证明了其渐近无偏性。(不明白一轮抽样就很准确了?
(2)对键值数据采用了Padding-and-Sampling协议(引用论文[23])。
(3)提出了近似最优预算分配方法。

评价指标:因变量的MSE、精确度(自变量Ɛ、数据域d)。

文章重点:
理解隐私预算分成键扰动ε1、值扰动ε2后,作者是如何确定扰动概率a、p、b的公式具体数值;是如何求出总的隐私预算的公式和ε1、ε2的(本文ε≠ε1+ε2)

文章难点:
①理解为了最小化MSEmk,作者是如何确定参数μ、g、h的才能解出“文章重点”说的各个参数。(没细看这个过程
②理解l的意义,是指什么意思,是d’=d+l,还是总的d’(没看懂

基础知识介绍

GRR、UE是两种不同编码方式,详细见王天豪老师的频率估计
PCKV: Locally Differentially Private Correlated Key-Value Data Collection with Optimized Utility论文阅读_第1张图片
PCKV: Locally Differentially Private Correlated Key-Value Data Collection with Optimized Utility论文阅读_第2张图片
上图可以看到每个机制在不同条件下效果不一样。
OUE和OLH的方差一致。
DE(GRR)在d小的时候,效果比UE好;d大的时候,是OUE和OLH好。

提出的框架和机制

PCKV: Locally Differentially Private Correlated Key-Value Data Collection with Optimized Utility论文阅读_第3张图片

①预算分配

②采样协议

PCKV: Locally Differentially Private Correlated Key-Value Data Collection with Optimized Utility论文阅读_第4张图片
没想明白,为什么第7步要离散化,因为在figure2 的时候又离散化一遍。
在这里插入图片描述
没明白l的选取对偏差和方差的关系。

③扰动

PCKV: Locally Differentially Private Correlated Key-Value Data Collection with Optimized Utility论文阅读_第5张图片
没明白为什么以1-a的概率扰动成<0,0,>后,为什么不考虑是否会抵消的问题?为什么不用公式证明说明这个<0,0>不会影响后面的频率估计和均值估计 ?

PCKV: Locally Differentially Private Correlated Key-Value Data Collection with Optimized Utility论文阅读_第6张图片
PCKV-UE的a、b、p,总的ε的公式
在这里插入图片描述
PCKV: Locally Differentially Private Correlated Key-Value Data Collection with Optimized Utility论文阅读_第7张图片

PCKV: Locally Differentially Private Correlated Key-Value Data Collection with Optimized Utility论文阅读_第8张图片
PCKV-GRR的a、b、p,总的ε的公式
PCKV: Locally Differentially Private Correlated Key-Value Data Collection with Optimized Utility论文阅读_第9张图片

注意:
①PCKV-UE中x->y
采样x=,被编码为向量x,只有第k个元素为,其他元素为<0,0>。y是输出向量,y不止一个元素不为0,因为经过了扰动。
②PCKV-GRR中x->y’=,y’是一个键值对。此时输出为=,没有0值。

PCKV: Locally Differentially Private Correlated Key-Value Data Collection with Optimized Utility论文阅读_第10张图片
PCKV-GRR,给定ε1、ε2下,l越大,ε越小,隐私性越强。(可是论文后面好像又表达噪声越小,所以是哪个意思呢?)
PCKV-UE的填充采样没有隐私放大好处,PCKV-GRR有。因为定理2不依赖l,而定理3依赖l。

④聚合和估计

PCKV: Locally Differentially Private Correlated Key-Value Data Collection with Optimized Utility论文阅读_第11张图片
在这里插入图片描述
PCKV: Locally Differentially Private Correlated Key-Value Data Collection with Optimized Utility论文阅读_第12张图片
PCKV: Locally Differentially Private Correlated Key-Value Data Collection with Optimized Utility论文阅读_第13张图片
PCKV: Locally Differentially Private Correlated Key-Value Data Collection with Optimized Utility论文阅读_第14张图片

通过求n1、n2,即1、-1的支持个数,代入mk,求均值

⑤优化隐私预算分配

其实这个应该写在①的,但是,作者现在是优化预算分配,就是说我们讨论完一整个流程之后,我们发现如何设置隐私预算使得MSE最小呢?
在这里插入图片描述
PCKV: Locally Differentially Private Correlated Key-Value Data Collection with Optimized Utility论文阅读_第15张图片
上图标黄色的就是求MSE最小的公式。如果将频率的MSE最小化,会导致ε1很大,ε2会=0,均值估计的MSE会趋向∞。不妥,我们考虑最小化均值估计的MSE。

对参数μ、g、h讨论后,
PCKV-OUE最终的各参数具体数值:
PCKV: Locally Differentially Private Correlated Key-Value Data Collection with Optimized Utility论文阅读_第16张图片
PCKV-GRR最终的各参数具体数值:
PCKV: Locally Differentially Private Correlated Key-Value Data Collection with Optimized Utility论文阅读_第17张图片
优化后文章证明仍然满足差分隐私。

你可能感兴趣的:(论文阅读)