Calibrate: LDP via Incorporating Prior Knowledge

Calibrate: Frequency Estimation and Heavy Hitter Identification with Local Differential Privacy via Incorporating Prior Knowledge

论文链接.
目前一些前沿的后处理算法(比如实现frequency consistency)都要运用到本章节 的知识,可以作为一个补充和前导知识阅读

论文主要内容:

本文旨在利用两个先验知识:

  1. 频率估计的噪声的先验知识
  2. 真实频率的先验知识

将上述两个先验知识分别建模为两个概率分布,并计算频率的条件概率分布,并使用条件概率分布的均值作为校准频率

1. Introduction

现有的FO协议存在两个限制

他们在Aggregate步骤得到的估计 是 真实频率和噪声的和

现有的FO协议不能利用两个先验知识:

  1. 噪声的先验知识

  2. 真实频率的先验知识

    比如在一些实际场景中,

    • 视频受欢迎程度、网页的点击率、社交网络中的节点度都是服从幂律分布
    • 人们的身高服从高斯分布
    • 又或者在一些混合的LDP中一些opt-in的节点会和aggregator分享他们的真实数据,从而aggregator能够获得真实频率的条件概率分布

给定两种概率分布:噪声的概率分布 p s p_s ps,真实频率的概率分布 p f p_f pf, 以及经过FO协议的得到的频率估计 f ^ \hat{f} f^可以的得到该频率的条件概率分布,并使用条件概率分布的均值作为校准频率

实现Calibrate需要估计两个概率分布
  1. LDP算法的噪声服从高斯分布
  2. 假设真实频率的分布已知

2. Local Differential Privacy Algorithms

2.1 Pure Protocol

Calibrate: LDP via Incorporating Prior Knowledge_第1张图片

Calibrate: LDP via Incorporating Prior Knowledge_第2张图片

具体见https://blog.csdn.net/weixin_43641509/article/details/120948055?spm=1001.2014.3001.5501

  • S u p p o r t ( t ) Support(t) Support(t)表示:Support 将 每一个可能的输出值t 映射到 一组输入v

  • f ^ i \hat{f}_ i f^i:表示输入值i的频率估计

  • 1 S u p p o r t ( t u ) ( i ) \mathbb{1}_{Support(t_u)}(i) 1Support(tu)(i):如果tu Support 输入值,则为1,否则为0

2.1 MSE 均方误差

image-20211105152552906

如果 f ^ i \hat{f}_i f^i是一个无偏估计,即 E [ f ^ i ] = f i E[\hat{f}_i]=f_i E[f^i]=fi,则针对项 i i i的MSE是随机变量 f i f_i fi的方差

3. OUR Calibrate FRAMEWORK

3.1 Overview of Calibrate

将频率估计 f ^ \hat{f} f^分割如下:
f ^ i = f i + s i \hat{f}_i=f_i+s_i f^i=fi+si
假设KaTeX parse error: Got function '\hat' with no arguments as subscript at position 66: …at{f}\ 服从概率分布p_\̲h̲a̲t̲{f}

Calibrate 的目标函数

Calibrate: LDP via Incorporating Prior Knowledge_第3张图片

贝叶斯公式

KaTeX parse error: Got function '\hat' with no arguments as subscript at position 27: …f},以及p_s,p_f,p_\̲h̲a̲t̲{f},\ 根据贝叶斯公式可以…

Calibrate: LDP via Incorporating Prior Knowledge_第4张图片

Calibrate的校准频率 f ~ \widetilde{f} f

将根据上式贝叶斯公式得到的条件概率的期望 作为校准概率

Calibrate: LDP via Incorporating Prior Knowledge_第5张图片

  • 公式12)即为公式10)的最优解,证明如下

    Calibrate: LDP via Incorporating Prior Knowledge_第6张图片

3.2 Estimating p s p_s ps

在多次执行实验中,一个项的噪声的概率分布

由于当前比较先进的LDP算法,基本都是满足pure protocol 框架的,所以频率估计 f ^ i \hat{f}_i f^i满足如下公式:

Calibrate: LDP via Incorporating Prior Knowledge_第7张图片

  • 根据中心极限定理: f ^ i ( 1 ) , f ^ i ( 2 ) , … … , f ^ i ( j ) \hat{f}_i^{(1)}, \hat{f}_i^{(2)}, ……, \hat{f}_i^{(j)} f^i(1),f^i(2),,f^i(j)满足高斯分布,且其期望为 f i f_i fi,方差为 n q ∗ ( 1 − q ∗ ) ( p ∗ − q ∗ ) 2 \frac{nq^*(1-q^*)}{(p^*-q^*)^2} (pq)2nq(1q)

由于 s i ( j ) = f ^ i ( j ) − f i s_i^{(j)}=\hat{f}^{(j)}_i-f_i si(j)=f^i(j)fi,则有:

Calibrate: LDP via Incorporating Prior Knowledge_第8张图片

  • 其期望和方差不依赖指标 i,每个项的随机噪声都服从相同的高斯分布
在一次执行实验中,所有项的噪声的概率分布

在我们的Calibrate公式中,ps模型关于d个项的噪声的概率密度的分布在一次执行中产生。

Calibrate: LDP via Incorporating Prior Knowledge_第9张图片

  • 矩阵的每一行,表示多次执行实验的: s ^ i ( 1 ) , s ^ i ( 2 ) , … … , s ^ i ( j ) \hat{s}_i^{(1)}, \hat{s}_i^{(2)}, ……, \hat{s}_i^{(j)} s^i(1),s^i(2),,s^i(j)服从相同的高斯分布
  • 矩阵的每一列,表示一次执行实验的: s ^ 1 ( j ) , s ^ 2 ( j ) , … … , s ^ d ( j ) \hat{s}_1^{(j)}, \hat{s}_2^{(j)}, ……, \hat{s}_d^{(j)} s^1(j),s^2(j),,s^d(j)所有项的噪声的服从相同的高斯分布
  • 因此ps服从高斯分布,且其期望为 0 0 0,方差为 n q ∗ ( 1 − q ∗ ) ( p ∗ − q ∗ ) 2 \frac{nq^*(1-q^*)}{(p^*-q^*)^2} (pq)2nq(1q), 方差由用户数量n、预定义的隐私预算决定(p*和q*由此决定)

对于不满足pure LDP的LDP算法,其产生的噪声不一定满足高斯分布。比如RAPPOR协议,比如噪声分布与数据相关的LDP算法。

3.3 Estimating p f p_f pf and KaTeX parse error: Got function '\hat' with no arguments as subscript at position 3: p_\̲h̲a̲t̲{f}

3.3.1 Estimating p f p_f pf

假 设 p f 是 由 一 组 参 数 Θ 参 数 化 的 分 布 簇 p f ( f ∣ Θ ) 假设p_f是 由一组参数\Theta 参数化的分布簇p_f(f|\Theta) pfΘpf(fΘ)

  • 比如服从幂律分布的pf:image-20211107170531639

使用两种方法计算参数$ \Theta $:最大似然估计法和均值-方差法

  • 最大似然估计法是统计学中的标准方法,适用所有的分布簇
  • 均值-方差法为该论文提出的方法,适用于参数少于等于两个的分布簇,比最大似然估计法更加高效
Maximum likelihood estimation method

需要计算k的和,所以要比Mean-variance低效

Calibrate: LDP via Incorporating Prior Knowledge_第10张图片

Mean-variance method

通过(17)、(18)计算得$\Theta $

image-20211107200753566

Calibrate: LDP via Incorporating Prior Knowledge_第11张图片

  • E ( s ) E(s) E(s) V a r ( s ) Var(s) Var(s)已知,通过高斯公式可知
  • E ( f ^ ) E(\hat{f}) E(f^) V a r ( f ^ ) Var(\hat{f}) Var(f^)可通过式(19)、(20)已知
  • E ( f ) E(f) E(f) V a r ( f ) Var(f) Var(f)是参数$\Theta 的 方 程 式 , 通 过 解 方 程 可 得 参 数 的方程式,通过解方程可得参数 \Theta $.(只有一个参数时,可仅通过式17,解方程)

3.3.2 Estimating p f ^ p_{\hat{f}} pf^

image-20211107202046822

  • 所以,给定 p f 和 p s 可 以 计 算 p f ^ p_f和p_s可以计算p_{\hat{f}} pfpspf^

4. EVALUATION

4.1 Experimental Setup

  1. 使用两个服从幂律分布数据集:Kosarak和Retail Market Basket

    Calibrate: LDP via Incorporating Prior Knowledge_第12张图片

  2. 使用了三种LDP算法对比: OUE、OUE-Zero、OUE-Calibrate、

OUE-Zero
  1. 高频的项在最终的统计结果上更可靠,因为他们从低频的项目上随机转换而来的概率很低;反之,由于LDP的噪声,低频的项的估计值不会很准确。

  2. 将低于阈值的全部转化为0

    image-20211107203737946

OUE-Calibrate

OUE+Calibrate

Calibrate算法见3.1章

你可能感兴趣的:(差分隐私学习笔记,安全)