Trajectory Data Collection with Local Differential Privacy(论文翻译)

6.1 Experimental Setting

在实验中,我们使用了三个真实世界和一个合成数据集,即NYC、CHI、CLE和CPS。NYC由从Foursquare数据集[43]中提取的纽约市的入住轨迹组成,而从Gowalla数据集[12]中提取的CHI和CLE分别由芝加哥和克利夫兰的入住轨迹构成。1我们将1000个最受欢迎的点视为P来生成CHI和CLE,并将2000个纽约最受欢迎POI视为P。为了进行公平的比较,我们采用了与先前研究[14]中相同的预处理步骤。我们随机删除每个轨迹中10分钟内出现的点,直到只剩下一个点。如果轨迹中任何两个相邻点之间的时间间隔超过三个小时,我们将其分为两个轨迹。在这些预处理步骤之后,我们分别在NYC、CHI和CLE中获得7951、3162和2794个轨迹。对于CPS,我们遵循之前的研究[14]在不列颠哥伦比亚大学校园内生成轨迹2。我们将262栋校园建筑作为P,并生成4000条轨迹。

唯一满足纯ε-LDP的研究是NGRAM机制[14],该机制通过结合外部知识来扰动POI轨迹。如上所述,在实践中往往很难获得这些外部知识,这是我们论文的主要动机。因此,我们将没有任何额外知识的NGRAM机制视为基线,并将不同数据集的网格粒度设置为3或4。另一个基线是指数机制(称为EXP)的直接应用。它通过使用本研究中提出的机制中使用的相同效用函数,即−dist(·),来扰动轨迹中的每个点。最后一个基线是CGM[3],这是一种在(ε,δ)-LDP下进行流式数据收集的最新机制。我们以与先前研究[3]中相同的方式对每个点的纬度和经度进行归一化,方法是设置δ=10−2或10−1,C=0.1。对于所有机制,我们使用Haversine距离作为距离度量。

对于ATP机制中的隐私预算分配方案,分别使用ε′=ε*=ε2来扰动τ′和τ*。对于ε′,ε′4用于确定区域。由于区域大小在确定轨迹区域中起着更重要的作用,ε′4的四分之一用于扰动轨迹锚,而其他四分之三用于扰动半径。剩余预算(即3ε′4)用于扰动τ′中的方向和点。由于方向对轨迹的扰动有较大的影响,3ε′4的四分之三被均匀划分以扰动方向,而另四分之一被均匀划分来扰动点。扰动τ的ε的分配与τ′相同。对于TP机制,我们对ATP机制中的方向和点的扰动使用相同的预算分配策略。所有机制执行5次,并绘制平均值。

你可能感兴趣的:(算法)