师兄毕业论文 -- 交通轨迹数据发布差分隐私保护算法研究(2020)

交通轨迹数据发布差分隐私保护算法研究(2020)

记录一些比较关键重要的点

1、论文摘要,几个重要观点:

  • 用户大量的轨迹数据,如果未经任何处理,数据管理员就直接发布,用户的个人隐私就会被泄露
  • 针对智能交通卡数据规模大、维度高以及稀疏的特点,本文围绕在满足差分隐私保护的前提下如何实现交通轨迹数据保护、以及频繁轨迹序列挖掘展开研究
    具体研究的工作:
  • 提出交通轨迹数据发布差分隐私保护算法 – 根据时空轨迹数据构建一颗无噪声的前缀树,前缀树保存了轨迹的公共前缀信息,包括时间戳、地点及计数。
    在这里插入图片描述
  • 提出差分隐私保护的频繁序列模式挖掘算法。为了减少噪声的添加,本文在挖掘轨迹的频繁序列之前通过将轨迹存储在前缀树(见另一篇短文即可)中,通过对树节点计数添加噪声、剪枝等操作,来保护轨迹数据的隐私,最后通过频繁序列挖掘算法来挖掘频繁的非连续轨迹序列。*** 实验使用正例数量和效用损失率来验证频繁序列挖掘效果
    关键词:隐私保护数据发布、差分隐私、时空轨迹数据、前缀树、频繁序列

2、研究背景和意义:

一些重要概念

  • 轨迹数据:是一种规模大、变化快的位置信息。很多的设备或者是系统能够收集特定用户的位置数据,收集好的数据可以用于数据分析,在由某个第三方共享数据进行数据分析之前,必须匿名保护他们的隐私。
  • 位置序列数据隐私保护的关键:如何在数据挖掘中提供基于位置信息服务,同时保护用户敏感的位置序列数据,是位置序列数据隐私保护的关键。
  • 简单的匿名化技术(K-匿名保护法/K-匿名的扩展模型LK-匿名保护方法)对数据进行保护, 对于敏感的个人数据还是有很大概率被泄露
  • 差分隐私保护技术可以防止位置序列数据隐私泄露,差分隐私通过仅允许对数据进行聚合查询并向每个查询结果添加噪声以实现隐私保护。
  • 交通轨迹数据作为特殊的位置序列数据,其主要是汽车及乘客在进出某站点时产生的位置记录。
  • 使用差分隐私技术保护交 通轨迹数据的隐私,向统计结果中添加噪声,发布净化的数据,从而保护数据的隐私**。 攻击者无法再通过已有的信息判断某条记录信息是否是具体的某个用户,即差分隐私 保护了个人的隐私。**
  • 频繁序列模式是数据挖掘中的一项基础应用。频繁序列模式可以发现数据中频繁出现的模式,但会导致个人隐私信息泄露。
  • 小总结改进:本文研究交通轨迹数据发布差分隐私保护算法差分隐私保护的频繁 序列模式挖掘算法。弥补了现有方法的不足,对轨迹数据的隐私保护方法及差分隐私 保护的频繁序列挖掘算法有一定的完善。
  • 匿名化技术:泛化匿名、基于抑制的匿名、空间不确定性的匿名(先了解)

差分隐私方法

  1. 树形结构差分隐私:SeqPT模型,算法模型首先将地点序列数据用前缀树的数据结构表示,前缀树将具有相同前缀的地点序列分组到同一个分支中,树的节点保存前缀子序列的计数。然后,根据设定的隐私预算分配公式,将产生的拉普拉斯噪声添加到前缀树的节点计数中;
  2. 概率分布差分隐私:在基于概率分布差分隐私保护轨迹数据研究中,上述方法可以很好的处理在小区域定义的粗粒度轨迹,但无法扩展到中等或者是大型地理跨度上面
  3. 指数机制差分隐私:对于连续型轨迹数据,有人提出了一种满足差分隐私的轨迹发布通用机制。这个机制分编码阶段和轨迹生成阶段
  4. 频繁序列模式差分隐私,

本文根据交通轨迹数据,规模大、维度高以及稀疏的 特点,提出交通轨迹数据发布差分隐私保护算法差分隐私频繁序列模式挖掘算法

差分隐私技术相关概念

  • 差分隐私可以用于保护交通轨迹数据隐私,假设在只相差一条数据 的两个交通轨迹数据集中,通过设置隐私保护级别和不可区分性程度,使用差分隐私 保护的方法分析这两个数据集的结果不会有明显的差别,即从两个数据集中获得相同结果的概率相似。 – 就没有很好的区分两个数据集,这样子就很好的保护了隐私。-- 即 攻击者已经知道某些个人的数据隐私信息,也不能够确切判断某条数据一定在数据集当中,即不能以任何方式侵犯个人隐私。
  • 交通轨迹数据发布方式:交互式和非交互式。非交互式发布方法比交互式发布方法会产生更多 的噪声,更合理隐私预算分配机制将减少噪声添加。
  • epsilon-差分隐私,
    师兄毕业论文 -- 交通轨迹数据发布差分隐私保护算法研究(2020)_第1张图片在这里插入图片描述
    !!!在差分隐私当中参数epsilon非常重要,隐私参数epsilon可以很有效的控制随机化算法M来实现隐私保护程度。epsilon越小表示对数据隐私保护程度越高,对真实结果加噪声干扰的程度越大。

函数的敏感度决定了差分隐私中所需的扰动量,全局敏感度适用于两个数据集之间的查询输出之间可能存在最大差异。

全局敏感度的定义
师兄毕业论文 -- 交通轨迹数据发布差分隐私保护算法研究(2020)_第2张图片
差分隐私保护轨迹数据需要对原始轨迹添加噪声实现,我们一般使用的是拉普拉斯机制来实现噪声添加。

拉普拉斯机制
师兄毕业论文 -- 交通轨迹数据发布差分隐私保护算法研究(2020)_第3张图片
上面的式子在Nozari那篇论文中有很好的应用,
师兄毕业论文 -- 交通轨迹数据发布差分隐私保护算法研究(2020)_第4张图片式子(13)就是上面laplace机制的一种很好的体现。

串并行机制是差分隐私中的两种组合特性,通过这两个组合特性可以灵活的设计更加复杂的隐私保护算法。
师兄毕业论文 -- 交通轨迹数据发布差分隐私保护算法研究(2020)_第5张图片
评价指标

在进行实验的时候对于实验结果或者是数据我们需要很好的判断,所以评价指标对于一个实验结果的好坏是很能说明问题的。
1、 相对误差
师兄毕业论文 -- 交通轨迹数据发布差分隐私保护算法研究(2020)_第6张图片
2、正例数量
师兄毕业论文 -- 交通轨迹数据发布差分隐私保护算法研究(2020)_第7张图片
3、效用损失率
在这里插入图片描述
师兄毕业论文 -- 交通轨迹数据发布差分隐私保护算法研究(2020)_第8张图片
loss越接近0,表明净化后的数据可用性越高。

你可能感兴趣的:(差分隐私,数据挖掘)