论文阅读《PrivateLink:Privacy-Preserving Integration and Sharing of Datasets》

论文来源

信息安全期刊:《IEEE Transactions on Information Forensics and Security》

下载链接:IEEE Xplore

论文概要

关键词

保护隐私的数据共享、数据集成、伪随机函数

提出问题

数据共享越来越普遍,通过数据共享,医疗企业等其它机构可以收集大量的数据,从而获得更准确的数据挖掘结果。但是数据共享过程中也存在着泄露用户隐私的风险,这个问题也一直制约着数据共享。作者认为本质上,类似的问题都属于保护隐私的数据集成(privacy-preserving data integration,PPDI)问题,现有的解决方法有如下缺陷:

  • 需要可信的第三方或安全的硬件
  • 需要在数据共享方之间协商密钥
  • 导致计算和通信开销过大

解决方案

要想解决PPDI问题,就不得不在数据可用性、数据隐私、计算效率三者间权衡。本文作者提出了一个简单的PrivateLink协议,目的就是在上述三者间实现一个合理的平衡。PrivateLink是一个客户端和服务器之间的交互协议,其结构模型如下。

论文阅读《PrivateLink:Privacy-Preserving Integration and Sharing of Datasets》_第1张图片 PrivateLink 的结构设计模型

 

为方便后续的阅读,请先花几秒钟了解一下标识符的概念,据我所知,这个概念来源于k-匿名。 

标识符:数据库中一条记录的唯一标识属性,例如一个人的身份证号

在客户端和服务器之间:

  1. 每个客户端都有自己的一个待共享的数据库。 客户端首先需要对自己数据库中所有记录的标识符进行随机化,对其它属性进行泛化。然后,所有客户端把经过随机化的标识符发给服务器。
  2. 服务器收到客户端发来的,已经随机化处理的标识符后,使用一个仅有自己知道的秘密值进一步遮蔽标识符,然后把这个再次处理过的标识符返回给原本的客户端。
  3. 原本的客户端收到服务器发来的经过两次处理(第一次处理是自己,第二次处理是服务器)后的标识符后,对这些标识符去随机,若与初始数据不一致,则丢弃该数据。

在各个客户端之间:

  1. 各个客户端之间共享随机化和泛化处理后的数据库,可以验证和集成数据库。

协议对安全性的保证来源于:

  1. 服务器仅仅知道标识符,并不清楚与标识符对应的该条记录的其它属性,所以无法泄露隐私。
  2. 客户端可以验证服务器发来的标识符是否被篡改过。

我的思考

这样的模型中,攻击者也许可以通过其它泛化后的属性,推导出这条记录的标识符,但作者也说了这样的重标识攻击是信息泄露的问题了,不属于本文的研究范围。

在这样的模型中,那个不可信的第三方服务器做的标识符遮蔽有什么意义呢?

你可能感兴趣的:(论文阅读)