云时代数据隐私保护技术

隐私保护主要技术:

1.基于数据失真技术:data distorting

随机化,对原始数据加入随机噪声,然后发布扰动后数据的方法;

1)data masking/obfuscation

2)data anonymization

3)data tokenization

2.基于数据加密技术:data encryption

安全多方计算(secure multiparty computation): 解决一组互不信任的参与方之间保护隐私的协同计算问题,SMC要确保输入的独立性,计算的正确性,同时不泄露各输入值给参与计算的其他成员。

通俗地说,安全多方计算是指在一个分布式网络中,多个用户各自持有一个秘密输入,他们希望共同完成对某个函数的计算,而要求每个用户除计算结果外均不能够得到其他用户的任何输入信息;

3.基于限制发布技术:K匿名/L多样性/T接近模型 data Restricted release

抑制:不发布该数据项;

泛化:对数据进行更概括抽象的描述;如5属于区间[1,10]

1)k匿名( k-anonymization):

数据发布时保护私有信息的一种重要方法。 k-匿名技术要求发布的数据中存在一定数量(至少为k) 的在准标识符上不可区分的记录,使攻击者不能判别出隐私信息所属的具体个体,从而保护了个人隐私, k-匿名通过参数k指定用户可承受的最大信息泄露风险。k-匿名化在一定程度上保护了个人的隐私,但同时会降低数据的可用性。因此, k-匿名化的研究工作主要集中在保护私有信息的同时提高数据的可用性;信息损失是不可避免的,一般处理隐私保护的数据发布问题,都是以隐私保护的需求为第一优先,数据的信息保存或者说可用性是第二位的;

K匿名通过概括和隐匿技术发布精度较低的数据,使得每条记录至少与表中其它K-1条记录具有完全相同的标识符属性值,无法与其它K-1条记录有效区分开来,从而减少攻击导致的隐私泄露,其身份被泄露的概率将不大于1/K;

k-anonymity 的步骤:

去掉 Explicit Identifiers

模糊 Quasi Identifiers,通常的方法是 generalization 和 suppression

k-anonymity 满足每一个等价类中,有至少 k 个 records, 对于在等价类中的属性 attributes 中,不可区分这 k 个 records。

k 匿名有效抵御了身份纰漏,却没有提供足够的技术来抵御属性纰漏。

2)L-多样性(L-diversity):

基于K匿名并做了改善,K匿名未对用户敏感属性做约束因此容易遭受背景知识攻击等攻击:

L多样性对于用户记录的敏感属性至少有L个不同的取值,因此获得用户敏感属性的概率不大于1/L;

An equivalence class is said to have l-diversity if there are at least “well-represented” values for the sensitive attribute. A table is said to have l-diversity if every equivalence class of the table has l-diversity. “well-represented”的意思是:

Distinct l-diversity:ensure there are at least l distinct values for the sensitive attribute in each equivalence class.

3)T-接近(t-closeness):

要求每个等价类的敏感属性值的分布要接近于原始数据表中敏感属性的分布,防止直接的敏感属性的泄露;

The t-closeness Principle: An equivalence class is said to have t-closeness if the distance between the distribution of a sensitive attribute in this class and the distribution of the attribute in the whole table is no more than a threshold t. A table is said to have t-closeness if all equivalence classes have t-closeness.(wiki)

关键术语和名词:

1.等价类(equivalence class):等价类代表 QI (准标识符)属性(attribute)相同的记录(record)。We define an equivalence class of an anonymized table to be a set of records that have the same values for the quasi-identifiers。

2.记录(record):表示关系型数据库(relation data 或者叫做 multidimensonal data)中的行,它对应于每个项目 individual。

3.属性(attribute):每个 record 包含很多对应的 attributes,这些属性可以被分为三类:EI、QI 和 SD。

4.两种泄露:identity disclosure 和 attribute disclosure

identity disclosure(身份泄露):Identity disclosure occurs when an individual is linked to a particular record in the released table,也就是说可以从特定的记录中关联到某个身份了。

attribute disclosure(属性泄露):Attribute disclosure occurs when new information about some individuals is revealed, i.e., the released data makes it possible to infer the characteristics of an individual more accurately than it would be possible before the data release,也就是说信息的纰漏使推断身份特征变得可能。

身份纰漏通常导致属性纰漏,一旦身份被确认了,其相关的属性也就可以确认;而属性的纰漏不一定等导致身份的纰漏。而且需要指出的是,错误属性的纰漏可能会对推断身份变得有利。

你可能感兴趣的:(云时代数据隐私保护技术)