数据脱敏风险评估,是对脱敏的数据的隐私泄露风险进行分析和刻画。其技术主要可分为两类:基 于人工抽查的定性判定方法、和通用的评估技术。其中,基于人工抽查的定性判定方法,指的是按照标 准流程和表格进行专家检查和
判定,然而,这种方法成本十分昂贵。
通用的风险评估技术与数据脱敏方法与模型无关,在学术上通常称为重标识风险(re-identification risk)的度量。加拿大学者 El Emam 建立较为通用的重标识风险评估理论与方法 ,根据攻击者能力,以 及攻击意图将攻击分为三类场景,并将其形象化命名为⸺检察官攻击 (Prosecutor att
ack)、记者攻
击 (Journalist attack)和营销者攻击 (Marketer attack)[21],相关描述由表 4-1 所示。。
表 4-1 重标识攻击场景与举例
攻击场景 | 描述 | 潜在攻击者 | 举例 |
---|---|---|---|
检察官攻击 | 攻击者知道某个特定人员在公开的数据集(背景知识), 且了解特定人员的身份属性信息(攻击能力),由于 好奇特定人员的其他敏感属性(攻击意图)发起针对 特定目标的攻击 | 1、朋友 2、同学 3、邻居等 | 某个人了解他的同学是某次受访的调 查对象,他在公开网站的去标识化数 据集去查找他的同学属于哪一行记录 |
记者攻击 | 攻击者拥有私有的或者可访问公开的身份数据库(攻 击能力),但他并不知道数据库的人员是否在公开的 去标识数据集中,他通过多次炫耀式攻击证明某人可 以被重新标识,使得公开数据库的组织感到难堪或者 名誉扫地(攻击意图) | 1、公众人士 2、研究人员 3、竞争对手等 | 研究人员将去标识化的医疗患者信息 数据集与公开的州选民的登记表 |
进行 关联,恢复和确认大部分患者信息的 身份 | 营销者攻击 | 攻击者拥有私有的或者可访问公开的身份数据库(攻 击能力),他将其与去标识化数据集进行关联,实现 对身份数据库的人进行扩展更多维度的画像(攻击意 图),无需证明重标识结果的正确性,仅需保证较高 概率的关联性 | |
重标识攻击场景下的风险评估,可从攻击的可能性维度进行评估,其定义的指标与计算由表 4-2给出。 其中,检察官攻击、记者攻击均用最大重标识概率、平均重标识概率、高重标识记录占比 3 个指标刻画; 营销者攻击在两种情况分别用两者其一的平均重标识概率刻画。这 8 个指标的数值范围均为 [0,1],1 表 示最高重标识风险,0 表示几乎最低重标识风险。在业务场景中,可根据实际情况,选择合的指标集 |
进行评估。
表 4-2 重标识攻击场景的可能性度量
攻击场景 | 评估指标 | 指标意义 | 符号含义 |
---|---|---|---|
检察官攻击 | 1×∑ f >If j 1 τ R P a j n j∈J 1 = = R P b min(f ) j j∈J J R P c n |
PRa刻画重标识概率大于τ 的数据集记录占总体的比例; PR 刻画数据集所有记录中最大的重标识概率; b R 刻画平均重标识概率 P c |
n J ➀ ―数据集记录的数量; ➁ ―数据集的等价组的集合; J ➂ ―数据集的等价组数量; ➃ f ―数据集等价组为 j∈J 的 数量; j ➄τ ―阈值; ➅ I(⋅)―当输入为真,输出为 1 否则为 0; ➆ N ―身份数据集记录(可访 问或拥有的)的数量; ➇ F ―身份数据集(可访问或 j 拥有的)等价组为 j∈J 的数量 |
记者攻击 | R ∑× f l>1 τ 1 J a n j∈J F j j 1 R = J b min(F ) j j∈J 1 f J , ∑ j n j∈J F R = J c max∑F j j j∈J |
Ra刻画重标识概率大于τ 的数据集记录占总体的比例; R 刻画数据集所有记录中最大的重标识概率; J J J b R 刻画平均重标识概率 c |
|
营销者攻击 | R = M 1 N R = M 2 |
R, R2分别刻画在情况 1 和 2 下的平均重标识概率; M 1 M 情况 1:身份数据集和发布数据集的个人信息主体完全相同; 情况 2:发布数据集是身份数据集的个人信息主体的一部分 |
在工业应用中,EI Emam 等人将研究的理论进行应用与落地,创立一家面向医疗隐私数据的保护 的数据安全公司 Privacy Analytics,主要面向数据脱敏以及风险评估与检测,帮助数据处理企业实现 HIPAA合规,同时将数据共享价值最大化,比如数据处理企业可借助前述产品,将合规的数据出售给保 险、药企和科研结构等第三方。
我国《网络安全法》的第四十二条规定“网络运营者不得泄露、篡改、毁损其收集的个人信息;未 经被收集者同意,不得向他人供个人信息。但是,经过处理无法识别特定个人且不能复原的除外”, 也就是说涉及到个人信息数据共享有两条合法路径:一种是征求用户同意,但对于巨量的用户群体,这 就意味着巨大的成本和结果的不确定性;另一种是技术性方法,满足“特定门槛”(满足无法识别特定 个人且不能复原)的脱敏处理,这意味着数据脱敏(不可逆的脱敏方法)+ 脱敏效果的评估可满足法规 要求。绿盟科技出的数据脱敏与效果评估框架如图 4-1 所示,个人数据经过数据脱敏后,对脱敏结果 和使用技术进行风
险评估,最终得到风险值,根据预置场景:内部使用、与第三方共享、对外交易的、对外公
开发布的阈值进行 图 4-1 绿盟科技数据脱敏 -脱敏效果评估框架 比较,若不满足分析原因,实施二次脱敏,直到脱敏的残余风险在可控范围。如图 4-2 所示,对身份证号和手机号的数据集进行三次“脱敏 -评估”循环,直至风险的可能性和危害性落入可接收范围内。
用户实体行为分析(User and Entity Behavior Analytics, UEBA)技术通过对用户实体持续画像和建模, 可从海量收集的安全数据中及时发现和识别出攻击以及异常的行为 [22]。
UEBA包括一些基本的分析方法(阈值分析、序列分析),同时也包括一些高级分析方法(关联分析, 机器学习):
阈值分析: 主要是基于统计方法做异常检测。对一段时间内的数据进行统计,然后和阈值比较,
如果超出阈值范围,则判定为异常。比如统计正常的历史流入流出流量的统计值作为阈值,进 行异常行为判定。
序列分析: 时间序列分析(Time series analysis)是一种动态数据处理的统计方法。该方法基
于随机过程理论和数理统计学方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题。 比如在数据库服务器下载场景中,通过时间序列分析检测与识别异常下载行为模式。
关联分析: 用于发现隐藏在大型数据集中的有意义的联系。可以基于算法做关联分析,挖出数
据之间的关联规则,另外,还可以借助图数据库等工具,挖掘数据之间的关联。
机器学习: 通过对大量历史数据持续进化不断学习,能够检测和识别异常或恶意行为,特
别是对数据安全未知威胁的检测具有优势。UEBA可应用逻辑回归、SVM、K-Means 聚类、 DBSCAN密度聚类、随机森林等算法。
UEBA应用在数据安全领域,典型应用场景是数据库泄露的异常检测。以敏感数据为中心,通过采 集用户实体对数据操作相关维度信息,通过数据分析与学习过程,建立多维度实体的行为基线,利用机 器学习算法和预定义规则找出严重偏离基线的异常行为,及时发现内部用户、合作伙伴窃取数据等违 规行为。在该场景中,通常采用 5W1H 模型进行 UEBA分析与建模:Who(何人),When(何时), Where(何地),What(何事),Why(原因),How(行为方式)。通过 6 个维度实体行为的分析, 可及时发现数据泄露与异常操作行为。
根据 Gartner 报告,UEBA 在中大型企业应在一些安全场景实现落地与应用,该技术已逐步趋向成熟。 图 4-3 是绿盟科技将 UEBA应用在敏感数据防护场景,通过学习用户的正常行为,及时发现系统内的异 常行为,对偏离正常行为的动作进行及时告警,可以有效分析出安全问题的源头,降低数据泄露与异常 行为的风险。图 4-4 具体给出了绿盟科技 UEBA应用在检测数据外泄的案例:在检测过程中,UEBA首
先检测到账号异常行为,在某一时刻账号在不常用 IP 集中登入,触发了 UEBA账号异常类型告警;接 着 UEBA检测该账号访问了不常访问的路径,触发了账号异常类型告警;最后,UEBA检测到实时传输 的数据量超过历史基线的 5 倍以上,触发了数据传输异常类型告警。至此,基于 UEBA的敏感数据防护 系统的账号失窃导致数据外泄的 playbook 被触发,系统判定为高危事故,主动向绿盟态势感知平台发 出封堵消息,一键封堵子系统作出封堵动作,及时止损,避免了事态的进一步恶化。
图 4-3 绿盟科技基于 UEBA的敏感数据防护系统方案
图 4-4 绿盟科技 UEBA应用案例:发现数据外泄行为
绿盟 2020 数据安全前沿技术研究报告
GB-T 31495.1-2015 信息安全技术 信息安全保障指标体系及评价方法 第1部分:概念和模型