数据安全前沿技术研究用户实体行为分析

数据脱敏风险评估

数据脱敏风险评估,是对脱敏的数据的隐私泄露风险进行分析和刻画。其技术主要可分为两类:基 于人工抽查的定性判定方法、和通用的评估技术。其中,基于人工抽查的定性判定方法,指的是按照标 准流程和表格进行专家检查和
判定,然而,这种方法成本十分昂贵。
通用的风险评估技术与数据脱敏方法与模型无关,在学术上通常称为重标识风险(re-identification risk)的度量。加拿大学者 El Emam 建立较为通用的重标识风险评估理论与方法 ,根据攻击者能力,以 及攻击意图将攻击分为三类场景,并将其形象化命名为⸺检察官攻击 (Prosecutor att
ack)、记者攻
击 (Journalist attack)和营销者攻击 (Marketer attack)[21],相关描述由表 4-1 所示。。

表 4-1 重标识攻击场景与举例

攻击场景 描述 潜在攻击者 举例
检察官攻击 攻击者知道某个特定人员在公开的数据集(背景知识), 且了解特定人员的身份属性信息(攻击能力),由于 好奇特定人员的其他敏感属性(攻击意图)发起针对 特定目标的攻击 1、朋友 2、同学 3、邻居等 某个人了解他的同学是某次受访的调 查对象,他在公开网站的去标识化数 据集去查找他的同学属于哪一行记录
记者攻击 攻击者拥有私有的或者可访问公开的身份数据库(攻 击能力),但他并不知道数据库的人员是否在公开的 去标识数据集中,他通过多次炫耀式攻击证明某人可 以被重新标识,使得公开数据库的组织感到难堪或者 名誉扫地(攻击意图) 1、公众人士 2、研究人员 3、竞争对手等 研究人员将去标识化的医疗患者信息 数据集与公开的州选民的登记表
进行 关联,恢复和确认大部分患者信息的 身份 营销者攻击 攻击者拥有私有的或者可访问公开的身份数据库(攻 击能力),他将其与去标识化数据集进行关联,实现 对身份数据库的人进行扩展更多维度的画像(攻击意 图),无需证明重标识结果的正确性,仅需保证较高 概率的关联性
重标识攻击场景下的风险评估,可从攻击的可能性维度进行评估,其定义的指标与计算由表 4-2给出。 其中,检察官攻击、记者攻击均用最大重标识概率、平均重标识概率、高重标识记录占比 3 个指标刻画; 营销者攻击在两种情况分别用两者其一的平均重标识概率刻画。这 8 个指标的数值范围均为 [0,1],1 表 示最高重标识风险,0 表示几乎最低重标识风险。在业务场景中,可根据实际情况,选择合的指标集

进行评估。

表 4-2 重标识攻击场景的可能性度量

攻击场景 评估指标 指标意义 符号含义
检察官攻击

1×∑ f >If j  

1 τ 

R P a

j

n

jJ

1

= =

R

P b

min(f ) j

jJ

J

R

P c n

PRa刻画重标识概率大于τ 的数据集记录占总体的比例; PR 刻画数据集所有记录中最大的重标识概率;

b

R 刻画平均重标识概率

P c

n J

➀ ―数据集记录的数量;

➁ ―数据集的等价组的集合;

J

➂ ―数据集的等价组数量;

f ―数据集等价组为 jJ 的 数量;

j

➄τ ―阈值;

I(⋅)―当输入为真,输出为 1

否则为 0;

N ―身份数据集记录(可访 问或拥有的)的数量;

F ―身份数据集(可访问或 j

拥有的)等价组为 jJ 的数量

记者攻击

R ∑× f l>1

 τ 

1

J a n jJF j

j

1

R =

J b

min(F ) j

jJ

1 f

J

, ∑ j n jJ F

R =

J c max∑F

j

j

jJ

Ra刻画重标识概率大于τ 的数据集记录占总体的比例; R 刻画数据集所有记录中最大的重标识概率;

J J J

b

R 刻画平均重标识概率

c

   

营销者攻击

R =

M 1 N

R =

M 2

R, R2分别刻画在情况 1 和 2 下的平均重标识概率; M 1

M

情况 1:身份数据集和发布数据集的个人信息主体完全相同; 情况 2:发布数据集是身份数据集的个人信息主体的一部分

在工业应用中,EI Emam 等人将研究的理论进行应用与落地,创立一家面向医疗隐私数据的保护 的数据安全公司 Privacy Analytics,主要面向数据脱敏以及风险评估与检测,帮助数据处理企业实现 HIPAA合规,同时将数据共享价值最大化,比如数据处理企业可借助前述产品,将合规的数据出售给保 险、药企和科研结构等第三方。

我国《网络安全法》的第四十二条规定“网络运营者不得泄露、篡改、毁损其收集的个人信息;未 经被收集者同意,不得向他人供个人信息。但是,经过处理无法识别特定个人且不能复原的除外”, 也就是说涉及到个人信息数据共享有两条合法路径:一种是征求用户同意,但对于巨量的用户群体,这 就意味着巨大的成本和结果的不确定性;另一种是技术性方法,满足“特定门槛”(满足无法识别特定 个人且不能复原)的脱敏处理,这意味着数据脱敏(不可逆的脱敏方法)+ 脱敏效果的评估可满足法规 要求。绿盟科技出的数据脱敏与效果评估框架如图 4-1 所示,个人数据经过数据脱敏后,对脱敏结果 和使用技术进行风

险评估,最终得到风险值,根据预置场景:内部使用、与第三方共享、对外交易的、对外公
开发布的阈值进行 图 4-1 绿盟科技数据脱敏 -脱敏效果评估框架 比较,若不满足分析原因,实施二次脱敏,直到脱敏的残余风险在可控范围。如图 4-2 所示,对身份证号和手机号的数据集进行三次“脱敏 -评估”循环,直至风险的可能性和危害性落入可接收范围内。

用户实体行为分析

用户实体行为分析(User and Entity Behavior Analytics, UEBA)技术通过对用户实体持续画像和建模, 可从海量收集的安全数据中及时发现和识别出攻击以及异常的行为 [22]。

UEBA包括一些基本的分析方法(阈值分析、序列分析),同时也包括一些高级分析方法(关联分析, 机器学习):

阈值分析: 主要是基于统计方法做异常检测。对一段时间内的数据进行统计,然后和阈值比较,

如果超出阈值范围,则判定为异常。比如统计正常的历史流入流出流量的统计值作为阈值,进 行异常行为判定。

序列分析: 时间序列分析(Time series analysis)是一种动态数据处理的统计方法。该方法基

于随机过程理论和数理统计学方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题。 比如在数据库服务器下载场景中,通过时间序列分析检测与识别异常下载行为模式。

关联分析: 用于发现隐藏在大型数据集中的有意义的联系。可以基于算法做关联分析,挖出数

据之间的关联规则,另外,还可以借助图数据库等工具,挖掘数据之间的关联。

机器学习: 通过对大量历史数据持续进化不断学习,能够检测和识别异常或恶意行为,特

别是对数据安全未知威胁的检测具有优势。UEBA可应用逻辑回归、SVM、K-Means 聚类、 DBSCAN密度聚类、随机森林等算法。

UEBA应用在数据安全领域,典型应用场景是数据库泄露的异常检测。以敏感数据为中心,通过采 集用户实体对数据操作相关维度信息,通过数据分析与学习过程,建立多维度实体的行为基线,利用机 器学习算法和预定义规则找出严重偏离基线的异常行为,及时发现内部用户、合作伙伴窃取数据等违 规行为。在该场景中,通常采用 5W1H 模型进行 UEBA分析与建模:Who(何人),When(何时), Where(何地),What(何事),Why(原因),How(行为方式)。通过 6 个维度实体行为的分析, 可及时发现数据泄露与异常操作行为。

根据 Gartner 报告,UEBA 在中大型企业应在一些安全场景实现落地与应用,该技术已逐步趋向成熟。 图 4-3 是绿盟科技将 UEBA应用在敏感数据防护场景,通过学习用户的正常行为,及时发现系统内的异 常行为,对偏离正常行为的动作进行及时告警,可以有效分析出安全问题的源头,降低数据泄露与异常 行为的风险。图 4-4 具体给出了绿盟科技 UEBA应用在检测数据外泄的案例:在检测过程中,UEBA首

先检测到账号异常行为,在某一时刻账号在不常用 IP 集中登入,触发了 UEBA账号异常类型告警;接 着 UEBA检测该账号访问了不常访问的路径,触发了账号异常类型告警;最后,UEBA检测到实时传输 的数据量超过历史基线的 5 倍以上,触发了数据传输异常类型告警。至此,基于 UEBA的敏感数据防护 系统的账号失窃导致数据外泄的 playbook 被触发,系统判定为高危事故,主动向绿盟态势感知平台发 出封堵消息,一键封堵子系统作出封堵动作,及时止损,避免了事态的进一步恶化。

图 4-3 绿盟科技基于 UEBA的敏感数据防护系统方案

图 4-4 绿盟科技 UEBA应用案例:发现数据外泄行为

参考资料

绿盟 2020 数据安全前沿技术研究报告

友情链接

GB-T 31495.1-2015 信息安全技术 信息安全保障指标体系及评价方法 第1部分:概念和模型

你可能感兴趣的:(安全,网络)