数据脱敏管理

数据脱敏管理

  • 1.概述
    • 1.1 什么是数据脱敏
    • 1.2 为什么要做数据脱敏
  • 2.脱敏管理
  • 3.脱敏方法
    • 3.1 脱敏场景
    • 3.2 制定策略
      • 3.2.1 可逆类加密策略
      • 3.2.2 不可逆类脱敏策略
    • 3.3 策略执行
    • 3.4 敏感数据访问监测及预警
    • 3.5 数据水印
    • 3.7 脱敏审计
    • 3.8 安全多方计算(联邦计算系统,联合建模)

1.概述

1.1 什么是数据脱敏

不看百度词条,从数据脱敏本质上来讲,我最更认同的说法是:

数据脱敏是通过制定、执行脱敏规则,实现使数据本身的安全等级降级的一种技术手段。

数据分类分级的文章我之前有写,不懂的小伙伴可以翻到之前的看一下。而我之所以认同这个说法,是因为在我看来数据脱敏并不是很虚的概念,他是有明确的作用:将隐私的数据降级为普通或可公开的数据。

至少到目前为止,除了更改规范这种无奈的妥协外,数据脱敏是唯一的一个可以使数据本身的安全等级降级的方法。

数据的安全等级降低了,那么数据自然就可以在很多环境中使用了。

1.2 为什么要做数据脱敏

(1)遵守国家法律法规,遵守监管部门规范。(详见之前的文章)
(2)保护企业/个人数据资产的安全,降低风险发生后的损失。

数据脱敏依赖于数据资产管理体系、数据分类分级管理、技术手段,不是一项独立的工作。

2.脱敏管理

数据脱敏管理是为了保障数据脱敏的结果满足要求,通俗来讲数据脱敏管理的目的就是:

(1)明确数据脱敏的责任人;

(2)明确数据脱敏工作的流程;

(3)确保应该脱敏的数据均脱敏;

(4)确保使用合适的脱敏方法;

(5)管理脱敏策略;

数据脱敏管理的原则:数据脱敏工作不仅要确保敏感数据安全等级降级,还需要尽可能的平衡脱敏所花费的代价、使用方的业务需求等多方面因素。

技术原则:有效性,真实性,高效性,稳定性,可配置性

管理原则:敏感信息识别,安全可控,安全审计,代码安全

3.脱敏方法

首先需要明确,所有的脱敏工作都要细化到具体字段。

3.1 脱敏场景

脱敏的场景是需要最先确定的,结合实际情况和需求,同样的数据在不同场景下执行的可能是不同的脱敏策略。

例如我们都有的身份证号码,是可以确认唯一公民个人身份为18位编码,一般来说是等级最高的隐私数据。一个场景是在需要使用身份证号进行关联加工的内部环境,可能只需要将身份证号降低为普通的安全等级,这种情况下可能使用的策略是可逆的加密策略;另一个场景是在需要公开信息的环境,那么就需要将身份证号降低为可公开的安全等级,如使用不可逆的掩码策略。

脱敏场景的目的是要明确当前场景中可使用数据安全等级中哪个等级的数据,将高等级的数据通过执行脱敏策略降低到对应等级。

3.2 制定策略

一般来说,加密策略和脱敏策略都在数据脱敏管理的范畴内,加密是可逆的,可以通过解密的规则将数据恢复原样,而脱敏则是不可逆的。

3.2.1 可逆类加密策略

(1)重排

重排加密类似于替换,通过一定规则改变数据顺序,从而达到加密的目的。

例如“123”执行重排策略(最后一位移至第一位)后变为“312”。

(2)替换

替换加密的起源可以追溯到凯撒时代,凯撒密码就是一种简单的置换密码,在加密时,字母表中的每个字母都用其后的第三个字母表示,例如,a用d表示,b用e表示。在解密时,只需要执行逆过程即可。

替换的加密策略包括:凯撒加密法、单码加密法、同音替换加密法、块替换加密法、多码替换加密法、Playfair加密法等。

(3)FPE

FPE是格式保留加密,也可以认为是可逆的掩码,其保留了数据原来的格式和长度,且是加密结果是确定的,可以用于主键、数据的加密。

(4)轮询

将有限的数据排成一个循环队列,将原始数据的指针向前或者向后移动N位得到的新数据。

3.2.2 不可逆类脱敏策略

(1)日期偏移取整

将日期按照固定规则取整,例如20210812 10:56:14按照一小时的粒度向下取整为20210812 10:00:00。

(2)数据截断

舍弃必要的信息,仅保留部分关键信息。如11位手机号仅保留前7位。

(3)标签化

标签化是指将数据抽象为具体标签,用标签来表现具体实体的一种形式。例如客户存款可以由具体金额,更换为低、中、高三个级别。

标签化可以作为数据脱敏的一种方法策略,但其最重要的应用并不是脱敏。

(4)掩码

掩码也是较为简单易懂的脱敏方式,就是将数据中的某些敏感信息进行替换,例如将手机号中间4为置为*号,掩码可以保障数据的长度不变。

(5)重写

根据原来数据的特征,随机重新生成数据。例如原来是手机号码,那么可以重新生成一个11位的纯数字。与替换策略不同的是重写为随机生成,无对应关系。

(6)均化

均化是为了保障数据的平均值和总数不变,将数字在整体的平均值之间随机分布的策略。

(7)散列(Hash)

Hash,音译“哈希”,一般翻译做“散列”,就是把任意长度的数据作为输入,然后通过Hash散列算法得到一个固定长度的输出值,该输出值就是散列值,它是一种数据压缩映射关系。 简单来说就是将做任意长度的消息压缩到某一固定长度的消息摘要的函数。

常用的哈希算法有:MD5、SHA256等。

(8)限制返回

用于数据查询时,只反馈部分数据,且需要在返回所有数据的前提的下数据才有意义。本质上是专门为了查询的数据截断策略。

(9)空值插入/删除(无效化)

特殊的掩码,将数据替换为空值,使得数据无效。

3.3 策略执行

策略的执行主要依赖于调度系统。依据场景、效益来确认使用统一调度执行策略或自建安全策略调度系统。

脱敏策略的制定及执行是事前管控。

3.4 敏感数据访问监测及预警

当有查询、修改、删除敏感数据的命令被执行时,实时监测并发出预警,通过审批后方可执行。

访问的监测和预警是事中监测和预警。

3.5 数据水印

添加过可以溯源的文档和图片水印,文档暗水印,针对数据泄漏行为起到威慑作用。同时可以快速定位责任人,了解泄密途径和数据传播范围,采取有力措施进行补救,删除已传播到外网的数据,更大程度减少泄密事件的影响。

数据水印是事后溯源和补救。

3.7 脱敏审计

记录所有敏感数据的操作、访问记录,进行全链路的审计追查,保证可追溯,可审查。

通过分析全链路的信息,提出新的脱敏需求(场景),不断优化流程及脱敏策略。

脱敏审计是事后审计及反思。

3.8 安全多方计算(联邦计算系统,联合建模)

后期将会开通专题分享。

你可能感兴趣的:(数据安全,数据安全,加密解密)