文章内容参考:
数仓建设实践路线-第十一讲-数据安全_哔哩哔哩_bilibili经过一段时间打磨开启全新篇章《数仓建设实践路线》,从0-1搭建数据体系,让大家更有体感,并将《数仓建设学习路线》课程内容落地。也欢迎大家可以私聊我加入我们社区,同时也有对应课件提供。, 视频播放量 1401、弹幕量 0、点赞数 24、投硬币枚数 14、收藏人数 26、转发人数 10, 视频作者 语兴呀, 作者简介 前阿里数据中台(数据技术及产品部)下数据研发,现网易数据KOL,与大家一起了解数仓体系建设。微信_yuxing,相关视频:数仓建设实践路线-第二讲-数仓标准,数仓建设实践路线-第一讲-认识业务&规划架构,数仓建设实践路线-第十二讲-数据治理,语兴小灶-第二期-数仓开发流程场景题讲解,数仓建设实践路线-第十五讲-人力资源业务数仓绩效域主题建设,数仓建设学习路线-第四讲-数据质量,数仓建设实践路线-第九讲-数据质量监测跟踪体系建设,数仓建设实践路线-第七讲-ADS晋升过程专题分析(独立且较大的项目),数仓建设学习路线-第八讲-数据资产1,语兴小灶-第一期-小文件治理https://www.bilibili.com/video/BV18u4y1i79z/?spm_id_from=333.788&vd_source=5e40a3f39e803d6d56c36260be023c67
目录
一、数据安全背景
二、数据安全实施难点
2.1 下游模型过多
2.2 迁移周期
2.3 业务限制
三、数据安全实施阶段
3.1 业务发展初期
3.1.1 角色管理
3.1.2 数据使用权限申请
3.1.3 机密数据单独管控
3.2 业务成熟期
3.2.1 数据表分级
3.2.2 敏感数据识别
3.2.3 数据脱敏
3.2.4 数据传输
3.2.5 数据产生
3.2.6 数据展示
3.2.7 数据下载
3.2.8 数据销毁
3.2.9 安全审计日志
数据泄漏引发的用户信任危机事件很多,跨部门引用核心表引发问题也是常态。
迁移或者修改的模型存在大量依赖关系,需投入较多时间,存在修改错误导致线上问题发生的情况。
由于下游依赖了待修改的模型,无法一次性地完成模型全部迁移工作,需要按期按阶段迁移。
各部门/业务对数据安全权限把控度不同。
以下是基于数据平台实施的数据安全保障措施。
概述:对不同使用/开发角色提供不同使用权限。
对数分同学开放DWS汇总数据和ADS应用层数据(可读),其他层级不对外透出。
对于离线/实时数仓同学开放对应数据域下的数据权限,对于基线配置、数据表删除、数据下载等内容需要走审批流程。
其他角色通过数据平台进行权限管控。
通过审批流程能追溯审批情况,但审批流程不可过长,一般是数据表负责人->数据域负责人->数据组负责人,审批流程如下图:
对于机密数据可以采取分库分表方式存储,限制开发人员及业务访问,保障机密数据不被泄漏;
对每个表及字段进行打标,保障每张表都有数据安全管控。数据表/字段分级一般有S1-S4级
S1:等级低,公开数据(例如地区维度表、日期维度表等),可对外透露;
S2:等级中,内部公开数据,可对外透露,需要走表/字段权限申请流程;
S3:等级高,敏感数据,可以对外部分开放,例如部分字段申请、视图开放;
S4:等级极高,机密数据,通过加密方式提供其他bu(bu代表的是产品线或业务线);
制定敏感数据规则,识别数据表中未脱敏的数据。
数据脱敏一般用于ods源数据接入,ads对外透出时进行的数据限制。遮盖脱敏是常见的脱敏方式,可以通过 * 等字符遮盖内容。
1.数据加密
概念:加密数据,或密文,会呈现为乱码和不可读;
要将密文重新查看为明文,必须使用正确的加密密钥对数据进行解密;
加密技术:
对称加密:使用相同的密钥来加密和解密数据
非对称加密:使用两个相互依赖的密钥:一个公钥和一个私钥;RSA是最流行的非对称加密算法
2.数据脱敏
概念:数据脱敏是将敏感数据转化为虚假或掩码数据的过程,这些数据看起来与真实数据相似;
脱敏技术:
随机打乱:随机排序字母数字字符以混淆原始内容;
替换:将原始数据替换为另一个值,同时保留原始数据的特征;
重新排列:重新排列列内的值,例如用户姓氏;
日期变化:将日期字段按照特定日期范围增加或减少;
遮蔽:仅对值的一部分进行混淆;通常应用于信用卡号码,用户手机号,身份证等数据脱敏;
置空:将真实值替换为null值;
数据传输申请与查询需要有专门的API接口,并且配置高安全等级的加密措施。
通过数据分级体系对敏感表打标签,例如:高风险预警标签。
同一个图表,基于报表/看板的权限等级,限制不同用户查询不同的数据。
数据下载的审批流程可以设计多层级,例如:仅一级审批、需两级审批。此外,对下载行数也进行限制,例如1000行。
有些敏感数据只做逻辑删除是不够的,需要配合物理删除进行销毁。
对高风险操作日志进行监控和审计。
如果缺乏数据平台,数据安全保障措施可以从以下几方面开展: