肖杨
OceanBase生态产品研发工程师
OceanBase 生态产品研发工程师,山地骑行爱好者,ODC 团队核心成员,负责数据安全合规和系统集成,对 Java EE、 AI 大模型、MCU 芯片 等技术有着浓厚兴趣。
在数据库协同开发领域,敏感数据管控对于企业和用户都至关重要。近年来,随着数据安全法、个人信息保护法等法律法规的颁布实施,国家和社会对于隐私数据安全的重视程度不断提升;操作审计和隐私数据保护变得愈加重要,已成为数据库协同开发工具选型的关键考量指标。
隐私数据通常包括用户的身份证号、手机号、家庭住址等敏感信息,这是不可或缺的保障业务正常运行的基础数据。为了确保用户数据不会泄漏,必须严格限制对业务库的访问。然而,完全限制访问也可能导致协作效率下降,这是一个令人担忧的问题。因此,在面对企业级的数据库开发场景时,我们需要认真思考:如何以安全合规的方式积极预防内部数据泄漏风险,以确保用户的隐私数据得到最严格的保护?本文将针对隐私数据保护及安全合规,分享 ODC 的设计思考和解决方案。
企业在进行运维、开发和数据分析等工作时,通常需要执行数据库查询操作。这些数据库中可能存在业务需要且无法剥离的敏感数据,而直接查询这些数据可能引发隐私泄露风险。同时,过于严格限制访问又可能导致工作效率低下的问题。在这种情况下,数据脱敏技术可以发挥作用,它可以在 SQL 查询、数据导出等数据出库的场景中对敏感数据进行脱敏处理再进行输出,以既保证数据库可访问性,又不暴露隐私数据。
让我们通过一个直观的例子来说明:假设在数据库中存在一个名为"student"的表,记录了所有学生的基本信息。现在,我们需要统计学生的年龄,但又不希望透露学生的住址、联系方式等敏感信息。在这种情况下,执行 SQL 查询后,"student"表的结果应该如下所示。这种数据脱敏技术不仅确保了高效灵活的工作流程,还在任何时候都能最大程度地保护敏感信息的隐私安全。
ODC 将敏感数据的保护放在首要位置,为企业提供了可信赖的全场景敏感数据保护,确保用户的数据安全合规。访问数据库通常是获取敏感数据的主要途径,甚至在某些情况下可能是唯一途径。如果能够在数据库查询阶段对敏感数据进行脱敏处理,这就成为数据交互的第一道防线,最大程度地保障数据的安全。
同时,通过数据隐私保护能力,安全管理员可以根据需要配置敏感数据规则和脱敏算法,确保敏感数据的绝对安全。即便是数据库管理员(DBA)和开发人员,经过配置后也无法直接接触敏感数据,从而极大地降低了数据泄露的风险。这种严格的数据隐私保护机制,使得企业的敏感信息在任何时候都能得到最大程度的保护。
在 ODC 的数据库协作开发流程中,用户无法直接访问数据库做数据查询。要想查看数据,只能通过以下方式:
1. 在数据库对象管理页查看表数据;
2. 提交导出工单,将数据导出到文件后进行查看;
3. 提交数据库变更工单,在变更任务中执行 SELECT 语句,然后查看执行结果集;
4. 在 SQL 窗口执行 SELECT 语句,查看结果集。
对于方式 1 和 2,实现数据脱敏相对容易。因为我们已经清楚地知道用户正在访问哪些库表列,只需要将敏感列进行脱敏处理即可。但是在方式 3 和 4 中,用户可以输入各种复杂的 SQL 查询,很难准确识别用户到底在查哪些数据,这是为什么动态脱敏比静态脱敏更具挑战的原因。
值得一提的是,ODC 的数据脱敏覆盖了所有数据出库场景,并且支持 OceanBase 数据库所有类型的 SQL 语法。无论 MySQL 兼容模式 和 Oracle 兼容模式,ODC 都可以提供数据脱敏解决方案。
以下我们通过一个实际的业务场景,体验如何使用 ODC 实现全场景敏感数据防护。
(一)关键术语
首先了解一些与 ODC 相关的关键术语,为了方便理解,本文先约定以下术语:
敏感列:数据库表中,存储敏感数据的列;
脱敏算法:用于对敏感数据进行脱敏处理的算法;
识别规则:用于标记数据库的某一列为敏感列的匹配条件,ODC 可以将符合规则的列自动识别敏感列。
(二)准备验证数据
在开始验证之前,我们首先使用 ODC 创建了两张数据表:数据表 1(employee_info)和数据表 2(employee_salary):
CREATE TABLE test.employee_info (
id int NOT NULL COMMENT '员工 ID',
name varchar(32) NULL COMMENT '员工姓名',
email varchar(64) NULL COMMENT '员工邮箱',
address varchar(128) NULL COMMENT '员工住址',
CONSTRAINT pk_id PRIMARY KEY (id)
) DEFAULT CHARSET = utf8mb4 COLLATE = utf8mb4_general_ci;
CREATE TABLE test.employee_salary (
id int NOT NULL COMMENT '员工 ID',
salary float(10) NULL COMMENT '员工工资',
CONSTRAINT pk_id PRIMARY KEY (id)
) DEFAULT CHARSET = utf8mb4 COLLATE = utf8mb4_general_ci;
接下来,我们插入了模拟数据,以下是原始表数据的示例(请注意,以下数据仅为模拟,不包含真实用户信息):
最后,我们将需要进行脱敏处理的列添加到敏感列列表中。鉴于展示的数据列较少,我们采用手动添加的方式进行配置:
(三)场景验证
接下来,让我们探讨在各种数据出库场景下,ODC 如何更好地帮助用户进行数据脱敏处理。
场景一:白屏查看表数据,敏感字段脱敏后再展示
首先,在数据库对象树查看表 employee_info 的数据时,可以注意到表中的敏感列数据已经经过脱敏处理:
场景二:将数据导出到文件,敏感数据被脱敏处理
接下来,我们尝试将包含敏感列的表导出为 CSV 文件:
查看导出的 CSV 文件内容,可以发现发现敏感列同样已被脱敏处理:
场景三:执行 SELECT 查询,任何 SQL 语法都无法绕过数据脱敏
正如前面提到的,动态数据脱敏的核心挑战在于在各种复杂 SQL 语法下准确识别敏感列。下面我们逐步探讨 ODC 动态数据脱敏对 SQL 语法的支持水平。
首先是一个简单的单表查询:
正如大家看到的,作为敏感数据的 email 列和 address 列被成功脱敏。接下来,我们测试了一些内置函数、CASE WHEN 以及 JOIN 和 UNION 查询:
这些查询对于 ODC 动态数据脱敏来说也是“小意思”。结果集的三列均已成功脱敏,让我们逐一分析原因:首先,id 列并非敏感数据,但因与其进行 UNION 运算的 address 列是敏感数据,导致结果集的 case_id 列需要脱敏;同样地,name 列并非敏感列,因为使用了 CONCAT() 函数将其与 salary 列进行了拼接,导致 concat(t1.name, '-', salary) 列也需要脱敏;最后,email 列和 name 列合并的结果自然也是需要脱敏的。
我们进一步测试了多层嵌套子查询:
这看起来可能相当具有挑战性,但是我们还是成功应对了这一挑战
。可以看到,对于 FROM 子句和 SELECT 子句中出现的子查询,无论是关联子查询还是非关联子查询,ODC 都能够正确应对。
虽然我们已经能够处理绝大多数 SQL 查询,但 ODC 并不满足于此。ODC 还支持对递归和非递归 CTE 的语法支持,并且能处理递归 CTE 中出现的敏感列传递:
上面的例子中,你可能会好奇为什么 cte_id 列也被脱敏了?这是因为 Recursive CTE 的敏感数据“传染”问题:在第一次递归中,CONCAT(cte_email, cte_name) 运算导致 cte_name 列包含了敏感数据,即 cte_name 列变成了敏感列;而在第二次递归中, CONCAT(cte_name, cte_id) 运算使 cte_id 列也被“感染”上敏感数据。因此,最终的结果是,ODC 对结果集的三列均作了脱敏处理。
其它场景
数据库变更与 SQL 窗口查询在本质上没有太大区别,都是执行 SQL 语句并输出结果。因此,在 SQL 窗口中支持的动态数据脱敏能力同样适用于数据库变更工单。
对于存储过程、程序包、触发器和自定义函数,我们目前尚未找到合适的方案来动态拦截它们对敏感数据的访问。但这并不会影响敏感数据管控的有效性。因为上述 4 种数据库对象访问敏感数据的前提是首先创建它们,而 ODC 最新版本(4.2.0)已经将这些数据库对象的 CREATE 权限和 PL 的调试与执行权限都纳入了管控(如下图所示 SQL 窗口规范),没有相应权限的用户将无法执行这些“危险”操作。因此,ODC 的敏感数据管控能力在各方面都形成了完备的闭环。
接下来我们将聚焦功能特性,从产品设计层面介绍 ODC 数据脱敏的实现原理。如果你对技术细节感兴趣,欢迎访问 ODC 的开源社区(https://github.com/oceanbase/odc),携手共建 ODC 开源宇宙 ~
要实现数据脱敏,关键要解决两个问题:
如何知道数据库中的哪些列是敏感数据?
对敏感数据采用什么方式进行脱敏处理?
为了解决第一个问题,我们引入了敏感列的概念:将数据库中存储敏感数据的物理列标记为敏感列,在数据出库时,所有涉及敏感列的数据都会被视为敏感数据。至于第二个问题,我们提供了 21 种不同的数据脱敏算法,包括全脱敏和半脱敏方式,覆盖了中/英文姓名、手机号、邮箱、证件号码、地址、车牌号、IP 等常见敏感数据类型。
(一)领域模型
ODC 是多组织架构的,并且在 V4.2.0 开始引入了基于项目的管控模式:不同组织间的资源和数据完全隔离,同一组织内的多个项目可以共享同一个数据源。因此,为实现数据脱敏,我们做了下图所示的产品设计:
(二)脱敏算法
同一组织共用同一套脱敏算法,允许项目内所有成员查看脱敏算法、测试脱敏效果。蚂蚁集团在隐私计算和敏感数据保护方面一直处于国内第一梯队。因此,我们参考了蚂蚁集团的脱敏规范,提供了以下 21 种脱敏算法,能覆盖绝大部分应用场景。
(三)敏感数据管理
事实上,数据的敏感与否是与具体存储的内容相关的,往往只有项目内成员才知悉到底哪些列是需要脱敏的。因此,我们把敏感数据(即敏感列)放在项目级别,由项目管理员或 DBA 负责管理。为了保证脱敏结果符合预期,避免误判,用户可以主动将需要脱敏的数据列添加为敏感列。通过手动添加敏感列,依次选择敏感列所属的数据源、数据库、表和列然后添加即可。如果数据源中需要脱敏处理的列有很多,我们推荐使用自动扫描的方式。只需要根据敏感列所处的位置和基本属性,创建合适的识别规则,然后发起一个自动扫描任务即可。
为了最大程度满足用户的需求,ODC 支持三种方式配置敏感列的识别规则,分别是:
路径:就是根据敏感列所处的库、表、列来匹配。这种方式最为简单粗暴,能满足用户的大部分需求。
正则:基于正则表达式,根据库名、表名、列名和列备注来匹配。这种方式适用于敏感列分布在多个数据库,且需要批量添加的场景。
脚本:基于 Groovy 脚本匹配。这种方式非常灵活,可以实现大范围筛选,也可以实现特别细粒度的定制化匹配规则,非常推荐用户使用这种方法。只需花五分钟的时间熟悉 Groovy 语法,就可以愉快地 coding 识别规则。
举个例子,你希望将某个数据源下所有名为 email 的列设为敏感列,那只需要编写以下脚本识别规则:
然后使用它来扫描即可(只需要三步):
在过去的两个半月里,ODC 团队不遗余力地呈现了数据脱敏功能,希望能够解决用户对数据安全的担忧。ODC 希望每一位用户可以更加安全、高效,同时愉快进行数据库协同开发。虽然 ODC 4.2.0 版本已经解决了从零到一的动态数据脱敏问题,但仍然需要管理员花费较多的精力来主动监控库中的敏感数据。实际上,ODC 目前只是一个执行者,需要用户判断哪些数据是敏感的。
未来,我们的目标是实现角色反转,让 ODC 能够主动帮助用户识别和提示可能包含敏感数据的情况,并建议使用何种脱敏算法来更好地保护这些数据。更智能、更无感的数据脱敏能力是我们下一步发展的方向。
注:本文中出现的测试数据均为虚构,如有雷同,纯属巧合。