我们为什么需要数据血缘

1、日益庞大的数据开发导致表间关系混乱,管理成本与使用成本激增

数据血缘产生最本质的需求。大数据开发作为数据汇集与数据服务提供方,庞大的数据与混乱的数据依赖导致管理成本与使用成本飙升。

2、数据价值评估,数据质量难以推进

表的优先级划分,计算资源的倾斜,表级数据质量监控,如何制定一个明确且科学的标准。

3、什么表该删,什么表不能删,下架无依据

业务库,数仓库,中间库,开发库,测试库等众多库表,是否存在数据冗余(一定存在)。以及存储资源如何释放?

4、动了一张表,错了一堆表

你改了一张表的字段,第二天醒来发现邮件里一堆任务异常告警。

5ETL任务异常时的归因分析、影响分析、恢复

承接上个问题,如果存在任务异常或者ETL故障,我们如何定位异常原因,并且进行影响分析,以及下游受影响节点的快速恢复。

6、调度依赖混乱

数据依赖混乱必然会带来调度任务的依赖混乱,如何构建一个健壮的调度依赖。

7、数据安全审计难以开展

针对银行、保险、政府等对安全关注度较高的行业,数据安全-数据泄露-数据合规性需要重点关注。

由于数据存在ETL链路操作,下游表的数据来源于上游表,所以需要基于数据全链路来进行安全审计,否则可能会出现下游数据安全等级较低,导致上游部分核心数据泄露。

你可能感兴趣的:(大数据)