自动化数据治理功能

最近在搞数据自动化治理,上次手中设计的数据全自动化ETL功能设计,令人欣慰的2个多月没有人管理,维护。周五时候看竟然完全符合预期。数据服务正常, 数据结果正常。程序执行正常, 日志输出正常。 期间还有大概半个多月的“护网”行动,断网测试等。丢失的数据也全部找回了。部分缺失数据,还给出了“源头数据缺失”等异常提示。 想想也在意料之中,因为本身就是按照这个设计的。 这两个多月中, 主要忙其他事情了, 比如数据自动化治理等。按照上次设计的ETL功能设计, 数据治理理念也是一个套路, 现在主要说说,这边的数据治理..........

  • 数据治理的意义

数据治理的意义不多说了。重点说设计的数据治理的特色。

设计的自动化数据治理特色

  1. 可配置化治理指标(可配置多维度治理指标,治理周期, 治理力度,关键业务阈值)
  2. 可配置化的规则库,包括合规率统计规则,清洗规则。而且还可以手动动态添加规则。
  3. 可视化展现处理逻辑
  4. 可多维度展示治理成果。(数据合规率,数据合规率变化周期表)
  • 架构设计的出发点
  1. 如何做到自动化数据治理
  2. 如何设计的统一治理方式
  3. 后期需求新增/变更如何快速实现功能
  4. 如何标记数据治理点
  5. 如何取明细数据

 

  • 架构导图

自动化数据治理功能_第1张图片

 

细节说明:

说明:该功能核心点在规则库,规则库现实动态可配置化,根据配置完成主要功能。规则库包含4个方面

  1. 业务治理项 比如: 所属省份信息必须明确
  2. 条件项 比如:XXXX表数据量上亿,每次治理限定在1个月左右时间。
  3. 治理方式通过规则库可以获取业务逻辑,算法逻辑等。计算出最终SQL。 并使用SQL完成业务治理。
  4. 明细数据查询方式如3以计算SQL的方式,计算出查询明细的SQL, 就可以拿这些SQL完成明细数据走查。
  5. 可以在线动态改变规则, 比如其他省份的数据接入了, 其中XXXXX数据是手工录入的, 数据非常杂乱,原来的规则不能完成数据治理,或者清洗。那么可以手动录入治理规则。 完成数据治理。

 

树形化数据清洗规则

自动化数据治理功能_第2张图片

性能问题

 

 

 

 

你可能感兴趣的:(数据表模型,技术之外,工作之内,业务模型/数据模型)