元数据血缘分析在保险业务中的应用

本文详细聊聊元数据应用中的血缘分析/影响分析,也就是数据的“数据族谱”在保险行业中是怎么实现价值的。

数据血缘的部分场景

A、小李是运维部门的DBA, 公司营销部门最近要做一次大型的线上线下营销活动,公司领导非常重视。作为公司IT部门一定要做好支持及保障工作,不能关键时期掉链子。所以公司也对所有系统统一全面做检查评估,确保万无一失。检查过程中发现某核心系统,晚上跑批作业一度占用资源达到80%,如果一旦活动期间系统压力增大,存在较大风险。经排查其中有几个存储过程包执行时间长占用资源多。小李把情况跟领导汇报并提交系统开发部。系统开发部研究半天,发现都是好多年前写的,是之前的一外包团队做的,现在人员都已经联系不上了,整个部门也都询问一片,都说没有用到。里面代码小的几百行, 多的上万行,注释也不全,而且是层层调用,估计等查完,活动都结束了。所以为了保障系统稳定行动,建议先停止晚上跑批。结果第二问题就出来了,这几个存储过程包中有一个存储过程的计算结果被后来开发的应用使用到了,导致影响到业务的正常运行,大量客户接收不到短信,造成生产事故。

B、业务部门的小张发现当月的新单保费与预期的差距甚大,明明通过本次的营销活动,公司营业额增加很多啊,为何某某地区新单保费没有明显增加?小张电话给到报表项目组的开发人员小黄。

小张:你们开的的报表是不是有问题,新单保费不对啊!

小黄:应该不会啊,这个报表都是很早开发的,最近都没有变动过,现在也是天天正常跑批入数。

小张:可是这个月的数据肯定是不对的,差太大了,一定是你们处理逻辑出问题或者是数据哪里少计算了,快帮看查查。

小黄:这个报表数据从多个核心系统、中间也有各个层级计算,有ETL工具、存储过程、SPARK、报表层逻辑,一时半会没有办法查完。

小张挂了电话,只能期待自己的直觉是错了,现在的报表数据是对的或都是差别没有想象中的大。

C、小陈是开发中心的一名数据开发工程师,突然收到了一个表结构变更需求,赶紧通过各个系统负责人、数据中心负责人、报表组负责人......(只要有可能会用到的下游系统及应用,不怕错杀一千就怕放过一个),然后就是各个系统或应用的负责人开始一个个的检查,在规定的时间修改、测试、上线。全流程都靠人工来保障,然后就是等着最源头系统表结构变更后,各个系统应用半夜起来检查,数据过来了,自己负责的没有问题了,如果有问题还要通过调整来了。对于保险行业,如何理顺这些庞大的数据,让他们同血管般流转通畅且井井有条?数据血缘分析或许是一个很好的方法。

血缘分析如何实现?

数据血缘分析是元数据管理的重要应用之一,梳理系统、表、视图、存储过程、ETL、程序代码、字段等之间的关系,并采用图数据库进行可视化展现。总之就是通过可视化展示数据是怎么来的,经过了哪些过程、阶段及计算逻辑。

从技术角度讲, 数据T1 通过ETL 处理生成数据T2, 然后数据T2 与 数据T3 合并生成了 数据T4。那么数据 T1、T2、T3 就构成血缘关系,数据T1是数据T2 的上游数据,同时数据T2是数据T1 的下游数据, T3、T2 都是T4 的上游数据。从血统分析的层级粒度可以分为,实体、业务单元、组织、应用程序、系统、表级、字段级血缘。

了解了什么是数据的血缘,下面我们将更深一步地了解该如何去梳理数据血缘。梳理数据血缘的方法主要可以归为二种:

(1)自动解析:通过解析数据加工流转中的SQL语句、存储过程、ETL过程、报表、程序代码等,举个简单的例子

数据从源头用Kettle 把数据加载到资讯管理库 -->企业内部通过ETL 加载到 数据仓库ODS层 -->最终进入模型层 DW

通过程序自动解释各数据源的表结构信息、kettle、Informatica、存储过程的处理逻辑,并按逻辑层次连接起来。

(2)手工梳理:是指技术人员手工对血缘关系进行梳理,效率比较低而且难度比较高,而且一旦有变化很难得到及时修订。

当然,对于现在成熟的企业来说,系统就动辄几十,上百个,靠纯手工梳理如同愚公移山,不现实。

因此血缘关系的自动解析就显得尤为重要。现在元数据管理的工具很多,但是要做到对数据库、存储过程、ETL工具、代码等自动解析并到字段级的工具很少,览众科技的企业数据智能图谱是实现血缘分析的不二选择。

企业数据智能图谱,提供能对几乎所有的数据库,大数据产品、ETL工具、复杂SQL、存储过程、JAVA代码、Python等很好的解析元数据,并通过图库技术对元数据进行自动关联,形成数据血缘。

  • 元数据接口丰富,超过50+(可接的数据源多,包括本地华为星环大数据接口);
  • 字段级血缘分析;
  • 代码血缘分析;—不仅可以解析数据库中的SQL,而且对从大机上的Cobol,到Java,Python都可以解析, 实现从历史传统编码到最新的机器学习模型的全面元数据分析;
  • 实现包括存储过程、代码和ETL工具等的计算逻辑解析和呈现。

血缘分析的价值

经过前两章节,我们对数据血缘及如何梳理数据血缘都有一定的了解了。那在企业内部,对于企业员工(IT 和业务)又有什么实际的好处呢?

我们回到开篇的场景,有了数据血缘,小李就可以快速地了解到消耗性能大的PKG 使用了哪些系统的数据、中间的处理逻辑、目标表是哪些,这些表又被哪些系统应用使用到了,可以快速的定位到这些PKG 会唱响到什么业务,从而避免出现类似的生产事故。当然小张也可以通过血缘分析快速的查找到新单保费从源头通过了哪些计算逻辑计算出来的,这样快速定位问题,直接告诉报表开发组的小黄,这个数据哪里过滤条件不对,哪里计算逻辑有误,让报表开发组尽快调整过来。

业务部门小张、数据开发工程师小陈也能够快速而又准确的通过血缘分析/影响度分析找到相关的上下游及时通知相关用户。这些场景其实分别对应了数据血缘分析中的异常定位、血缘踪影和影响分析。当然,数据血缘的应用场景远不止如此,在监管报送、质量检验、评估数据价值等方面也都有着广泛的应用。

随着 DT时代的到来,企业、员工、设备源源不断的生产数据和消费数据。面对海量的数据,企业如果管理好、使用好,让它发挥应有的价值。元数据管理便显得尤为重要,而数据血缘分析作为元数据应用之一,也同样需要我们重视并利用起来。因此,对于数据的血缘关系,我们要确保每个环节都能清楚的看到逻辑,明白上下游关系,让数据为我们更好地服务、创造价值。

你可能感兴趣的:(大数据)