数据血缘是什么

数据血缘是在数据的加工、流转过程产生的数据与数据之间的关系。

提供一种探查数据关系的手段,用于跟踪数据流经路径。

二、数据血缘的组成

1、数据节点

数据血缘中的节点,可以理解为数据流转中的一个个实体,用于承载数据功能业务。例如数据库、数据表、数据字段都是数据节点;从广义上来说,与数据业务相关的实体都可以作为节点纳入血缘图中,例如指标、报表、业务系统等。

按照血缘关系划分节点,主要有以下三类:流出节点->中间节点->流入节点

流出节点: 数据提供方,血缘关系的源端节点。

中间节点: 血缘关系中类型最多的节点,既承接流入数据,又对外流出数据。

流入节点: 血缘关系的终端节点,一般为应用层,例如可视化报表、仪表板或业务系统。

2、节点属性

当前节点的属性信息,例如表名,字段名,注释,说明等。

3、流转路径

数据流转路径通过表现数据流动方向、数据更新量级、数据更新频率三个维度的信息,标明了数据的流入流出信息:

数据流动方向: 通过箭头的方式表明数据流动方向

数据更新量级: 数据更新的量级越大,血缘线条越粗,说明数据的重要性越高。

数据更新频率: 数据更新的频率越高,血缘线条越短,变化越频繁,重要性越高。

4、流转规则-属性

流转规则体现了数据流转过程中发生的变化,属性则记录了当前路径对数据的操作内容,用户可通过流转路径查看该路径规则与属性,规则可以是直接映射关系,也可以是复杂的规则,例如:

数据映射: 不对数据做任何变动,直接抽取。

数据清洗: 表现数据流转过程中的筛选标准。例如要求数据不能为空值、符合特定格式等。

数据转换: 数据流转过程中,流出实体的数据需要进行特殊处理才能接入到数据需求方。

数据调度: 体现当前数据的调度依赖关系。

数据应用: 为报表与应用提供数据。

你可能感兴趣的:(数据库)