数据中台系统的一些思路。
* 引言*
企业借助于大数据/数据湖项目,一般同时需要完善对企业数据的梳理:对企业数据资产数据盘点,完善数据治理相关流程。对内便于数据用户使用数据。对外满足部监管对多种数据口径要求。
基本解决思路**
这类问题的基本解决思路是从元数据管理(包括业务,技术)角度完善数据生命周期管理。这里的元数据包含:

  • 传统意义的数据字典 (表单,字段的含有)
  • 业务元数据梳理,包括业务指标,统计口径等 (通常对应 维度数据,业务描述数据code table, mapping table 的梳理)
  • 数据 data lineage, audit

* 挑战及现有问题
这类工具市场上比较多,传统的数仓产品都有元数据管理工具。但多数存在些问题如:

  • 对数据用户不友好。这里数据用户包括a)数据分析人员 b) 数据维护操作人员
  • 落地困难:不能很好的融合到企业现有的开发流程中
  • 传统企业有大量遗留系统,这些系统本身的元数据(数据描述)由于历史原因不太完善。在遗留系统数据集成到大数据/数据湖的过程中,这些元数据需要在项目过程中完善,但缺乏工具,或现有工具不友好。

** 产品化及切入点选择***
基于以上分析,数据平台(中台)产品中元数据管理部分可以采用以下设计思路:

  • 借助图数据库提升前端数据展示
  • 借助NLP及传统元数据数据管理提升数据关联关系分析
  • 开发定制工具针对遗留系统及项目开发流程元数据进行维护。(进一步解释以下,在多数数仓,大数据项目中,业务数据分析人员均需准备Mapping 文档。目前mapping 文档多以 excel 形式存在,不利于维护,共享,进一步挖掘。可以开发定制在线mapping文档工具作为一个切入点)
  • 参照(逻辑)架构图:

数据中台产品的一些思路_第1张图片

目前市场上已经用一些类似产品,也可以做个参照:

  • http://www.stargraph.cn/ 金融智能 BDP
  • https://memect.cn/ 知识图谱技术
  • http://www.primeton.com/ 元数据平台
  • https://www.topquadrant.com/