数据架构的本质是数据模型和数据流(或叫数据分布),《华为数据之道》将数据架构分为数据资产目录、数据标准、数据模型及数据分布,DAMA将数据架构分为数据模型和数据流设计,差不多就是这个意思。
但数据架构到底如何构建?有没有现成的案例可以参考呢?
今天就结合企业管理信息域MSS具体案例跟大家讲一讲数据架构建的建设方法论,主要分为五个步骤:架构现状分析、数据实体梳理、数据主题域划分、数据概念模型及数据分布规划。
1、架构现状分析
每个企业面临的数据架构问题都是不一样的,这里给出某企业管理信息域(MSS)面临的信息架构挑战:
1、MSS域数据缺乏统一的数据分布规划,数据认责不明确,各个部门只负责自己业务范围内的数据管理,对于跨部门,跨系统的数据管理职责没有明确定义。
2、MSS域数据分散在众多小系统中,每个系统都在局部进行数据定义,数据分类,数据主题域划分,数据模型维护,缺乏统一的、全局视角的数据视图,导致多个系统间数据不一致,难以支撑跨系统、跨部门的数据分析。
2、数据实体梳理
根据应用功能架构,列出核心数据实体,描述核心实体的主要信息内容,根据应用框架,考察数据实体完整性,寻找差异点,弥补空白点。
第一步:依据应用蓝图,从功能模块中提炼核心数据实体,同时可参考业界最佳实践,对缺失数据实体做有效补充,如下图所示,如果企业应用蓝图不全面,那这一步的梳理工作就比较艰难。
第二步:依据应用蓝图所划分的领域,对核心数据实体做初步归并,识别MSS域核心实体类别,如下图所示:
3、数据主题域划分
参考行业最佳实践,结合企业实际情况,划分MSS域数据主题域,如下图所示:
下图是针对采购与供应商主题域的详细说明:
4、数据概念模型
数据概念模型描述了数据实体及其关系,通过数据概念模型能够体现企业运营和管理过程中涉及的所有业务概念和逻辑规则,下图是概念模型的示例:
下图是采购与供应商主题域概念模型:
5、数据分布规划
描述企业数据模型在企业IT系统如何分布,通过了解数据分布可以清楚定义企业数据在IT系统中是如何产生和使用。
第一步:明确数据主题域所归属的系统
第二步:明确CRUD(CRUD 是建立 (Create)、读取 (Read)、更新 (Update)及删除(Delete)这四项操作的缩写),即系统中的核心数据由哪些系统产生,哪些系统有权利去读取这些数据,这些数据的更新权和删除权又属于哪些系统,通过数据CRUD规划,确保数据的安全以及在数据不一致时很容易确定以哪个系统的数据为准。下图示例了采购与供应商主题域CRUD规划:
通过以上五步,数据架构的设计就基本完成了,至于逻辑模型、物理模型那就是操作层面的事情了。
干货直达
如何快速构建自己的数据中台知识体系
开源大数据 OLAP 引擎最佳实践
如何构建用户画像,给用户打“标签”?
来看看 ETL 和数仓建模的设计思路!
更多精彩
分享、点赞、在看,给个3连击呗!