本文选自《数据中台架构:企业数据化最佳实践》一书,作者为袋鼠云合伙人、高级副总裁张旭。 当前的数据中台定义是宽泛的,这与数据中台目前所处的实际业务阶段相符合。我们认为数据中台至少是一个分布式的数据仓库,同时包含相对应实施的方法论和方案,介于分布式数据仓库和企业全面数据化中间的任意一个点都可以被定义为数据中台。
我们认为数据中台是实现企业全面数据化的一个解决方案,是一套支撑企业全面数据化的架构,会成为企业开展全面数据化的基础设施。下面介绍我们所认为的数据中台应该包含的具体内容。
首先,数据中台要能完整地描述企业业务。一般来说,数据中台可以从以下几个层面来描述一个企业的业务:
(1)从组织、岗位、职责方面描述企业业务。
(2)从规章制度、业务规范等方面描述企业业务。
(3)从业务流程及业务场景层面描述企业业务。
其次,数据中台要从企业业务现状和业务发展目标入手,规划企业的数据应用场景。数据应用规划应该描述具体的数据应用,是业务统计分析类应用、画像类应用,还是智能智慧的应用,并让这些场景与组织岗位、业务场景、业务流程相关联。
再次,企业要构建规范、清晰的业务指标体系与实体标签体系,并将具体的指标和标签与数据应用相互关联。
然后,企业需要根据数据资产和业务系统现状,要对规划的数据应用进行价值评估,以及优先级排序,以便合理地开展项目建设,逐步实现全面数据化。
最后,企业需要构建数据应用规划体系。构建规划体系是指既要保证当前规划内容的前瞻性、科学性,又可以进行持续的迭代规划。数据应用规划工作没有必要在一开始就规划得大而全,只要规划的内容足以支撑当前的项目启动和运转即可。因为数据的供给和业务的需求是没有尽头的,所以我们要构建一个可以持续规划的体系,以便持续产出规划内容。
(1)梳理数据资源。我们要掌握企业当前的所有数据资源情况。如果我们不能掌握所有的数据资源情况,那么数据化建设的最基本条件都将不具备,所谓的全域数据也就无从谈起。数据中台全域数据可以在数据资源全面盘点的基础上根据使用目的分批进入。
(2)制定模型设计规范和开发规划。数据中台应该提供更先进的适用于大数据开发的数据模型设计规范和方法,并提供可以支撑长时间运转的开发规范和维护规范。
(3)构建完整的数据仓库模型。我们应该对汇聚的数据进行科学的数据仓库模型设计。
(4)选用合适的数据仓库产品。我们需要在当前技术体系下,选择性价比最优、最能够支撑企业业务发展的数据仓库产品,以存储全域数据。
(5)进行数据中台技术架构设计。我们应该根据企业当前情况,设计数据中台的技术架构,包括如何兼容原有的数据仓库产品、是否部署在云上、数据中台和其他应用的交互关系如何等。
(6)进行数据抽取、清洗、开发。数据中台需要构建操作数据存储(Operational Data Store,ODS)层,进行数据的抽取和同步,并对数据进行必要的清洗和开发等。
(7)支撑数据应用建设。数据中台应该为可能进行的数据应用提供数据及数据模型支持,提供系统权限,让数据应用的开发部门在数据中台内部完成开发。
(1)基础数据的数据治理检验。
检验数据是否有多个源头,是否做到了一物一码。
检验数据属性的定义是否清晰。
检验数据内容是否与数据属性的定义一致。
(2)业务交易数据的数据治理成果检验与校正。
检验交易数据的模型定义与当前数据内容是否相符,若不相符则进行校正。
判断数据完整度,若不完整则进行校正。
检验某个数据属性内的数据是否异常,若异常则进行校正。
检验一条记录中的数据内容是否与业务逻辑关系冲突,若冲突则进行校正。
(3)实体行为数据的数据治理成果检验与校正
实体行为数据大抵可以归纳到大数据的范畴,也就是说这些数据天然就不是非常完整的,持久化的形式也可能是文件、文档的形式,且严谨性要求也相较于交易数据偏低。所以,实体行为数据的治理可以被理解为降噪,利用简单的清洗或者算法对数据中的杂乱数据进行过滤。如果数据质量低于可使用的情况,那么要求数据源头参与治理。
(4)业务指标与实体标签的定义与规范管理
业务指标和实体标签散落在企业中的各条业务线与业务部门之中。统一的定义和管理是对企业业务数据化的一次大动作,同时也是把数据化从部门级别提升到企业级别的一次整体进步。
4.数据中台应该全面支持数据应用落地 数据中台并不直接产生数据的应用价值或者业务价值。绝大多数业务价值都是由数据应用产生的,就像在足球比赛中,大多数进球的球员都是前锋,但是我们不能说中锋、后卫和守门员是没有用的。反而在现代足球运动中,中场球员更多地扮演球队大脑的角色,是一场比赛的指挥者和灵魂人物。数据中台的价值也可以通过它对数据应用的支撑间接衡量。
(1)在实施数据应用之前做好数据情况判断。在实施数据应用之前,我们可以从数据中台中查看所需数据情况和数据质量情况,从而判定数据应用落地的可行性和成功率。
(2)在实施数据应用之中提供数据开发环境。数据应用从数据中台中获取数据,并且大部分数据开发都要在数据中台中进行和完成。
(3)在实施数据应用之后进行数据任务的监控和维护。在实施数据应用之后,我们需要依靠数据中台进行任务监控和维护。
更多科技资讯请见微信公众号:博文视点Broadview(微信号:bvbooks)