产品小白一枚( ̄▽ ̄)/,实习的时候接触到集团的数据中台产品,跟进了初代数据中台产品的全过程,分享一下我们构建集团产品的构建思路和艰辛过程。如果不正确的地方,望大神们及时批评指正,嘴下留情(oT-T)尸~
项目背景
集团属于大型国有企业,拥有众多子级公司。在管理这些公司时,各子级公司的数据汇总与融合成为集团的头等大事。举个例子吧,集团的财务部门做年度财务汇总时,需要自下而上汇总各子级公司的财务数据,如果不借助其他平台(数据保密性较高,集团不采用这种方式),那么集团内部的数据汇总通常是通过文件形式传输,对于这么大的集团来说传输这些数据的工作量是巨大的,再者,如果我们顶着巨额工作量完成了数据汇总,对于汇总好的数据集,万一有一个脏数据,那么我们还需要追溯脏数据的源头,这又是一项巨大的工作量。鉴于此,集团希望可以汇总与融合集团内的全部数据(甚至企业外的数据),打破数据隔阂,解决数据标准与口径不一致的问题[1],所以我们开始了数据中台披荆斩棘的路程。
项目前期
第一天去实习,我接到的任务是去查看行业数据规范,完成集团的元数据描述规范和主数据管理规范。身为萌新的我一脸懵逼,什么是元数据什么又是主数据,疯狂提问中`Д´|
什么是元数据?官方定义:又称中介数据、中继数据,为描述数据的数据(data about data),主要是描述数据属性(property)的信息[2]。我一开始并没有理解,现阶段我有一个比较片面的理解,如果数据是一个表,那么表类型,表大小、表占用空间等这些可以代表这个表一些属性的数据是这个表的元数据,我们根据元数据可以了解数据的大致情况,比如我们需要Excel表格数据,那么我们就需要.xlsx的类型数据。
什么是主数据?官方定义:指系统间共享数据(例如,客户、供应商、账户和组织部门相关数据)[3]。我理解的主数据是针对每个系统而言的,是非常主观的数据,对于我们集团来说,某个数据共享的次数较多,很可能被我们规定为主数据。
接下来介绍一下我输出这些规范的作用是什么:
《元数据描述规范》:描述集团所需的核心元数据、 各元数据元素的语义定义和描述规则。提炼出集团内部可能需要的核心元数据,对提炼出的数据的描述规则,并附加数据例子(方便各部门理解规范)。
《主数据管理规范》:主数据管理的组织和职责、 主数据识别、 主数据的管理状态和主数据的管理流程。主数据主要重点是怎么识别是主数据,集团内部制定的识别规则是什么?主数据是共享数据,这类数据需要管理,有哪些组织参与管理,他们的职责是什么?主数据管理流程是涉及多公司多部门的,大家应该遵循什么样的管理流程需要制定什么样的管理规范?
为什么要有这些规范性文件?为确保集团数据的标准化管理、 质量管理和安全管理工作的顺利、 平稳推进, 有效地为业务提供真实、 完整、 一致、 规范的基础数据支撑,所以制定相关规范文件。此外,我们后续还输出了《数据中台数据管理规定》、《系统关键字情况说明》、《数据质量管理标准规范》、《数据安全管理规范》。
数据中台
做好了前期准备,我们开始了集团数据中台的构建。数据中台产品的目标用户包含两部分:集团内部的各子级公司和集团外部合作的相关企业。
1. 集团的内部需求是什么?集团的内部包括各子级公司业务人员(使用该平台的人)和集团本身。
针对各子级公司的业务人员,我们获取需求的方法是面对面访谈的方式,访谈对象不覆盖所有子级公司(工作量太大),我们访谈对象只到二级公司(具有代表性),通过针对性访谈,我们整理出以下几点需求:(1)对数据有个概览的认识;(2) 在平台上可以精准查看数据;(3)可以实现数据的调阅功能。针对这几点需求,对概览认识的需求,我们设计"数据地图"板块,旨在通过该板块可以查看到数据的大致情况,比如数据量的大小、数据模型情况等;对精准查看数据需求,我们设计“数据目录”板块,并且针对于精准的需求,我们设计标签功能和检索功能,并且数据面向的是所有人员,有些数据敏感性较高,我们对数据脱敏,只展示元数据不展示数据的详细信息;对于数据调阅功能,我们设计数据调阅表格和调阅记录等,去保障数据调阅过程的逻辑性。
针对于集团,我们站在集团角度思考,集团数据中台不只是要实现数据应用的功能,还需要考虑长久的需求,需要提炼出主数据,而主数据的提炼和他被共享频率相关,因此我们设计“元数据管理”模块,该模块的功能是对数据进行监控,即依赖关系、变更情况、关联度等。
2. 集团外部需求是什么?对于集团内部,数据在中台平台的查阅记录里就可以直接查看;但是对于集团外部,通常需要开放数据库权限,而不是只开放查看数据的权限。因此,对于集团外部的需求就是可以实现数据共享功能,我们设计“数据共享”功能,这里面我们添加了数据传输方式的选择,并留下相关联系方式,后续会有技术人员对接,实现数据的共享。
这里展示一下我们部分导航栏的内容:
其他想说的话
初代产品刚在集团内部上线,我们做的工作远不止我描述的这么简单,就像我们目录里简简单单的标签,都是我们人工+算法筛选出来的,后续还产出《数据治理调研报告》,与各个业务部门和子级公司核实标签情况。
也许这样看来数据中台其实并不难,但是从0到0.5的过程,只有我们亲身经历才知道不易
面对陌生的概念,每天都疯狂学习,就希望可以立即掌握......
面对万条的数据,我们实习生们几天几夜的奋战,一版又一版的数据,直到终于可行......
面对毫无头绪的原型,一遍又一遍的否决,一次又一次的从头开始,这些艰辛只有走过才知道......
引用
[1] “数据中台”需要什么样的产品经理? http://www.woshipm.com/pmd/2501012.html
[2] 元数据百度百科https://baike.baidu.com/item/%E5%85%83%E6%95%B0%E6%8D%AE/1946090?fr=aladdin
[3] 主数据百度百科https://baike.baidu.com/item/%E4%B8%BB%E6%95%B0%E6%8D%AE/7310399?fr=aladdin