2016年的云栖大会,马云提到了未来的五个大趋势:“新零售、新制造、新金融、新技术与新能源”,排在第一个的,就是“新零售”。
那么何谓“新零售”?马老师说:“线下与线上零售将深度结合,再加现代物流,服务商利用大数据、云计算等创新技术”;逍遥子说:“整个商品生产、流通、服务的过程因为互联网、大数据的广泛运用变得更加高效”。总之,这个“新”字,离不开数据,以及应用数据的能力。
但电商已经是数字化程度很高的行业了,那么新一轮的数字化,就不是从单纯的电商场景展开,而是继续推动企业或者政务系统的数字化,让办公效率提上来,让组织通过数据来实现升级。因此,“云钉一体化”的概念被提了出来,因为钉钉+阿里云,实在具有太丰富的想象力了。
企业或者政务系统的数字化,从哪里展开?用钉钉的话说,就是“组织在线、沟通在线、协同在线、业务在线和生态在线”,再抽象一层,就是“人财物事”的数字化。对于任何企业而言,“人的数据”、“财”的数据、“物的数据”和“事的数据”,都一定是企业最核心的资产,因此企业要想提升自己的效率,拥抱数字化时代,这些方面一定要加速的系统在线,然后实现组织数字化。
阿里这么大,能主导这么多企业的“数字化”吗?显然不能。但,可以利用自己的影响力,去提出这个概念,定义为未来的战略方向,引起大家普遍的焦虑感。然后“云钉一体化”,就在赛道的前方等着这些企业,数字化转型需要的东西,我都准备好了,你要不要上车?
对于B端客户而言,数字化是一种“阳谋”,通过动员大家的力量,一起去建设数字化的基础设施,然后以此生长出新的独角兽业务。尽管很多人不认可这个观点,但同行纷纷上车时,你就不能不上车。
然而,“无心插柳柳成荫”,数字化这个事情,这对数据行业从业者,却是一个非常利好的消息。因为数字资产更值钱了,我们的价值也就更大了。今天我们讲一件容易被忽略的概念:主数据,与过去一直讲的维度建模不同,主数据也是一套理论,能够为那些没有典型互联网业务场景的公司,也提供一种数字化的解决方案。
“主数据”并不是一个很新鲜的概念,提出来已经有一些年头了,但却是比较符合当下潮流的概念。“主数据”所对应的,就是“人财物事”的数字化,以及背后应用到的整套技术体系。如果组织要实现数字化,那么主数据的概念,就绕不过去。
在2018年中国信通院牵头编写的《主数据管理实践白皮书(1.0版)》中,主数据(MDM)定义的概念如下:“指满足跨部门业务协同需要的、反映核心业务实体状态属性的组织机构的基础信息。主数据相对于交易数据而言,属性更加稳定,准确度要求更高,唯一识别。”
所以,数据从业者平时接触的很多数据,比如流量报表、用户报表甚至是财务报表,都不是主数据,而公司的职工、客户、实体资产,这些才算是主数据。
按照国际惯例,我们总结一些主数据的基本原则:
在企业中,像产品、物料、客户、供应商、员工、会计科目等信息,都是主数据,需要专门的系统来维护和建设。
这里很多人会有疑问:我们为什么要做主数据,主数据有什么用?主数据不仅仅是标准化的数据资产,而且一旦出现了问题,通常都不是小问题。这里的问题不仅仅指数据泄露,也指使用错误。
例如,一个客户投诉了某家银行,声称自己的隐私被泄露。但银行自查下来,似乎没什么问题:只不过是不同的系统保存了客户不同的手机号而已,银行在给客户发送信息时,使用了别的系统存储的手机号,而这个手机号被用户设置成了“隐私”状态。
再或者,传统业务中,一个总部往往要管理全国几十个城市上百家分支机构,如果各个机构之间信息不统一,一个客户存了很多个版本的信息,那么光是校对这些数据,就要花费非常大的精力。
做过进出口业务的同学,都知道进出口业务的复杂性,因此做进出口业务的数仓尤其难做。但模型再难,也有能够想明白的一天,但如果涉及到的主数据系统做不好,仓储、分销等业务板块,独立于国内业务,搞出多套系统来,那恐怕天天校对数据,就能把人折磨的够呛。
所以,主数据映射的是业务系统的标准化能力,是“数据中台”与“业务中台”沟通时,最重要的沟通内容。
很多人又会产生新的问题:主数据跟我们平时提到的“元数据”,又有什么不同?
在数据仓库的概念中,元数据有两部分组成,分别是:
所以,主数据和元数据虽然名字比较类似,但描述的东西却不相同。元数据是“描述数据的数据”,例如数据类型、数据定义、数据关系等,相当于Excel的表头信息;而主数据是用来表示公司的通用数据,不仅包括了Excel的表头,也包括了Excel的内容。
举个更直白的例子,假设我们手里有一本书,元数据就是书的目录,而主数据是书里的正文,我们可以通过元数据,来检索到需要的主数据。
所以,主数据跟元数据类似,只有避免了碎片化建设,通过标准的数据体系来支持业务数字化转型的数据,才是好的主数据。
虽然各个职能领域都会去建设自己的核心数据,例如法务系统中有公司的数据、广告系统中有财务的数据,为了保障业务跑起来,通常都会自己先做一套,但从全局眼光来看,公司的数据应该由HR系统来建设,而财务数据应该有专门的财务系统来维护,它们要保证统一的标准。
那么主数据如何用起来?除了提供标准的数据接口之外,更重要的就是给数据中台提供标准的业务数据,然后数据中台通过标准的数据来积累标准的业务过程数据,这样历史上的信息,才不至于因为系统的调整,失去了统计的意义。
所以,当谈到企业数字化,谈到那些纷乱的数据时,首先就要想起主数据,然后让主数据来解决如下三个难题:
主数据是解决“数据孤岛”的一种思路,是区别于“维度建模”的另一种数据治理方案。
很多公司都知道主数据重要,可大部分公司主数据都做得很差,因为主数据也需要通过一套方法来管理。
主数据首先要考虑的就是建模问题。主数据建模更多的考虑是树状层次的结构展示,与领域模型的思路类似,关键过程和步骤应该如下:
每个数据对象和子对象对应到数据库中一张表,子对象单独没有存在的意义,必须连同父对象存在。对于建模中对应的各个数据项,即是实际数据表中的数据字段信息。
主数据其次考虑的是数据的维护问题,包括数据的同步方式,以及同步后如何进行版本管理,控制相应访问人的权限,等等。同时,当数据在一套系统中维护后,还需要对外提供访问的接口,包括同步给数据中台、提供单个数据查询的实时接口等。
很多时候,由于数据的复杂性,主数据也不一定都放在主数据系统中进行维护,根据实际情况的不同,也可以定义好相应的维护方式。例如,专业的数据可以由专业的系统维护,如财务系统、法务系统,但主数据提供业务系统不具备的数据服务能力,比如数据查询的接口服务。
主数据的概念虽然很老,方法也比较简单,但却是很容易被忽视的一环。例如做组织内部的数据统计时,如果组织的汇报方式可以随意指定,那么很容易搞出图的结构甚至是循环结构,导致数据报表没法做下去了。
因此,再小的概念,也值得我们的重视。正如《劝学》中提到的那样:“不积跬步,无以至千里;不积小流,无以成江海。”