作者:DataPipeline CEO 陈诚
《跨越鸿沟》的作者Geoffrey Moore曾说“没有数据,运营企业就像一个又聋又瞎的人在高速上开车一样”。数据的价值从未像现在这样被企业重视,IDC预估,到2020年,全世界会有44万亿G数据,每一个世界500强的CEO和独角兽创业公司的创始人都在思考并实践如何能用数据支持、改造、创新业务,以获得新的增长。
尽管越来越多的人认同数据是极为重要的资产,但由于数据全生命周期管理和使用的复杂度,导致过去的数据管理方法论虽然正确且全面,但往往在推进落地的过程中容易陷入高投入慢节奏的怪圈。 投入产出比不清晰,多数项目半途夭折,已经成为多数企业在数据管理方面不可言说的痛,但遗憾的是大多数企业仍然没有找到成熟有效的理念与方法论来组织、推动和指引数据价值的落地。Thomas Redman博士在《哈佛商业评论》推荐的《数据驱动:从最重要的资产中获利》中写到“当数据冒烟的时候,业务就会起火”,形象地点出了数据时效性低、质量差等问题对业务发展的重大影响。 基于上述背景,在这篇文章中我们将讨论DataOps,一种通过文化、流程和工具来帮助大型公司在内部推动数据价值落地,完成数字化业务转型的理念。
一、数据的“资产负债表”
当下,数据量的增长态势已经远远超出了预期,很容易让我们产生一种错觉,仿佛这样就拥有了数据资产。
但我们认为这是对事实的一种简化。单就存储庞大的数据而言,企业就要为此付出大量成本。例如,如果有100PB的数据,存储在亚马逊云服务AWS S3上一年就需要花费2500万美元。如果要让数据发挥价值,那么数据的采集流转、处理计算、质量监测以及提供数据服务的资源成本和人力成本更是会快速上升。 在这种情况下,如果我们制作一个企业的“数据资产负债表”,到底会有多少数据是企业真正的资产?如何才能增加企业的数据资产呢?
问题看似简单,但很少有企业能在深入思考后得出严谨的回答。导致目前在使用数据的过程中存在“多、乱、慢、差”等情况,严重降低和阻碍了数据发挥作用的价值与效率。所以,只有像经营公司一样精细化地经营数据,数据才能从负债变成资产。
二、当前的数据现状
若想实现精细化运营,就不得不迎接种种难题。当前,拥有几百上千个内外部数据源的组织越来越多,其中包括各种业务、流程、客户数据,结构化、半结构化、非结构化数据。如果再考虑到未来5G和区块链带来的应用级影响,将又会是一种难以言说的痛。 在这种复杂异构的背景下,企业一方面缺少高效整合数据的方法和工具,另一方面更缺失能从这些数据中寻找规律,发掘价值的人才和文化,因此让理解、整合数据变得雪上加霜。而这恰恰是所有数据使用的起点,如果没有成熟高效的应对之道,数据驱动业务将会沦为空谈。
除了数据源数量和类型的不断增多,业务本身也在不断地进化调整,从而导致其产生的数据结构或元数据也随之发生改变,以上种种会引发一系列数据链路的连锁反应。
遗憾的是,很多企业制定元数据架构时通常是静态的,可以理解当下的数据架构和含义,但无法在业务的快速迭代发展中,始终保持与业务语义的一致,以致最后逐渐丧失指导数据分析师理解业务的能力,造成数据分析时统计口径不一致等情况,给企业进行重大决策时造成混乱。
当业务部门希望使用数据来辅助决策或者创造新的商业模式时,通常有两个时效性的要求:一是满足数据需求的速度,二是对于所需数据的延迟性。因为业务创新的关键点在于能否快速满足市场需求,不仅需要用数据快速测算市场规模,更需要在时间窗口打开的时机内提供相应的产品和服务从而占领市场。而这一过程越来越受数据供给速度及时效性的影响,例如银行业的实时风控系统,零售业的实时营销系统,工业界的数字孪生系统,都是业务创新对数据实时性要求非常高的典型。而大多数企业的数据部门在这两点的满足上是捉襟见肘的。
数据被使用只是万里长征的第一步,接下来数据质量差的问题会接踵而至。目前,企业经营者和高管要么不知道数据质量存在问题,要么就是以鸵鸟心态回避和掩盖问题。Gartner的数据质量市场调查显示,糟糕的数据质量平均每年会带来 1500 万美元的损失。尽管所有企业都认同数据质量的重要性,但Gartner认为仍有84%的企业的数据质量处于“不成熟”阶段。损失金钱只是硬币的一面,又有多少公司因为数据质量差,缺乏信任,而错失了创造大量收入的机会呢? 最后,数据安全与隐私也是亟待关注的问题。每年都有许多公司因为数据泄露而蒙受声誉和财务上的双重损失,欧盟已经制定了GDPR的标准和规则,并且对包括Google在内的许多科技巨头开出了数以亿计的罚单,同时我国也在相关法律法规的制定流程中。数据的安全与隐私问题是一个非常关键的点,在安全合规的范围内充分发挥数据价值是DataOps的关键点之一,而这并不仅是技术问题。而是在安全合规的前提下,最大限度赋予组织内部使用数据权限灵活度的问题。
三、现状之下的反思
大多数时候,数据出现问题并不仅仅是数据部门的原因,更多是组织架构及配合的问题。相较于追责某些工具,反而应该思考文化在其中扮演的角色。因此,是时候深入思考这些问题背后的“元问题”了。
我们应该用何种理念和方法来面对这个“元问题”?不妨先从DataOps着手。
接下来DataPipeline将集中讨论「DataOps与企业如何增强数据管理」的问题,本文首先交代了数据管理目前的现状以及DataOps出现的背景。
后面将陆续从「DataOps理念及设计原则」、「DataOps的组织架构与挑战」、「DataOps的技术考量」等角度进行全方位地解读。