数据比以往任何时候都更加重要,但大多数组织仍在为一些常见问题而苦苦挣扎:他们更多地关注数据基础架构而不是数据产品;创建数据时通常会考虑特定部门的需求,但很少考虑最终用途;他们缺乏一种通用的“数据语言”,每个部门都用自己的系统进行编码和分类;他们越来越关注外部数据,但几乎没有质量控制系统。通过专注于“数据供应链”管理,可以解决这些问题。与实体供应链类似,公司应该系统地思考,专注于最终产品、定义标准和测量、引入质量控制,并在数据收集和分析的所有阶段不断改进他们的方法。
几十年来,数据管理一直困扰着大公司。几乎所有的公司都在这方面花费很多,但发现结果并不令人满意。虽然这个问题似乎并没有变得更糟,但随着管理者和公司努力变得更加数据驱动、利用高级分析和人工智能并与数据竞争,解决这个问题变得越来越紧迫。在本文中,我们将通过“数据产品”和“数据供应链”的视角探索一种有效的数据管理方法。
大多数公司都在为一些常见但重要的数据管理问题而苦苦挣扎。
首先,企业集中于数据管理的技术能力,这些能力由 IT 职能控制,需要获取、存储和移动数据。这绝非易事——构建技术“管道”是一项具有挑战性的工作。但在这样做的过程中,他们更多地关注基础设施,而不是输出:用于做出决策、区分产品和服务以及满足客户需求的数据产品。
其次,数据是在组织的不同部分创建的,以满足各个部门的需求,而不是供其他人以后在数据产品、业务决策或流程中使用。将其与实体产品(例如汽车)进行对比,其中底盘和启动器等组件的设计考虑了最终产品。
第三,大多数组织缺乏通用的数据语言。数据是微妙而细微的,对于不同背景下的不同人来说具有不同的含义。雪上加霜的是,一些部门对“他们的数据”拥有所有权,可能不愿意分享。或者虽然愿意分享,但他们不会花时间解释这些细微差别,以便其他人可以有效地使用它。这导致其他部门建立自己的“近乎冗余”的数据库,加剧了整体混乱。
最后,公司对外部发生的事情越来越感兴趣,利用外部数据来回答各种问题。但外部数据在很大程度上是不受管理的,几乎没有供应商资质或数据质量评估。
数据供应链管理,以数据产品作为流程的最终结果,可以帮助解决这些问题。它同样重视数据管理的所有阶段——从收集到组织再到数据产品的消费。它是一种平衡通用数据与产品中独特和定制数据的优势的方法,它同样适用于内部和外部数据。采用数据供应链管理的公司相对较少,但那些采用数据供应链管理的公司往往会报告更好的结果。
数据产品的流程和供应商管理
公司一直以财务报表、向监管机构报告等形式生产数据产品。尽管如此,此类产品的范围和重要性仍在增长。对于许多人来说,目标是将分析和 AI 衍生模型嵌入到为内部和外部客户提供服务的产品中。Morgan Stanley 的Next Best Action、LinkedIn 的People You May Know、Google 的众多搜索产品以及 MasterCard 的SpendingPulse和Business Locator都是很好的例子。由于上面提到的问题得到充分展示,“争论”数据比构建模型花费的时间要长得多,而且仍然不能解决所有问题。
经过研究,有一种更好的方法来获取高质量的数据。它建立在实体产品制造商使用的流程和供应商管理技术之上。特别是,制造商深入他们的供应链以阐明他们的要求,鉴定供应商,坚持供应商测量质量,并在问题的根源上进行必要的改进。这使他们能够以最少的“物理产品争论”将组件组装成成品,从而提高质量并降低成本。
一个在其数据供应链中采用供应商质量管理的组织是奥驰亚,总部位于美国的烟草和无烟产品供应商。奥驰亚每天依赖 100,000 多家便利店的销售点数据来完成其市场报告和分析。一个向 Advanced Analytics 副总裁 Kirby Forlin 报告的团队负责管理这个领域。合同中明确规定了数据要求,该团队旨在帮助商店满足这些要求。首先,奥驰亚专注于其最基本的要求。质量很差,只有 58% 的每日提交符合他们的要求。但奥驰亚团队耐心地工作,在三年内将质量提高到 98%。随着基本质量的提高,奥驰亚团队将其更高级的要求添加到组合中。正如 Forlin 所说,“这是一项正在进行的工作。我们可以越来越信任数据的证据为我们在分析实践中节省了大量工作,并在我们的工作中建立了信任。”
建立数据供应链的步骤
数据供应链可以在公司内部建立,方法与物理供应链的流程和质量管理中使用的一些相同步骤相同:
1.确立管理职责。
步骤 1a,首席数据官或产品经理应从其员工中任命一名“数据供应链经理”来协调工作,并从整个供应链的每个部门(包括外部数据源)招募“责任方”。
步骤 1b 是将与数据共享和所有权相关的问题放在首位和核心位置。我们发现大多数问题都会消失,因为很少有经理愿意在同事面前采取强硬立场反对数据共享。
识别并记录创建和维护数据产品所需的数据以及相关成本、时间和质量要求。
2.描述供应链。制定一个流程图,描述数据创建点/原始数据源以及为在数据产品中使用而移动、丰富和分析数据所采取的步骤。
3.定义和建立测量。通常,想法是实施指标是否满足要求的测量。从数据准确性和从数据创建到合并到数据产品中所用的时间开始。每个数据产品的供应链都会有不同的措施。
4.建立过程控制并评估是否符合要求。使用第四步的测量来控制过程并确定第二步的要求得到满足的程度并找出差距。
5.调查供应链以确定所需的改进——整体和特定数据产品。确定步骤五中发现的差距源自步骤三的流程图。
6.进行改进并持续监控。确定并消除第六步中确定的差距的根本原因,并在必要时返回到之前的步骤。持续监控输入数据和数据产品,寻求改进产品以及所需的新数据和更好的来源。
7.确保“合格”数据源。公司将继续招募越来越多的外部数据供应商,这有助于确定那些始终如一地提供高质量数据的供应商。对其数据质量计划的审计提供了“鉴定”那些做的人并识别那些不做的人的薄弱环节的方法。
Key Bank 是美国资产规模排名前 20 的银行,它使用广泛的数据供应链概念来构建其数据管理计划。它将其过程分解为“捕获/组织/消费”三个领域,并试图提高每个领域的效率和有效性。Key Bank最近将大部分数据存储和分析转移到云端,并发现整个供应链的灵活性和速度有了重大改进。它的消费活动在历史上主要集中在经典的商业智能功能上,但现在它也具有强大的数据科学功能。
这需要改变数据供应链,以实现更大的数据虚拟化,并能够构建跨越不同数据集并包含外部数据的数据视图。该银行已经能够利用其数据供应链来快速开发高度依赖数据的新银行产品。例如,Key Bank是美国最大的薪资保护计划贷款贷方之一,最近还推出了面向医生的国家数字银行。该银行的首席数据官 Mike Onders 实际上是数据供应链经理。他和他的员工评估了银行数据供应链提供各种所需数据产品的能力。
建议所有公司积极管理其最重要的数据供应链。数据对企业来说与任何其他类型的资产一样重要,数据产品也越来越与物理产品一样重要。采用与实体供应链相同的理念和方法被证明对数据供应链管理同样具有价值。