日前,Gartner发布的2022年重要战略技术趋势,Data Fabric(数据编织)赫然在列。自2019年起,Gartner连续3年将数据编织(Data Fabric)列为年度数据和分析技术领域的十大趋势之一。
根据全球行业分析师报告,全球数据编织市场从2020年的11亿美元,到2026年将增长超过3倍,达到37亿美元。以上表明了这一领域的强劲需求。在Data Fabric出来之前,数据结构的设计主要部署成静态基础设施,而在未来将需要采用更动态的数据网格方法全面重新设计。
Data Fabric不是一个产品而是一种设计理念,是利用AI、机器学习和数据科学的功能,访问数据或支持数据动态整合,以发现可用数据之间独特的、与业务相关的关系。换句话说,现在的数据连接的架构设计还主要是“人找数据”,而Data Fabric设计核心是“数据找人”,在合适的时间、将合适的数据推送给需要的人。
今天小亿就来从以下几个方面说说数据编织,让大家对数据编织有一个全面的认知。
1.什么是数据编织?
2.数据编织与数据集成、数据湖、数据中台有何不同?
3.数据编织为何迅速发展,并被需要?
4.数据编织的典型5层结构
5.要达到数据编织的目的,需要具备什么能力?
一、什么是数据编织?
Gartner认为数据编织是一种跨平台的数据整合方式,它不仅可以集合所有业务用户的信息,还具有灵活且弹性的特点,使得人们可以随时随地使用任何数据。
作为一种新兴的数据管理和处理方法,数据编织能够基于网络架构而不是点对点的连接来处理数据。这实现了从数据源层面到分析、分析结果生成、协调和应用的一体化数据层(结构)。该方法在底层数据组件上设置抽象层,使业务用户可以获得信息和分析结果,而无需进行重复或强制性的数据科学工作。
数据编织的真正价值在于它能够通过内置的分析技术进行学习,并主动提出有关数据应该在何处使用和进行更改的建议,使数据管理工作量减少70%,从而可以有效解决数据孤岛激增而人才供给不足的问题。
因此,我们可以认为,数据编织是一种通过连接的方式动态收集、管理与使用数据的综合架构,其结合了关键数据管理技术,例如数据目录、数据治理、数据集成、数据管道和数据编排。
二、数据编织与数据集成、数据湖、数据中台有何不同?
1.与数据集成比
数据集成是融合异构存储集合的数据并构造统一数据视图的过程,包括了数据合并、数据转换、数据清洗等,其专注于复制、移动数据,如ETL加工、数据同步等。
而数据编织是一种架构思想,跟数据集成本来是无法直接比较的,但由于数据虚拟化是实现数据编织架构中的关键技术之一,因此可以比较下数据虚拟化和数据集成的区别,数据虚拟化可以在不移动数据的情况下从源头访问数据,通过更快、更准确的查询帮助缩短实现业务价值的时间,具体包括跨平台敏捷集成、统一语义、低代码创建数据API(支持SQL、REST、OData和GraphQL等技术)、智能缓存加速等功能,数据虚拟化跟数据集成还是有本质区别的,假如没有虚拟化能力,数据是很难编织起来的,当然,数据编织远远超越了数据虚拟化的范畴。
2.与数据湖比
很多企业机构通过建立数据湖汇总企业机构内外部的所有数据,但这种收集数据的形式仅限于数据的存储,容易产生“暗数据”,并且不利于实时处理跨越不同存储介质的数据。而数据编织的设计模式是帮助企业机构从传统的收集数据形式渐渐转换成连接数据,即数据不移动位置,而以连接形式继续使用数据‘
3.与数据中台比
数据中台是一个管理与使用数据的方法论与综合体系,不仅包含最基础且核心的数据管理和使用的相关技术组件,还包括与之相适应的企业组织机构、管理制度和业务流程、运营机制和考核办法等,只要企业机构中上述各方面相互匹配,数据中台方可顺利运转。而数据编织则更强调机器学习、人工智能、知识图谱等新技术的应用,重点在于新技术的应用逻辑与应用场景,即相较数据中台而言,数据编织的技术色彩更浓一些。
三、数据编织为何迅速发展,并被需要?
传统IT时代,无论是早年的“数据仓库”还是近几年的“数据湖”和“大数据”时代,其实数据利用都是集中式的架构,把数据收集到一起,让企业的数据分析师、商业智能BI分析师对数据进行分析。但在云计算时代,用户业务部署在多云的环境下,要想将分布在不同云上的数据集中在一起成本很高,也很费劲,于是采用去中心化、分布式的数据网络架构就成为了必然选择。
Data Fabric可以同时给业务和技术团队带来明确的价值:从业务层面来看,由于企业能更容易地获得高质量的数据,从而能更快和更精确地获得企业数据洞察;从技术层面来说,由于数据复制的次数和数量较少,从而减少了数据集成的工作,方便维护数据质量和标准,也减少了硬件架构和存储的开销。由于减少了数据复制和大大优化了数据流程,加快并简化了数据处理过程,从而通过实施自动化的整体数据策略,减少了数据访问管理的工作。
总的来说,数据编织是一种跨平台的数据整合方式,它不仅可以集成所有业务用户的信息,还具有灵活且弹性的特点,使得人们可以随时随地使用任何数据,Gartner称,数据编织预计可缩短30%的集成设计时间、30%的部署时间和70%的维护时间。
四、数据编织的典型5层结构
Gartner将数据编织定义为一种设计概念,它充当数据和连接过程的集成层(结构)。数据编织利用对现有、可发现的元数据资产的持续分析,以支持跨所有环境(包括混合云和多云平台)设计、部署和利用集成和可重用数据。
数据编织利用人和机器的能力来访问数据或在适当的情况下支持其整合。它不断地识别和连接来自不同应用程序的数据,以发现可用数据之间独特的、与业务相关的关系,并通过分析获得数据洞察力;通过快速访问和基于图谱的元数据理解提供比传统数据管理更多的价值。Gartner给出的数据编织的典型结构,至下而上分为5个层次,如下图所示:
1.数据源层
数据编织可以连接各种数据源。这些资源可能存在于企业内部,例如企业的ERP系统、CRM系统或人力资源系统 。还可以连接到非结构化数据源,例如,支持 PDF 和屏幕截图等文件提交系统,支持物联网传感器的接入。数据编织还可以从公共可用数据(如社交媒体)等外部系统中提取数据。
2.数据目录层
与传统人工编目不同,数据编织强调采用新技术,例如:语义知识图、主动元数据管理和嵌入式机器学习 (ML),自动识别元数据,持续分析关键指标和统计数据的可用元数据,然后构建图谱模型,形成基于元数据的独特和业务相关关系,以易于理解的图谱方式描述元数据。
3.知识图谱层
数据编织必须构建和管理知识图谱。知识图谱的语义层使用 AI/ML 算法简化数据集成设计,使其更加直观和易于解释,使数字化领导者的分析变得容易。 基于知识图谱的数据应用,将合适的数据在合适的时机自动化推送给数据集成专家和数据工程师,让他们能够轻松访问数据并进行数据共享和使用。
4.数据集成层
数据编织提供自动编织、动态集成的能力,兼容各种数据集成方式,包括但不限于 ETL、流式传输、复制、消息传递和数据虚拟化或数据微服务等。同时,支持通过 API 支持与内部和外部利益相关者共享数据。
5.数据消费层
数据编织面向所有类型的数据用户,提供数据和服务,包括:数据科学家、数据分析师、数据集成专家、数据工程师等,既能够面向专业的IT 用户的复杂集成需求处理,也可以支持业务人员的自助式数据准备和分析。
五、要达到数据编织的目的,需要具备什么能力
1.数据编织可以连接各种数据源
数据源的类型可以是数据库、数据仓库、数据湖、BI、应用系统或者文档等等,这些资源可能存在于企业内部,例如企业的ERP系统、CRM系统或人力资源系统 。还可以连接到非结构化数据源,例如,支持 PDF 和屏幕截图等文件提交系统,支持物联网传感器的接入,数据编织还可以从公共可用数据(如社交媒体)等外部系统中提取数据。
2.数据编织需要有灵活的数据目录
首先数据编织最好能自动的识别和获取元数据,比如数据库中的schema。
其次,能够基于ML/AI能力对数据的语义进行分析,打上数据的标签,从而加深对数据的业务理解,比如针对文档进行语主题分析给出分类,又比如针对关键字段的数据进行分析给出枚举的说明,再比如通过字段的上下文智能判断敏感级别。
最后,基于元数据构建知识图谱,即将碎片化的元数据有机地组织起来(比如建立关系和对象), 让数据目录更加容易被人和机器理解和处理,并为搜索、挖掘、分析等提供便利,为后续AI的实现提供知识库的基础。
3.基于知识图谱实现设计和分析智能
知识图谱有两大作用。
第一,可以快速地进行数据集成设计,比如实现源端连接配置、源端表和字段等信息的快速检索和自动填充,使其更加直观和易于解释。
第二、可以进行数据的智能推荐,比如基于数据的历史使用情况进行推荐,也就是把正确的数据,在正确的时间里,给到正确的人。
知识图谱在商业推荐领域应用的已经比较广泛,把它移植到数据连接领域就成了新鲜玩意,我们以前的数据集成设计主要是“人找数据”,而数据编织设计的核心是“数据找人”,以前对这句话不太能理解,现在终于明白它在讲什么。
4.实现数据的动态集成和自动编排
有了前面的基础,数据的动态集成就成了可能,动态数据集成技术包括本体技术和网格技术。
网格技术原理比较简单,就是能够支撑各种数据源之间的数据交换、共享和协同计算,能够进行跨数据源的数据集成,比如用一个SQL直接跨数据源进行数据融合计算,现在有人在提NOETL,估计就是指这个吧。
5.面向消费者提供自助能力
数据编织面向所有类型的数据用户,提供数据和服务,包括:数据科学家、数据分析师、数据集成专家、数据工程师等,既能够面向专业的IT 用户的复杂集成需求处理,也可以支持业务人员的自助式数据准备和分析。
六、小结
随着数据利用率的提高,“数据孤岛”必须逐渐被打破,为互联企业让路。数据编织的实现是这一过程中的一个重大飞跃——事实上,这是自20世纪70年代关系数据库发明以来最具革命性的突破之一。这是因为数据编织不仅仅是一项技术或产品。它指的是架构设计、结构化流程和思维模式转变,其中数据和业务操作紧密交织在一起。
数据编织本质上是一个统一的架构,它能够提供一个管理框架,使用户能够轻松访问和共享不同数据。ETL/数据仓库、主数据管理、数据虚拟化、数据目录、治理和安全等大量不同的工具都可能用于提升企业的数据编织能力。
虽然数据编织代表着未来的技术趋势,但现阶段由于国内数据编织还处在早期阶段,还需要在云服务、数据整合、数据治理等环节打好基础,比如元数据管理,数据编织的核心是基于元数据的驱动,只有将元数据进行统一化,才会在万变的数据汪洋中找到源头,归于统一,其次还有面向业务的语义分析,智能技术赋能等等。