多模型知识图谱

介绍
企业知识图 (EKG) 一直在兴起,是非常有价值的工具,可用于协调与组织相关的内部和外部数据,从而提高企业的运营效率和业务部门的竞争优势。另一方面,EKG 可能难以开发和维护,存在可扩展性问题,并且业务部门可能难以使用。本文介绍了其中一些挑战,以及本机多模型数据库的灵活数据表示如何解决这些挑战(参见图 1)。 


图 1:多模型知识图谱在一个系统中混合了多种数据表示。

什么是企业知识图谱?
知识图谱为谷歌、苹果、Facebook、Twitter、微软、Linkedin、Ebay 和阿里巴巴等公司创造了数万亿美元的财富,这些公司开发了自己的技术堆栈来支持知识图谱。相比之下,EKG 是在开源和商业图形数据库产品上开发的,旨在根据行业或企业特定的知识模型协调组织的内容、数据和信息资产。

EKG 是人类和机器都能理解的组织知识领域和工件的表示。它是对组织的知识资产、内容和数据的引用的集合,利用数据模型来描述人员、地点和事物以及它们之间的关联方式。

生成式人工智能:通过智能数据工程迈向新水平

加入我们,详细了解如何通过简单、高效且经济高效的数据工程解决方案以及更多内容来快速启动生成式 AI 项目!

您可能还喜欢: 知识图谱是新潮流。图表之年时事通讯:2019 年 5 月

并非所有图都是 EKG:企业可能部署了许多业务知识图 (BKG) 解决方案,需要注意的一个重要区别是,为满足特定业务需求而构建的定制知识图,例如下一个最佳操作、推荐或影响分析不是心电图。BKG 旨在支持狭窄的业务用例,而 EKG 旨在为多个业务部门提供高质量的统一数据并解决多个用例。在下一节中,我们将讨论利用 EKG 支持业务用例的挑战和机遇。

心电图的挑战和机遇
心电图包含来自多个数据源的有价值的高质量数据。对业务部门的优势在于,它消除了集成数据源以支持业务用例的时间和精力。当前的 EKG 解决方案在企业概念模型或本体方面协调多个不同的异构源系统。原始数据通常存放在分布式存储(Hadoop/HDFS、S3)上,然后使用中间件集群将数据提取、转换和加载(ELT)到图数据库集群。

然后,EKG 支持企业搜索等企业应用程序,并且还需要以各种格式(文档、表格、键值和图形)提取和转换 EKG 数据以支持业务应用程序。


图 2:协调图​​形并从图形提供数据时的阻抗不匹配

心电图通常无法充分发挥其潜力,因为企业难以应对将数据协调为心电图图表所需的复杂的多源数据物流,然后业务用户又难以应对复杂且不熟悉的知识图表示形式以及缺乏使用它们所需的工具。组织可以花费大量精力将数十到数百个数据源协调到 EKG 中,同时解决数据来源和权利保留等数据治理问题,但在让其业务部门利用高质量数据方面却面临着最后几百英尺的挑战。整理的心电图数据。

问题的本质在于,数据到图形的“全有或全无”转换会导致源数据表示和 EKG 之间以及 EKG 与业务部门希望使用和处理其数据的方式之间出现阻抗不匹配(参见图 2)。他们的工具。基于多模型的 EKG 通过允许知识图中表示的多样性来减少数据阻抗,这允许对图形进行敏捷的增量协调,并在消费业务部门需要时对数据进行最小化的转换。

将许多数据源协调为图表的挑战
企业需要协调大量不同的数据源。一般来说,协调的相关数据源越多,对企业的潜在价值就越大。然而,将数据协调到图表的成本可能会随着数据源数量的增加而呈指数级增长。这就是为什么企业渴望找到自动化数据协调的方法,并应用敏捷方法来根据需求提供数据协调。

图 3:EKG 数据协调工作随着数据源数量呈指数级增长

需要复杂的知识表示来表示不同数据的细微差别并标准化为图结构。知识图谱消耗和聚合的所有相关源数据都需要转换为单个模型图数据库中的图结构。将源数据映射到这些复杂的知识图表示需要时间、精力和知识。

由此产生的 EKG 会强调图数据库的大规模性能,并且需要大量资源。事实是,数据量总是超出图形数据库能够扩展的范围,特别是当您考虑键值和文档存储中存储的数据的实际规模时(参见图 4)。

图 4:图表处理数据复杂性,而文档和键值处理规模。

多模型数据库能够以允许扩展的方式混合键值、文档、连接和图形数据模型,同时简化所需的图形表示。例如,当以纯图表示时,企业中的网络安全信息每年以数万亿条边的速度增长。当组合图、文档和连接时,相同的企业网络安全图可以用数十亿条边表示。

寻求减少开发和维护 EKG 所需工作量的企业经常会提出以下问题:

我们能否自动对源数据进行分类、映射并转换为知识图谱?
当概念模型发生变化时,我们能否自动重构心电图?
我们可以搜索源、知识图和精选数据吗?
目前尚不存在用于自动将数据协调到图表的实用解决方案。本文重点挑战 EKG 的关键假设:EKG 必须是一个整体图模型,并且所有数据必须转换为图表才能使用。通过允许其包含其他数据模型来放宽这一假设,可以减少 EKG 部署和维护工作,并增加 EKG 的潜在规模。这将使心电图开发和维持更加动态和敏捷。允许其他数据模型的知识图允许暂存数据和图存在于同一数据库中,并将图协调延迟到何时以敏捷和迭代的方式处理。

使心电图易于使用的挑战
表示数据的细微差别并标准化为图形结构所需的复杂知识表示对于业务用户来说也是一个障碍。业务用户因知识图中使用的复杂表示和不熟悉的数据格式以及缺乏使用它们所需的工具而苦苦挣扎。常见的心电图问题有:

它适用于我正在使用的工具吗?
我的开发人员知道如何使用它吗?
如何找到相关数据?
如何绑定我想要的数据?
如何获取我需要的格式的数据?
挑战的本质是心电图与业务部门希望使用工具消费和处理数据的方式之间存在阻抗不匹配。如果每个人都使用图形数据,那将是一个完美的世界——图形是例外,而不是规则。

例如,企业可能需要政治敏感客户和直系家庭成员从 2017 年 1 月到 2019 年 12 月的所有交易,并要求以特定文档结构的 JSON 文档集合提供此数据。他们不想学习或使用图形查询语言来做到这一点。他们想要的是一种数据购物体验,他们访问 EKG 商店并使用分面过滤器在 EKG 购物目录中搜索数据,EKG 商店会推荐数据集以及补充其数据的数据,然后他们指定希望如何交付数据什么时候。

多模型企业知识图谱
多模型企业图 (MMEKG) 允许用户在一个生态系统中混合和管理源、EKG 和精选数据表示,从而缓解前面描述的许多问题。

减少时间和成本
MMEKG 允许延迟图转换直到需要时。多模型图还倾向于减小图的大小,因为它们允许边和顶点包含文档。这使得心电图可以使用敏捷的迭代流程进行开发。

图 5:使用多模型图更有效的知识图数据协调

减少计算资源
EKG 解决方案通常需要单独的数据系统来进行暂存、图形 ETL、图形管理以及向消费业务部门交付数据(参见图 6)。MMEKG 可以消除源数据、知识图和精选业务数据之间的阻抗不匹配,从而允许在一个系统中管理数据,从而减少转换延迟并使所有数据都可搜索。

你可能感兴趣的:(知识图谱,人工智能)