知识图谱标准化白皮书定义:知识图谱(Knowledge Graph)以结构化的形式描述客观世界中概念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。
简单讲,知识图谱由节点(point)和边(edge)组成,每个节点表示一个实体,实体可以指客观世界中的人、事、物,每条边表示一种关系,关系可以表达不同实体间的联系。本质上,知识图谱可以理解为以图结构存储的语义网络。
知识图谱源于20世纪50年代,发展至今可大致分为三个阶段。第一阶段(1950年-1977年)是知识图谱的启蒙期,这一时期文献索引的符号逻辑被提出,并逐渐成为研究当代科学发展脉络的常用方法。第二阶段(1977年-2012年)是知识图谱的成长期,这一阶段语义网络得到快速发展,知识本体的研究成为计算机科学的重要领域,在其期间出现了例如WordNet、Cyc、Hownet等大规模的人工知识库,使得知识更易于在计算机之间和计算机与人之间进行交换流通。第三阶段(2012年-至今)是知识图谱的繁荣期,2012年Google公司率先提出知识图谱(Knowledge Graph,KG)概念,谷歌公司通过知识图谱技术,改善了搜索引擎性能,增强了用户搜索体验,同时也拉开了现代知识图谱的篇章。
当前,随着大数据时代的到来,数据量呈现井喷式增长,知识图谱也从学术圈朝着适合现代化企业的广义大规模知识图谱转变。在人工智能技术的蓬勃发展下,底层图数据库存储、算力规模化部署等知识图谱关键技术难点得到一定程度解决。在搜索引擎领域之外,知识图谱技术已成为电商、医疗、金融、能源等领域的热点技术,解决行业生产环节中的核心痛点。
上文有说,知识图谱本质是是一种语义网络,其节点代表实体,边代表实体间的语义关系,基本的逻辑结构分为模式层和数据层。模式层在数据层之上,为知识图谱的核心,存储的是经过提炼的知识类数据模型,包括实体、关系、属性等层次结构。数据层主要由事实数据信息组成,即现实世界的真实信息,通常以“实体-关系-实体”或“实体-属性-属性值”三元组作为基本表达方式。
目前表示知识图谱的两种主要图数据模型是RDF图和属性图,下文将讲解两种模型的表达方式、区别和局限性。
RDF全称为Resource Description Framework,即资源描述框架,它最初是在语义网背景下设计出来,以主谓宾三元组形式描述资源的一种数据模型,下图为RDF图示例。用RDF图模型表示知识图谱时,需要先构建数据字典,定义数据建模的元数据项{元数据项主要包括两种类型:class和property,class指对象实例的集合,property分为两种子类型:一个是表示 class 的属性 (attribute),另一个是表示多个 class 之间的关系 (relationship)}。例如,用RDF描述一本书,RDF数据字典就需要定义一本书要包含的作者、书名、页数、出版时间、语言类型等,定义完成后,再把具体的书本数据映射进去。所以RDF数据字典的定义本身就是一个RDF Graph Schema,有了完整的Schema后,方便用户将现实世界的知识映射进图内。
属性图,由顶点表示实体,边表示实体间的关系,属性作为一个键值对,顶点和边都支持属性,下图为属性图示例,表达内容与上文RDF图一致,人物“吴京”和电影“长津湖”作为顶点,出演电影作为边,人物顶点上具有属性“性别”、“年龄”信息,电影顶点上具有属性“上映时间”、“票房”信息。用属性图模型表示知识图谱时,需要先构建图模型,定义好图模型的点边结构和属性信息,再将数据映射进去。当业务人员面对需求变更需要调整图模型时,仅对点边和属性进行调整即可,无需重写图模型结构。
在学术领域,存储的往往是结构固定的静态化数据,并提供标准化的接口,RDF Schema可以复用,实现数据的开放共享,避免人员重复劳动。但在其它行业领域,RDF图具有局限性,由于没有可复用的数据字典,开发一个全新的RDF数据集代价非常高,并且RDF的顶点上不存在标签或类型的概念,属性是通过另一个主谓宾来完成的,当业务需要增加属性时,RDF图需要修改点边结构来增加属性,图模型会发生改变,容易导致以前的查询语句不可用,对业务入侵性强,而在属性图上,可以直接在图模型上进行修改,不影响业务正常使用。举例说明,需要在出演电影的边上增加“角色”属性,在属性图上,直接在边上添加属性即可,如下图所示。
而RDF图由于边上不支持设置属性,相同类型的边都是相同的,边会被重复的使用。如果简单的在“出演电影”边上增加“吴京”和“长津湖”之间的角色关系,会在所有“出演电影”这一谓词上添加相同的属性。在RDF中,常规的方法是通过新建一个顶点”ex:xxx”来表示语句,如下图所示。
可以看到,RDF图在新增属性时,会改变原有图模型结构,原本一跳就能完成的查询,需要2跳以上才能完成。考虑到现阶段行业知识图谱朝着数据规模大、实时变动多、业务模型复杂的方向发展,以RDF图模型架构的知识图谱面临发展瓶颈,且部署完成后的运维成本高昂,而以属性图模型表达的知识图谱逐渐获得客户认可。
上文提到,Google公司利用知识图谱技术,优化了搜索引擎性能,大幅度提高用户搜索准确度。此外,大规模知识图谱技术早已在各行业实现广泛应用。
金融领域,知识图谱提供金融知识的提取、融合、分析、推断、决策等功能,打通金融领域内孤立的多源数据,通过数据抽取、信息提取、语义消歧、知识融合、知识加工等技术,构建金融知识图谱,实现智慧金融中的信用卡反欺诈、风险预测、智能营销等应用。例如,知识图谱根据手机号码、联系号码、IP地址、设备、申请件等主要欺诈要素构建信用卡反欺诈关系图谱,欺诈团伙考虑到犯罪成本,可能会共用IP、手机号码、设备等信息,根据这些既定规则对欺诈行为进行判定,挖掘出潜在欺诈用户,从而做到提前预警。
工业领域,随着大数据时代的到来,越来越多的传统工业领域迎来数字化转型。知识图谱通过深度分析生产过程中的关联参数,计算出与产品良品率强相关的决定因子,并根据影响因子搭建出结果的曲线模型,将最优解应用到最终的落地生产中。除此之外,知识图谱在工业领域还具备优化供应链、提高生产工艺、降低设备故障率等应用场景。
能源领域,现代电网是以物理电网为基础,结合先进的传感器技术、信息技术、数据分析技术、计算机控制技术等形成的智慧电网。它应当以满足区域性用电需求、优化电力配置、保证电力供应灵活稳定性为目的,确保用户用电安全、可靠、经济。知识图谱应用其中,通过整合调度范围内变电站间输送电关系、变电站内设备接线关系、发电厂内设备接线关系等信息,结合电网实时运行状态构建电网数字孪生图谱,在全局视角下实现最优应急复电策略、跨业务数据贯通、设备缺陷预警、影响范围分析等功能。
社交领域,社交网络自从在互联网上出现,即成为发展最快的互联网应用。相信我们平时接受过不少舆论信息,可能也当过一把网络键盘侠,社交环境下用户不仅是信息的接收方,同时也是信息的生产者、加工者、传播者,社交用户通过互相关注的方式形成庞大的用户关系网,例如Twitter-2010。知识图谱利用社交网络内的海量信息构建关联关系图谱,实现社交信息分析、兴趣用户推荐、网络舆论预警等功能。例如,知识图谱可根据用户的搜索习惯、消费习惯、娱乐习惯等构建出兴趣图谱,精确细分由特定爱好的人或组织,从而为用户推荐感兴趣的人、事、物。在短视频软件、流媒体中,我们总是会不断刷到自己感兴趣的视频,而低相关度的内容出现次数极低,这就是知识图谱在根据你的喜好做推荐,从而增加用户粘性。
零售领域,不同于以往的卖家市场,如今的电商模式是买家市场,电商平台如何从海量的商品中挑选出用户感兴趣的几十件商品,满足用户个性化的购物需求,成为零售领域商品推荐的难题。电商知识图谱从用户需求出发,整合用户的浏览习惯、购买历史、社交行为等数据,分析出各品类商品的潜在用户群体,实现智能推荐和精准营销,为买家提供良好购物体验的同时,也使商家利益最大化。
以上是知识图谱的广泛应用场景简介,创邻科技官网提供了信用卡申请反欺诈、电网智能调度等图谱的demo演示,感兴趣的读者可以登录官网自行探索。当然知识图谱在医疗、政务、教育、公安等领域也有广泛应用,后续将根据具体的落地场景,从实体建模、数据映射、可视化展示、业务分析等角度,详细讲解知识图谱的应用案例。
伴随着数字经济的持续发展和深度学习技术、NLP技术的成熟,知识图谱产业化已成为当前市场布局的重点。据艾瑞咨询发布的《2022年中国知识图谱行业研究报告》,2021年,知识图谱核心市场规模预计达到107亿元,而到2026年,相应规模将超过296亿元,2021-2026年复合年均增长率达到22.5%,金融和公安两大知识图谱强相关行业是市场规模的主要拉力,行业规模呈现高速发展态势。未来,随着数字政务的深入推进与产业成熟,政务知识图谱也将成为市场的重要拉力之一。
结合当前研报内容,知识图谱建设主要的难点在于数据治理、行业专家储备、底层图数据库存储、算法生产流程和性能待提升、客户认知待培养以及产品封装待优化。攻克上述知识图谱建设难点,有利于从源头保证数据的真实可靠性,同时也能为行业培养复合型人才,底层图数据库存储方式的升级、算法性能的提升、产品易用性的优化也有助于知识图谱行业的壮大。
提及底层图数据库存储方式的升级,目前图技术发展已进入Graph3.0时期,这一时期的原生图数据库呈现运算快、高扩展、智能化的特点。由于图数据库采用原生图存储的方式,数据直接以图结构在底层存储,并针对图结构数据在算法层做查询优化,可以实现低数据膨胀及高算法性能。当前国内Graph3.0代表的图数据库产品有Galaxybase,采用原生图存储的架构,一定程度上解决了知识图谱建设过程中底层图数据库存储的难题。
未来是认知智能到来的时代,感知智能犹如四肢,认知智能犹如大脑,大脑能够对信息进行知识抽取和业务场景推理分析,提高AI的理解分析能力。知识图谱在其中,将起到关键的破局作用,为认知智能洞察隐性关系与逻辑,赋能业务决策。同时,知识图谱作为认知智能时代的底层技术,也将迎来高速发展。
我们相信,随着数据量的指数级增长,变化稍纵即逝,未来的知识图谱不仅要大,还要快,为企业抓住机遇,创造价值。图数据库作为知识图谱的底层支柱,应持续优化存储与运算性能,为即将到来的需求做好准备。
当然,没有一项技术是完美的,技术融合也是未来行业发展的趋势。各项技术的取长补短,也将更好的服务于知识图谱应用,让其在打磨中不断进步,复制成功经验从而诞生更多解决方案。