在这之前,互联网是的信息都是一堆字符串,“知识图谱”出现后,信息聚变和拓展开来了,形成一个个实体和实体之间的联系。以搜索领域来说,以前,当人们键入关键字“川普”进行搜索时,返回的结果只是一堆匹配了关键字“川普”的页面;现在,可以返回——总统川普,川普的家人,,川普的朋友,川普的经历,美国历代总统,川普与xxx的xxx,川普的朋友,朝核问题,萨德,四川方言,四川方言的历史渊源与风俗等等。
0. 知识图谱能够描述现实世界的实体及其之间的关系,能够实现对知识的共建、共享及重用。针对知识图谱这一特点,引用知识图谱解决中医学在知识表达、共享和应用方面的问题也受到中医界的重视。于彤等提出了以 TCMLS 为骨架,以中医药领域现有的术语和数据库资源为内容,构成大型知识图谱的构想,并开展了相关的探索和实践,但是没有实现中医药知识资源的有效整合以及提供全面、及时、可靠的知识服务。阮彤等利用文本抽取、关系数据转换以及数据融合等技术探索了中医药知识图谱自动化构建的方法。贾李蓉等从数据来源、研究内容、图形化展示探讨了如何构建中医知识图谱,但是如何从多个数据来源构建知图谱没有给出具体描述,相关应用也停留在浏览检索方面,没有进行数据资源的映射规则和数据元等标准的研究。本文基于前期建立的中医基础理论本体,结合知识图谱技术,结合图数据库特点,提出并实现中医核心知识图谱表示和构建技术,在基于图谱在结合中医思维方法的知识检索和名老中医经验发现和总结方面进行有益的探索。
1.知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成,即知识图谱亦可被看作是一张巨大的图,在知识图谱里,每个节点表示真实世界中存在的概念或实体,每条边则表示属性或实体之间的关系。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从 “ 关系 ” 的角度去分析问题的能力。
2.知识图谱在本体的基础上进行了丰富和扩充,扩充主要体现在实体(Entity)层面;本体中突出和强调的是概念以及概念之间的关联关系,而知识图谱则是在本体的基础上,增加了更加丰富的关于实体的信息。
3.模式(Schema)是对知识的提炼,而且遵循预先给定的模式有助于知识的标准化,更利于查询等后续处理。
4.本体描述了知识图谱的数据模式(Schema),即为知识图谱构建数据模式相当于为其建立本体。本体是概念层次上面的表示,即侧重表示概念与概念之间的关系;而知识图谱是以实体为核心,事实用实体之间的关系表示,复杂关系可以体现在关系之间组合聚合等关系上,即注重体现实体本身之间的关系推理。本体能较好的对知识表示进行概括性、抽象性的描述。而知识图谱则能更好的融合关系表示和语义网表示进而组成知识的可拓网络。
5.通用语义关系表
通用关系名 | 语义关系描述 |
---|---|
Kind-of | 概念术语之间的继承机制,也可以理解成包含与被包含的关系。 |
Part-of | 概念术语之间存在整体与部分的关系,即子概念描述的事物是父概念描述事物的一部分。如,” 辨证方法”包含”八纲辨证”。 |
Instance-of | 概念术语与实例之间的关系。如,”心 “是”五脏”的一个实例。 |
Attribute-of | 概念术语与属性之间的关系。如,”药味”是”药”的一个属性。 |
—~—~—~—-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~
6.中医知识图谱的基本结构由概念层次关系图 GM 与实体关系图 GE 组成,即 KG=<GM,GE>。其中,
6.1.1.概念层次关系图 表示中医 本体概念层级结构;
6.1.2.实体关系图 表示中医 实体及其之间的关系。
6.2.1.概念层次关系图 GM=<CM, RM>,其中CM 表示图中概念节点, RM 表示由多条边连接的两个概念之间的关系边。
6.2.2.实体关系图 GE=<EE, RE>,其中EE 表示图中实体节点, RM 表示由多条边连接的两个实体之间的关系边。
7.中医知识图谱的本质是通过概念或实体及其语义关系来表达中医知识的一张巨大的图。中医知识图谱的图结构由节点集合和边集合构成,即
KG = {< N >, < R >}。其中,节点代表表示中医领域知识中的各种概念及实体;边代表概念、实体间的关联,用来连接两个概念或实体。
< N > 表示节点集合,即 N ∈ (CM ∪ EE)。
< R > 表示边集合,即 R = {< T >, < D >,< G >}, R ∈ (RM ∪ RE)。
< T > 表示关系类型集合,
< D > 表示关系方向集合,
< G > 表示三元组集合,使用三元组(node_A, relation, node_B)表达语义关系,node_A 与 node_B 表示节点(概念或实体),方 向 是 有 node_A 指 向 node_B, relation 表 示语义关系每个三元组表示一个事实。
eg:如图 1 所示虚线部分,心开窍于舌,其中边 “ 开窍于 ”表示语义关系,其实体是 “ 心 ” 与 “ 舌 ”
—~—~—~—-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~-~
0.大数据处理的特征之一是多维数据、非结构化数据。处理这些数据的一个基础是要建立一个可集成不同非结构化数据源的基础性元数据及化工相关的知识图谱。知识图谱通常是以语义技术标准语言 RDF/RDFS 或者是对 RDF/RDFS 语言在逻辑表示上的扩展如网络本体语言 OWL 来表示的,其语义模型可以被看成是一个以 < 主语,谓语,宾语 > 形式表达的三元组集合。
1.知识图谱的构建方式一般分为三种: 自顶向下的方式、自底向上的方式以及这两种方法相结合的方式 。自顶向下的方式一般是首先构建顶层关系本体,然后将抽取到的实体匹配更新到所构建的顶层本体中。自底向上的方式则直接从抽取数据中发现到的类别、实体、属性以及关系合并到知识图谱中。不管使用那种方式构建知识图谱,其构建流程分为四个模块:知识获取–>知识表示–>知识存储–>知识可视化。
2.当前的数据源可分为以下几种:
2.1.结构化数据。
结构化数据基本都是深网数据,使用通用的爬虫很难获取。
2.2.机器可读的开放本体或词典。
机器可读的本体或词典通常是人工构建的,因此具有良好的可靠性。用于本体构建最多的当属 wordNet和 Cyc,不过这两个本体均为英文词典,因此在中文知识图谱构建时难以直接使用。
2.3.半结构化数据。
开放链接数据和开放知识库严格而言属于半结构化的数据。这些数据通常以图形式的数据结构存储。最知名的为 DBPedia、 YAGO和 Freebase,这些数据通常具有很高覆盖面,可用于通用知识图谱的构建,也可用于行业知识库的构建,只是在行业知识库图谱的构建过程中,需要对数据进行一次筛选和映射。
2.4.行业知识库和行业垂直网站。
它们属于半结构化数据,它们描述的目标是特定的领域,因为专注于特定领域,因此在数据一致性和完整性较完善。知名度比较高的数据集有,DrugBank、豆瓣、百度百科。
3.关于数据源与数据源采集环节,与英文知识图谱构建相比,中文知识图谱的构建具备以下差异和难点:
3.1.中文知识图谱构建的开放链接数据和开放知识库相对缺乏。
3.2.中文的在线百科没有英文维基百科丰富;
3.3.没有像 WordNet 一样完整的中文词典库;
3.4.中文语言的自然特性与英文不同,英文中很多文本抽取与学习的方法不适用于中文。
4.知识图谱通常是采用语义技术标准语言RDF 或者是网络本体语言来表达的。语义技术及其本体工程的相关技术自然被考虑用到精细化工的知识图谱的构建与管理之中。所以,本体工程属于精细化工辅助研发平台的重要一部分,也是构建精细化工知识图谱的首要条件。研发平台包括本体的建立、修改、重用,实例添加等工作,由于涉及本体自身的建立方法等相关的知识,本体编辑是一个比较庞大的工程,比如就本体建立而言就比较复杂,它首先需要本体的模型,还有大量的实例数据填充。
5.化工辅助研发平台所涉及的知识构建流程主要如下:
本体的构建,非结构化数据中提取结构化信息,对文本数据中提取结构化信息,数据的可视化。其中基于本体的构建,常借助本体编辑工具,进行可视化的本体设计;将非结构化的数据抽取为结构数据,常用方法是编写爬虫程序从网页中爬取数据,不提供可视化操作。国内常用的本体编辑工具如 Protégé虽然具有成熟的本体设计与编辑,但是本体实例的数据需要人工录入,且仅支持 OWL 格式。目前还没找到一种合适的化工辅助研发平台,能集成化工本体的构建&&非结构化数据中提取结构化信息&&对文本数据提取结构化数据&&数据的可视化。
6.化工工艺知识图谱构建的过程可分为三个步骤:
构建本体层次关系;构建本体属性;构建本体实例。
7.Neo4j是一种图数据库。
8.精细化工知识图谱实例可视化构建:
8.1.本系统考虑到化工网站中绝大多数实体数据存在于结构化的网页中,因此,本章提出一种面向相似页面的自动化规则抽取方式,其核心思想是模拟人认识网页中结构化知识的过程,利用标注工具及流程语言记录下认识过程,将其转化为图谱数据采集的脚本,然后交给数据抓取进程来执行。本系统不仅可以完成实体与属性关系抽取,还能够兼容常规的单页面级别的关系抽取,可以作为初步化工数据收集和处理平台。用户通过人机交互页面进行实体属性关系标记,保存并生成抽取规则,最后调用抓取脚本结合抽取规则获取精细化工图谱数据。
8.2.基于化工网站实体数据的抽取系统的体系结构,总共分为三大系统模块:用户系统相互交互的页面展示,用户手动分离实体属性关系标注过程,模板生成以及抓取过程。
8.3.本系统是一个面向实体与属性关系分离的自动抓取系统,通过手动创建一个或者多个实体与属性的关系页面,完成对实体与属性分离的操作,系统会自动生成相应的规则进行数据抽取工作。
9.基于事件 Pattern 的技术文献意图理解:
建立基本知识图谱只是精细化工辅助研发平台的第一步,要使研发平台发挥作用,还需要在知识图谱的帮助下,从海量技术文献中发现有价值的研发信息。因此理解技术文献文本并建立与知识图谱中相关实体的关联关系也是辅助研发平台的一个重要过程。然而,由于技术的限制,我们目前很难实现一个化工技术论文或专利的全文理解。但我们认为一个技术文献的意图是研究人员最关注的部分,表现在一个论文的摘要和前言部分,专利的摘要及权利要求书部分,因此在实际实施过程中,我们只对技术文献中的摘要部分进行了具体分析。由于技术文献的写作相对规范,一般表达 “ 研究这个主题的意义,目前存在什么样的不足,本技术文献解决这个问题的思路、技术手段,以及研究或实验的效果 ” 等。我们可以将一个技术文献所表达的意图理解一个或多个事件及其演化的过程,总结技术文献中意图描述部分的事件模式特征 (Event Pattern),将上述特征模板化 (Template),然后利用模板来理解技术文献中摘要部分的内容,并建立与基本知识图谱实体间的映射关系。
10. 辅助研发系统原型:
辅助研发平台原型如图 15 所示,辅助平台支持以下功能为:本体编辑,实例管理(抽取、人工录入、查询),技术文献管理(文献导入、文献理解、人工标记),查询及可视化展示。其工作流程可简述为: 1. 通过本体编辑功能项,进行本体的层级设计,及属性添加; 2. 进入实例录入功能项对本体实例的添加,其中实例的添加借助可视化抽取工具; 3. 导入相应的技术文献,通过机器学习的方法建立与图谱实体的映射,允许化学专家手工标记或删除错误的映射关系; 4. 借助实例查询,可方便快速查询实例信息,同时提供可视化展示效果。
11.结论与展望:
本文讨论了一种精细化工的知识图谱构建机制及面向研发的辅助应用,重点讨论了可视化的图谱数据抽取机制、面向事件 Pattern 的技术文献意图理解及支持化学结构式的图谱数据查询等技术实现思路。本文的工作表明利用知识图谱实现行业或领域知识管理和知识发现是可行的,而且具有十分重要的应用价值。可视化的图谱数据抽取机制现阶段可用于非结构化数据的提取,文中提到的抽取工具现具有通用性,可用于行业垂直网站结构化数据的提取;利用机器学习的方法理解技术文献、专利等文档内容对文本的抽取为知识图谱的构建提供一种新的数据源采集方法;实现一个类Protégé 的功能,集成知识获取、知识表达、知识存储、知识表示于一体的图谱构建平台,可为快速孵化行业知识图谱提供一种思路;支持化学结构式的图谱数据查询,画化学结构图即可查询图谱实体数据,丰富图谱的查询方式。构建出的图谱亦可快速构成行业词典,为文本的实体及实体关系的识别提供实现基础。在了解本文工作能给化工知识图谱和知识发现带来的应用价值之外,我们也应该看到,基于知识图谱辅助研发平台的应用效果取决于基本知识库有精细程度和对技术文献理解的深度。因此我们将继续探讨基于知识图谱的技术文献理解及以此为基础的知识发现技术。