概念:本质上看,知识图谱,是一种大规模语义网络,可以算作是知识工程学科的代表。
形式:网链结构,有核心节点,是大数据的价值载体。
应用:知识图谱的使用较为灵活,一方面,可以单独进行使用,作为数据的加工方,直接对接原始数据,从源头进行数据清洗和知识数据图谱关联呈现;另一方面,还可与其他系统进行对接,在有数据沉淀一方,进行实体抽离,在知识图谱端进行知识加工,最终将知识网络和潜在关系,提供到知识使用人员。
https://blog.csdn.net/xs1997/article/details/125061428
https://jishuin.proginn.com/p/763bfbd379d3
https://ir.sdu.edu.cn/~zhuminchen/KG/6.htm
https://github.com/qq547276542/Agriculture_KnowledgeGraph
https://blog.csdn.net/shengeng_hu/article/details/126420102?utm_medium=distribute.pc_relevant.none-task-blog-2~default~baidujs_baidulandingword~default-1-126420102-blog-121156478.pc_relevant_3mothn_strategy_and_data_recovery&spm=1001.2101.3001.4242.2&utm_relevant_index=4
https://github.com/baiyang2464/chatbot-base-on-Knowledge-Graph
本体设计是图应用中的重中之重,一切的图展示、图计算、图分析、图挖掘、图模式匹配...的基础在图构建,而图构建的核心是本体设计。”
设计本体的过程一般包括如下步骤:
• 定义点类型(实体分类)
• 定义点类型的分类关系(即子类 - 父类的分类树),本体中的点类型,可以有最高抽象点类型(如:人类、自然人),也可以有子点类型(如:男人、女人、欧洲人、亚洲人),甚至可以更细分(如:中国人、美国人、北京人)。
• 定义边类型、边类型的有向型(是否有向,有向为出向还是入向)
• 定义点、边类型属性以及属性值取值范围
• 设定点、边类型属性取值的缺省值
知识图谱搜索引擎Magi
构建知识图谱是包括这样的生命周期或这样的部分,包括定义、知识的抽取、知识的融合、存储、知识的推理、知识的应用,这样的循环迭代的过程。
目前主流的几款图数据库,Titan、Graph、Neo4J这个三个分别都是开源的,然后Titan是阿帕奇下面的,Graph是MIT,Neo4J是开源的一种商业的,既有商业版,也有也有开源免费版。
知识推理,知识推理这边有几种方法,首先是基于符号推理,我们上面说的三元组的结构,比如说左边的RDF,有概念,就是实例的结合,然后基于概念进行推理。我在最开始讲的 Google 的例子就是基于符号三元组形成的简单推理。
还有一种是基于深度学习的推理,这里的一个例子是利用了卷积神经网络对实体进行关系的分类的,它不一样的地方是什么?是它把依存树作为输入,就是将词在树中的不同的位置的嵌入式的表示拼接到这个词向量当中来学习,同时对面相树结构设计了独特的卷积盒。这种方法在实体分类的任务上,相较于未使用位置关系的信息,效果会有一定的提升,这也是其中一种方法。
随着智能信息服务应用的发展,知识图谱已广泛应用于智能搜索、智能问答、个性化推荐、情报分析、反欺诈等领域。 另外,通过知识地图,可以将Web上的信息、数据、链接关系作为知识进行收集,使信息资源的计算、理解、评价变得容易,可以形成Web语义知识库。
知识图谱有三元组和自顶向下两种构建方式。
自上而下的构建是利用百科全书等结构化数据源,从高质量的数据中提取主体和模式信息,添加到知识库中; 自下而上构建是指运用一定的技术手段,从公开收集的数据中提取资源模式,从中选择可靠的新模式,人工审核后添加到知识库中。
实体:是指可区别且独立存在的某种东西。 实体是知识图谱中最基本的要素,不同实体之间有不同的关系。
关系:关系是连接不同实体的,是指实体之间的联系。
信息抽取:从各种类型的数据源中提取出实体、属性以及实体间的相互关系,在此基础上形成本体化的知识表达;
知识融合:在获得新知识之后,需要对其进行整合,以消除矛盾和歧义,比如某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等;
知识加工:对于经过融合的新知识,需要经过质量评估之后(部分需要人工参与甄别),才能将合格的部分加入到知识库中,以确保知识库的质量。
其实我们的构建知识图谱的过程,就是信息抽取、知识融合、知识加工三个过程,但是这三个过程都有各自的难点,下文通过从这三个模块出发,解析这三个模块说要解决的问题,会遇到的难点。
信息抽取是一种自动化地从半结构化和无结构数据中抽取实体、关系以及实体属性等结构化信息的技术。
涉及的关键技术包括:实体抽取、关系抽取和属性抽取。
5.1 实体抽取(Entity Extraction)
实体抽取又称为命名实体识别(named entity recognition,NER),是指从文本数据集中自动识别出命名实体。实体抽取的质量(准确率和召回率)对后续的知识获取效率和质量影响极大,因此是信息抽取中最为基础和关键的部分。
一种思路是根据已知的实体实例进行特征建模,利用该模型处理海量数据集得到新的命名实体列表,然后针对新实体建模,迭代地生成实体标注语料库。
另一种思路是利用搜索引擎的服务器日志,事先并不给出实体分类等信息,而是基于实体的语义特征从搜索日志中识别出命名实体,然后采用聚类算法对识别出的实体对象进行聚类。
5.2 关系抽取(Relation Extraction)
文本语料经过实体抽取,得到的是一系列离散的命名实体,为了得到语义信息,还需要从相关的语料中提取出实体之间的关联关系,通过关联关系将实体(概念)联系起来,才能够形成网状的知识结构,研究关系抽取技术的目的,就是解决如何从文本语料中抽取实体间的关系这一基本问题。
人工构造语法和语义规则(模式匹配)统计机器学习方法基于特征向量或核函数的有监督学习方法研究重点转向半监督和无监督开始研究面向开放域的信息抽取方法将面向开放域的信息抽取方法和面向封闭领域的传统方法结合
5.3 属性抽取(Attribute Extraction)
属性抽取的目标是从不同信息源中采集特定实体的属性信息。例如针对某个公众人物,可以从网络公开信息中得到其昵称、生日、国籍、教育背景等信息。属性抽取技术能够从多种数据来源中汇集这些信息,实现对实体属性的完整勾画。
6. 知识融合
知识融合包括2部分内容:实体链接,知识合并
6.1 实体链接
实体链接(entity linking):是指对于从文本中抽取得到的实体对象,将其链接到知识库中对应的正确实体对象的操作。
其基本思想是首先根据给定的实体指称项,从知识库中选出一组候选实体对象,然后通过相似度计算将指称项链接到正确的实体对象。
实体链接的流程:
从文本中通过实体抽取得到实体指称项。进行实体消歧和共指消解,判断知识库中的同名实体与之是否代表不同的含义以及知识库中是否存在其他命名实体与之表示相同的含义。在确认知识库中对应的正确实体对象之后,将该实体指称项链接到知识库中对应实体。 实体消歧:专门用于解决同名实体产生歧义问题的技术,通过实体消歧,就可以根据当前的语境,准确建立实体链接,实体消歧主要采用聚类法。其实也可以看做基于上下文的分类问题,类似于词性消歧和词义消歧.共指消解:主要用于解决多个指称对应同一实体对象的问题。在一次会话中,多个指称可能指向的是同一实体对象。利用共指消解技术,可以将这些指称项关联(合并)到正确的实体对象,由于该问题在信息检索和自然语言处理等领域具有特殊的重要性,吸引了大量的研究努力。共指消解还有一些其他的名字,比如对象对齐、实体匹配和实体同义。
6.2 知识合并
在构建知识图谱时,可以从第三方知识库产品或已有结构化数据获取知识输入。
常见的知识合并需求有两个,一个是合并外部知识库,另一个是合并关系数据库。
将外部知识库融合到本地知识库需要处理两个层面的问题:
数据层的融合,包括实体的指称、属性、关系以及所属类别等,主要的问题是如何避免实例以及关系的冲突问题,造成不必要的冗余
通过模式层的融合,将新得到的本体融入已有的本体库中
然后是合并关系数据库,在知识图谱构建过程中,一个重要的高质量知识来源是企业或者机构自己的关系数据库。为了将这些结构化的历史数据融入到知识图谱中,可以采用资源描述框架(RDF)作为数据模型。业界和学术界将这一数据转换过程形象地称为RDB2RDF,其实质就是将关系数据库的数据换成RDF的三元组数据。
7. 知识加工
在前面,我们已经通过信息抽取,从原始语料中提取出了实体、关系与属性等知识要素,并且经过知识融合,消除实体指称项与实体对象之间的歧义,得到一系列基本的事实表达。
然而事实本身并不等于知识。要想最终获得结构化,网络化的知识体系,还需要经历知识加工的过程。
知识加工主要包括3方面内容:本体构建、知识推理和质量评估。
7.1 本体构建
本体(ontology)是指公认的概念集合、概念框架,如“人”、“事”、“物”等。
本体可以采用人工编辑的方式手动构建(借助本体编辑软件),也可以以数据驱动的自动化方式构建本体。因为人工方式工作量巨大,且很难找到符合要求的专家,因此当前主流的全局本体库产品,都是从一些面向特定领域的现有本体库出发,采用自动构建技术逐步扩展得到的。
自动化本体构建过程包含三个阶段:
实体并列关系相似度计算 实体上下位关系抽取 本体的生成
比如对下面这个例子,当知识图谱刚得到“阿里巴巴”、“腾讯”、“手机”这三个实体的时候,可能会认为它们三个之间并没有什么差别,但当它去计算三个实体之间的相似度后,就会发现,阿里巴巴和腾讯之间可能更相似,和手机差别更大一些。
这就是第一步的作用,但这样下来,知识图谱实际上还是没有一个上下层的概念,它还是不知道,阿里巴巴和手机,根本就不隶属于一个类型,无法比较。因此我们在实体上下位关系抽取这一步,就需要去完成这样的工作,从而生成第三步的本体。
当三步结束后,这个知识图谱可能就会明白,“阿里巴巴和腾讯,其实都是公司这样一个实体下的细分实体。它们和手机并不是一类。”
7.2 知识推理
在我们完成了本体构建这一步之后,一个知识图谱的雏形便已经搭建好了。但可能在这个时候,知识图谱之间大多数关系都是残缺的,缺失值非常严重,那么这个时候,我们就可以使用知识推理技术,去完成进一步的知识发现。
我们可以发现:如果A是B的配偶,B是C的主席,C坐落于D,那么我们就可以认为,A生活在D这个城市。
根据这一条规则,我们可以去挖掘一下在图里,是不是还有其他的path满足这个条件,那么我们就可以将AD两个关联起来。除此之外,我们还可以去思考,串联里有一环是B是C的主席,那么B是C的CEO、B是C的COO,是不是也可以作为这个推理策略的一环呢?
当然知识推理的对象也并不局限于实体间的关系,也可以是实体的属性值,本体的概念层次关系等。
推理属性值:已知某实体的生日属性,可以通过推理得到该实体的年龄属性;
推理概念:已知(老虎,科,猫科)和(猫科,目,食肉目)可以推出(老虎,目,食肉目)
这一块的算法主要可以分为3大类,基于逻辑的推理、基于图的推理和基于深度学习的推理。
https://www.zhangshilong.cn/work/51362.html
知识图谱的存储方式通常分为以下两种——
RDF存储格式
主要常用Jena
图数据库(Graph Database)
主要常用neo4j
采用图数据库而不是关系数据库的原因?
简单的知识图谱可以用关系数据库,但是一旦知识图谱变复杂,在关联查询的效率上会比传统的存储方式有显著的提高。当我们涉及到2,3度的关联查询,基于知识图谱的查询效率会高出几千倍甚至几百万倍。
基于图的存储在设计上会非常灵活,一般只需要局部的改动即可。
把实体和关系存储在图数据结构是一种符合整个故事逻辑的最好的方式。
知识图谱的架构主要可以被分为
逻辑架构
技术架构
在逻辑上,我们通常将知识图谱划分为两个层次:数据层和模式层。
模式层:在数据层之上,是知识图谱的核心,存储经过提炼的知识,通常通过本体库来管理这一层这一层(本体库可以理解为面向对象里的“类”这样一个概念,本体库就储存着知识图谱的类)。
数据层:存储真实的数据。
如果还是有点模糊,可以看看这个例子——
模式层:实体-关系-实体,实体-属性-性值
数据层:比尔盖茨-妻子-梅琳达·盖茨,比尔盖茨-总裁-微软
知识图谱有自顶向下和自底向上2种构建方式。
自顶向下:
借助百科类网站等结构化数据源,从高质量数据中提取本体和模式信息,加入到知识库中;
自底向上
借助一定的技术手段,从公开采集的数据中提取出资源模式,选择其中置信度较高的新模式,经人工审核之后,加入到知识库中。
【这里提到的构建技术主要是自底向上的构建方式里会涉及到的构建技术】
如前所述,构建知识图谱是一个迭代更新的过程,根据知识获取的逻辑,每一轮迭代包含三个阶段——
信息抽取:从各种类型的数据源中提取出实体、属性以及实体间的相互关系,在此基础上形成本体化的知识表达;
知识融合:在获得新知识之后,需要对其进行整合,以消除矛盾和歧义,比如某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等;
知识加工:对于经过融合的新知识,需要经过质量评估之后(部分需要人工参与甄别),才能将合格的部分加入到知识库中,以确保知识库的质量。
信息抽取(infromation extraction)是知识图谱构建的第1步,其中的关键问题是——
如何从异构数据源中自动抽取信息得到候选指示单元。
信息抽取是一种自动化地从半结构化和无结构数据中抽取实体、关系以及实体属性等结构化信息的技术。
涉及的关键技术包括:实体抽取、关系抽取和属性抽取。
实体抽取,也称为命名实体识别(named entity recognition,NER),是指从文本数据集中自动识别出命名实体。
研究历史:
面向单一领域,关注如何识别出文本中的人名、地名等专有名词和有意义的时间等实体信息
启发式算法+人工规则,实现自动抽取实体的原型系统
统计机器学习方法辅助解决命名实体抽取问题
有监督学习+先验知识
开始关注开放域(open domain)的信息抽取问题,不再限定于特定的知识领域,而是面向开放的互联网,研究和解决全网信息抽取问题。
人工建立科学完整的命名实体分类体系
基于归纳总结的实体类别,基于条件随机场模型进行实体边界识别,最后采用自适应感知机实现对实体的自动分类
采用统计机器学习的方法,从目标数据集中抽取出与之具有相似上下文特征的实体,从而实现实体的分类和聚类。
迭代扩展实体语料库
通过搜索引擎的服务器日志,聚类获取新出现的命名实体。——已应用于自动补全技术
文本语料经过实体抽取,得到的是一系列离散的命名实体,为了得到语义信息,还需要从相关语料中提取出实体之间的关联关系,通过关系将实体联系起来,才能够形成网状的知识结构。这就是关系抽取需要做的事。
研究历史:
人工构造语法和语义规则(模式匹配)
统计机器学习方法
基于特征向量或核函数的有监督学习方法
研究重点转向半监督和无监督
开始研究面向开放域的信息抽取方法
将面向开放域的信息抽取方法和面向封闭领域的传统方法结合
属性抽取的目标是从不同信息源中采集特定实体的属性信息,如针对某个公众人物,可以从网络公开信息中得到其昵称、生日、国籍、教育背景等信息。
研究历史:
将实体的属性视作实体与属性值之间的一种名词性关系,将属性抽取任务转化为关系抽取任务。
基于规则和启发式算法,抽取结构化数据
基于百科类网站的半结构化数据,通过自动抽取生成训练语料,用于训练实体属性标注模型,然后将其应用于对非结构化数据的实体属性抽取。
采用数据挖掘的方法直接从文本中挖掘实体属性和属性值之间的关系模式,据此实现对属性名和属性值在文本中的定位。
通过信息抽取,我们就从原始的非结构化和半结构化数据中获取到了实体、关系以及实体的属性信息。
如果我们将接下来的过程比喻成拼图的话,那么这些信息就是拼图碎片,散乱无章,甚至还有从其他拼图里跑来的碎片、本身就是用来干扰我们拼图的错误碎片。
也就是说——
拼图碎片(信息)之间的关系是扁平化的,缺乏层次性和逻辑性;
拼图(知识)中还存在大量冗杂和错误的拼图碎片(信息)
那么如何解决这一问题,就是在知识融合这一步里我们需要做的了。
知识融合包括2部分内容:
实体链接
知识合并
实体链接(entity linking)是指对于从文本中抽取得到的实体对象,将其链接到知识库中对应的正确实体对象的操作。
其基本思想是首先根据给定的实体指称项,从知识库中选出一组候选实体对象,然后通过相似度计算将指称项链接到正确的实体对象。
研究历史:
仅关注如何将从文本中抽取到的实体链接到知识库中,忽视了位于同一文档的实体间存在的语义联系。
开始关注利用实体的共现关系,同时将多个实体链接到知识库中。即集成实体链接(collective entity linking)
实体链接的流程:
从文本中通过实体抽取得到实体指称项;
进行实体消歧和共指消解,判断知识库中的同名实体与之是否代表不同的含义以及知识库中是否存在其他命名实体与之表示相同的含义;
在确认知识库中对应的正确实体对象之后,将该实体指称项链接到知识库中对应实体。
实体消歧是专门用于解决同名实体产生歧义问题的技术,通过实体消歧,就可以根据当前的语境,准确建立实体链接,实体消歧主要采用聚类法。其实也可以看做基于上下文的分类问题,类似于词性消歧和词义消歧。
共指消解技术主要用于解决多个指称对应同一实体对象的问题。在一次会话中,多个指称可能指向的是同一实体对象。利用共指消解技术,可以将这些指称项关联(合并)到正确的实体对象,由于该问题在信息检索和自然语言处理等领域具有特殊的重要性,吸引了大量的研究努力。共指消解还有一些其他的名字,比如对象对齐、实体匹配和实体同义。
在前面的实体链接中,我们已经将实体链接到知识库中对应的正确实体对象那里去了,但需要注意的是,实体链接链接的是我们从半结构化数据和非结构化数据那里通过信息抽取提取出来的数据。
那么除了半结构化数据和非结构化数据以外,我们还有个更方便的数据来源——结构化数据,如外部知识库和关系数据库。
对于这部分结构化数据的处理,就是我们知识合并的内容啦。
一般来说知识合并主要分为两种——
合并外部知识库
合并关系数据库
合并外部知识库:
需要处理两个层面的问题:
数据层的融合,包括实体的指称、属性、关系以及所属类别等,主要的问题是如何避免实例以及关系的冲突问题,造成不必要的冗余
模式层的融合,将新得到的本体融入已有的本体库中
一般有以下四个步骤:
获取知识
概念匹配
实体匹配
知识评估
合并关系数据库:
在知识图谱构建过程中,一个重要的高质量知识来源是企业或者机构自己的关系数据库。为了将这些结构化的历史数据融入到知识图谱中,可以采用资源描述框架(RDF)作为数据模型。业界和学术界将这一数据转换过程形象地称为RDB2RDF,其实质就是将关系数据库的数据换成RDF的三元组数据。
在前面,我们已经通过信息抽取,从原始语料中提取出了实体、关系与属性等知识要素,并且经过知识融合,消除实体指称项与实体对象之间的歧义,得到一系列基本的事实表达。
然而事实本身并不等于知识。
要想最终获得结构化,网络化的知识体系,还需要经历知识加工的过程。
知识加工主要包括3方面内容:本体构建、知识推理和质量评估。
本体(ontology)是对概念进行建模的规范,是描述客观世界的抽象模型,以形式化的方式对概念及其之间的联系给出明确定义。其最大特点在于它是共享的,本体中反映的知识是一种明确定义的共识。在知识图谱中,本体位于模式层,用于描述概念层次体系,是知识库中知识的概念模板。
本体是同一领域内的不同主体之间进行交流的语义基础。
本体可以采用人工编辑的方式手动构建(借助本体编辑软件),也可以以数据驱动的自动化方式构建本体。因为人工方式工作量巨大,且很难找到符合要求的专家,因此当前主流的全局本体库产品,都是从一些面向特定领域的现有本体库出发,采用自动构建技术逐步扩展得到的。
自动化本体构建过程包含三个阶段——
实体并列关系相似度计算
用于考察任意给定的2个实体在多大程度上属于同一概念分类的指标测度,相似度越高,表明这2个实体越有可能属于同一语义类别。
如“中国”和“美国”作为国家名称的实体,具有较高的并列关系相似度;而“美国”和“手机”这两个实体,属于同一语义类别的可能性较低,因此具有较低的并列关系相似度
主流计算方法:模式匹配法和分布相似度。
实体上下位关系抽取
用于确定概念之间的隶属(IsA)关系,这种关系也称为上下位关系。
如词组(导弹,武器)构成上下位关系,其中的“导弹”为下位词,“武器”为上位词。
主要研究方法:①基于语法模式(如Hearst模式)抽取IsA实体对;②利用概率模型判定IsA关系和区分上下位词,通常会借助百科类网站提供的概念分类知识来帮助训练模型,以提高算法精度;③用跨语言知识链接的方法来构建本体库;
本体的生成
本体生成主要是对各层次得到的概念进行聚类,并对其进行语义类的标定,即为该类中的实体指定1个或多个公共上位词。
主要研究方法:实体聚类方法
知识推理是指从知识库中已有的实体关系数据出发,进行计算机推理,建立实体间的新关联,从而拓展和丰富知识网络。知识推理是知识图谱构建的重要手段和关键环节,通过知识推理,能够从现有知识中发现新的知识。
比如——
如果我们知道这两个信息(A,father,B),(B,father,C),那么知识推理就可以帮助我们得到(A,grandfather,C)的事实。
当然知识推理的对象也并不局限于实体间的关系,也可以是实体的属性值,本体的概念层次关系等。
比如——
推理属性值:已知某实体的生日属性,可以通过推理得到该实体的年龄属性;
推理概念:已知(老虎,科,猫科)和(猫科,目,食肉目)可以推出(老虎,目,食肉目)
知识推理方法目前可以分为3大类,基于逻辑的推理、基于图的推理和基于深度学习的推理
基于逻辑的推理方法主要采用抽象或具象的Horn子句建模,然后基于一阶逻辑谓词、描述逻辑以及规则进行推理。
基于图的推理方法主要思想是将实体和关系映射到一个低维的embedding空间中,基于知识的语义表达进行推理建模。
基于深度学习的推理方法主要考虑使用神经网络进行建模,并且往往会和上面两种推理方法结合起来进行建模。
https://xz.aliyun.com/t/2139