知识图谱综述

 

1.前言

语义网是一张数据构成的网络,向用户提供一个查询环境,以图形的方式向用户返回经过加工和推理的知识。在语义网中,所有的信息都具有一定的结构,这些结构的语义通常使用本体来描述。本体涵盖了概念、概念的同义关系、概念之间的上下位关系、概念的属性关系(对象属性和数值属性)、属性的定义域和值域,以及这些内容上的公理、约束等。

2012年,为了提升搜索引擎返回的答案质量和用户查询的效率,Google发布了知识图谱。

2.介绍

2.1定义&组成

知识图谱是由语义网扩展延伸而来,是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。

在知识图谱中,以事实为基本单位,事实可以用三元组表示,代表知识库存储的语言知识和世界知识。三元组的基本表现形式为【实体1-关系-实体2】和【实体-属性-属性值】,每个实体以全局唯一ID为标识,每个属性-属性值对可用来刻画实体的内在特性,而关系用来刻画两个实体间的外在关联。实体之间通过关系相互联结,节点代表实体,连边代表关系,它们构成网状的知识结构。其中,对具有相同特点或属性的实体集合到的抽象称为语义类(概念)。

实体、属性和关系的业务定义:两者统称为property,而如果是字符串的,那么其实是一个atrribute,用来表示某个对象或实体内在的属性;事实上北京是一个实体,这个时候“坐落于”就是连接两个实体之间的关系,叫relation,是实体外在的关联。所以是否是attribute还是relation,取决于连接的值的性质(literal or entity),同时也要根据其内在表现还是外在关联来区分。当确定是外在关联的时候,如果发现值是literal,那么其实说明需要实体化。反之亦然。实体就是做精确匹配,可以基于其关联的属性等来做进一步分析;而属性值是无法作为source关联更多node和边,但是可以使用数值计算等。(出自王昊奋)

2.2分类&存储

根据覆盖范围来分类,知识图谱又分为开放域通用知识图谱和垂直行业知识图谱。前者强调融合更多的实体,但准确性不够高,并且受到概念范围的影响,很难借助本体库对公理、规则以及约束条件的支持能力规范其实体、属性、关系等,一般应用于智能搜索。行业知识图谱需要依靠特定行业的数据,实体的属性与数据模式比较丰富,需要考虑到不同的业务场景和使用人员。

知识存储主要有两种:一种是基于RDF的存储,一种是基于图数据库的存储。RDF:存储三元组/标准的推理引擎/W3C标准/易于发布数据/多为学术界场景,用RDF(资源描述框架)来表示,由三元组构成,易于发布和分享数据,但不支持实体或关系拥有属性;图数据库:实体和关系可以带有属性/没有标准的推理引擎/遍历效率高/事务管理/多为工业界场景。图数据库类型:Neo4j/OrientDB/JanusGraph。RDF类型:Jena。

3.逻辑架构

知识图谱的架构包括自身的逻辑架构和构建知识图谱所采用的技术架构。逻辑架构分为模式层和数据层。

3.1模式层

模式层存储的是经过提炼的知识,采用本体库来管理知识图谱的模式层,借助本体库对公理、规则和约束条件的支持能力来规范实体、关系以及实体的类型和属性等对象之间的联系。构建过程:从原始数据出发,采用一系列自动或半自动的技术手段,从原始数据中提取知识要素(即事实),并将其存入知识库的数据层和模式层的过程。

3.2数据层

数据层主要由一系列的事实组成,而知识以事实为单位进行存储。如果用三元组来表达事实,可选择图数据库作为存储介质,有各种开源的图数据库。模式层构建在数据层之上,是知识图谱的核心,通常采用本体库来管理。本体是结构化知识库的概念模板,通过本体库而形成的知识库不仅层次结构较强,而且冗余程度小。

3.3构建方式

知识图谱的构建方式分为两种:自顶向下和自底向上。自顶向下是借助百科类网站等结构化数据源,从高质量数据中提取本体和模式信息,加入到知识库中;自底向上是借助一定的技术手段,从公开的数据中提取资源模式,选择其中置信度较高的新模式,经过人工审核之后,加入到知识库中。目前大多采用自底向上的方式构建。

4.技术架构

技术架构一般指知识图谱的构建和更新。具体来讲,就是从原始数据(结构/半结构/非结构化)出发,通过自动或半自动化的技术手段,从本地和第三方数据库中提取知识事实,并将其存入知识库和模式层的过程。这一过程包括:信息抽取/知识表示/知识融合/知识推理四个过程,每一次更新迭代都不可跳过。

4.1知识提取

针对开放数据(自然语言文本或多媒体内容文档、图像或视频),通过自动或半自动的方式抽取出可用的知识单元(包括实体(概念)、属性以及实体间的相互关系),并在此基础上形成本体化的知识表达,为上层模式层的构建奠定基础。

数据源主要是来自两种渠道:一种是业务本身的数据,这部分数据通常包含在公司内的数据库表并以结构化的方式存储;另一种是网络上公开、抓取的数据,这些数据通常是以网页的形式存在所以是非结构化的数据。前者一般主需要简单的预处理就可以作为AI系统的输入,而后者需要应用自然语言处理来提取结构化信息,包括命名实体识别、关系抽取、实体统一和指代消解等。

4.1.1命名实体识别

实体抽取,从文本数据集中自动识别出命名实体。有四种方法:基于百科站点或垂直站点抽取/基于规则与词典/基于统计学习/面向开放域的抽取。实体抽取的质量(准确率和召回率)对后续的知识获取效率和质量影响极大,因此是信息抽取中最为基础和关键的部分。三种思路:人工预定义试题分类体系/根据已有的实体实例进行特征建模,利用该模型处理海量数据集得到新的命名实体列表,然后针对新实体建模,迭代地生成实体标注语料库/利用服务器日志,事先并不给出实体分类等信息,而是基于实体的语义特征从搜索日志中识别出命名实体,然后采用聚类算法对识别出的实体对象进行聚类。

4.1.2语义类抽取

语义类抽取,从文本中自动抽取信息来构造语义类并建立实体和语义类的关联,作为实体层面上的规整和抽象。包含三个模块:并列相似度计算/上下位关系提取/语义类生成。两个词有较高的并列相似度的条件是它们具有并列关系(即同属于一个语义类),并且有较大的关联度。对于海淀、朝阳、闵行三个市辖区来说,海淀和朝阳的并列相似度大于海淀和闵行的并列相似度(因为前两者的关联度更高)。当前主流的并列相似度计算方法有分布相似度法和模式匹配法。分布相似度方法的实现方法分为三步:定义上下文/把每个词表示成特征向量,每一维代表一个不同的上下文,值代表本词相对于上下文的权重/计算两个特征之间的相似度,将其作为它们所代表的词之间的相似度。上下位关系提取:从文档中抽取词的上下位关系信息,生成(下义词,上义词)数据对,如(狗,动物)、(悉尼,城市)。通过解析百科类站点的分类信息,在带有表头的表格中,表头就是它的上位词。语义类生成模块包括聚类和语义类标定。

4.1.3属性和属性值抽取

属性提取的任务是为每个本体语义类构造属性列表(如城市的属性包括面积、人口、所在国家和地理位置等),而属性值提取则为一个语义类的实体附加属性值。属性和属性值的抽取能够形成一个完整的实体概念的知识图谱维度。常见的属性和属性值抽取方法包括从百科类站点中提取,从垂直网站中进行包装器归纳,从网页表格提取,以及利用手工定义或自动生成的模式从句子和查询日志中提取。属性抽取:它的目标是从不同信息源中采集特定实体的属性信息。例如针对某个公众人物,可以从网络公开信息中的道其昵称、生日、国籍、教育背景等信息。属性抽取技术能够从多种数据来源中汇集这些信息,实现对实体属性的完整勾画。一种方案是基于百科类网站的半结构化数据,通过自动抽取生成训练语料,用于训练实体属性标注模型,然后将其应用于对非结构化数据的实体属性抽取;另一种方案是采用数据挖掘的方法直接从文本中挖掘实体属性与属性间的关系模式,据此实现对属性名和属性值在文本中的定位。这种方法的基本假设是属性名和属性值之间在未知上有关联关系,事实上在真实语言环境中,许多实体属性值附近都存在一些用于限制和界定该属性值含义的关键词(属性名),在自然语言处理技术中将这类属性成为有名属性,因此可以利用这些关键字来定位有名属性的属性值。

4.1.4关系抽取

文本语料经过实体抽取,得到的是一系列离散的命名实体,为了得到语义信息,还需要从相关的语料中提取出实体之间的关联关系,通过关联关系将实体联系起来,才能够形成网状的知识结构,研究关系抽取技术的目的,就是解决如何从文本语料中抽取实体键的关系这一基本问题。早期方法:人工构造语法和语义规则。随后出现了大量基于特征向量或者核函数的有监督学习方法,关系抽取的准确性也不断提高。但共同特点都是预先定义实体关系类型,如雇佣关系、整体部分关系以及位置关系。

关系的基本信息包括参数类型、满足此关系的元组模式等。例如关系:表示一个国家的首都的基本信息如下:参数类型:(capital,country)/模式:{{0} be the capital of {1} {0} be the capital in {1}…,}元组:(北京,中国);(华盛顿,美国);capital和country表示首都和国家这两个语义类。

4.2知识表示

大规模知识图谱传统表示方法:稀疏矩阵三元组,RDF,符号化表示没个实体和关系;无法有效度量和利用实体间语义关联。研究思路:将知识图谱嵌入到低维向量空间:实体和关系都表示为低维向量;有效表示和度量实体、关系间的语义关联;表示学习旨在建立统一的语义表示空间,缓解数据稀疏,实现知识迁移;分布式表示/嵌入;通常以网络的形式表示知识,然而有以下两个问题:计算效率问题(需要设计专门的图算法来计算语义或推理关系,可移植性差;基于图的算法计算复杂度高,可扩展性差);数据稀疏问题(长尾分布)。

知识表示学习的代表模型有距离模型、单层神经网络、双线性模型、神经张量模型、矩阵分解模型、翻译模型等,另外还有复杂关系模型。知识表示代表模型:TransE,对每个事实(head,relation,tail),将relation看作从head到tail的翻译操作;优化目标:h+r=t;其他代表模型:Neural Tensor Network(NTN)\Energy Model;评测任务:链接预测:电影风格;启示:创新性地设计学习目标;模型复杂度与知识图谱稀疏性存在辩证关系;知识表示研究趋势:一对多关系处理:TransE的假设无法较好处理一堆多、多对一、多对多关系;在TransE基础上考虑关系对实体的影响复杂关系建模的挑战:研究热点:TransA,TransD,TransE,TransG,TransH,TransR;挑战问题:TransE简单目标无法应对复杂关系;建议方案:将关系划分为不同类型,分而治之;FB关系-属性(性别、国籍)、关系。文本+KG融合:基于文本序列的关系抽取;基于知识图谱的链接预测;数据NYT+FB(Weston et al.2013);

问题与挑战:结合文本关系抽取的最新方法,CNN等;建立对词汇、实体和关系的统一表示空间;关系路径表示:KG的实体关系之间存在复杂的推理关系;对关系路径建模的传统方法:Path Ranking Algorithm;关系路径的表示学习:RNN;考虑路径关系的TransE:PTransE;关系路径的表示:组合语义;ADD,MULTIPLY,RNN;评测结果:实体预测、关系预测;关系路径表示的挑战问题:如何寻找关系间的复杂推理关系(更多类型推理关系、推理关系可信性);如何更好地表示关系之间的复杂推理关系(组合语义模型:RNN,NTN)。其他重要挑战:大规模知识图谱表示的快速学习(长尾数据上的在线学习、分布式学习);融合知识图谱丰富信息的知识表示学习(利用实体和关系的属性、描述、层次类型等信息,建立统一的知识表示空间);考虑常识信息的知识表示学习与信息提取(先验知识,如人的结婚年龄等);知识表示在信息融合、知识推理中的应用(跨语言、跨知识库的知识融合,在低维向量空间中的知识推理)

4.3知识融合

通过信息抽取,实现了从非结构化或半结构化数据中获取实体、关系以及实体属性信息的目标。然而,这些结果中可能包含大量的冗余和错误信息,数据之间的关系也是扁平化的,缺乏层次性和逻辑性,因此有必要对其进行清理和整合。知识融合是高层次的知识组织,使来自不同知识源的知识在同一框架规范下进行异构数据整合、消歧、加工、推理验证、更新等(比如某些实体有多种表达,某个特定称谓也许对应多个不同的实体等),达到数据、信息、方法、经验以及思想的融合,形成高质量的知识库。知识融合分为实体对齐、知识加工和知识更新。

4.3.1实体对齐

实体对齐指从对于从文本中抽取得到的实体对象,将其链接到知识库中对应的正确实体对象的操作。根据给定的实体指称项,从知识库中选出一组候选实体对象,然后通过相似度计算将指称项链接到正确的实体对象。一般流程是:从文本中通过实体抽取得到实体指称项/进行实体消歧和共指消解,判断知识库中的同名实体与之是否代表不同的含义,以及知识库中是否存在其他命名实体与之表示相同的含义/在确认知识库中对应正确实体对象之后,将该实体指称项链接到知识库中对应实体。实体消歧主要采用聚类法。共指消歧主要用于解决多个指称对应统一实体对象的问题,以句法分析为基础,代表方法是Hobbs算法、向心理论和C4.5决策树算法。术语相似度模型,借助该模型可以从全局语料中的道所有术语间的统计意义上的相似性,据此可以完成实体合并,达到共指消解的目的。

4.3.2知识加工

知识加工是指对于融合的新知识,需要经过质量评估之后才能加入到知识库中,以确保知识库的质量。具体包括本体构建和质量评估两部分。

本体是同一领域的不同主体之间进行交流的语义基础。本体是树状结构,相邻层次的节点之间有严格的关系。本体位于模式层,用于描述概念层次体系,是知识库中知识的概念模版。本体可以通过人工编辑的方式手动构建,也可以数据驱动的自动化方式构建本体,其包含三个阶段:实体并列关系相似度计算/实体上下为关系抽取以及本体的生成。构建方法:对各层次的道的概念进行聚类,并对其进行语义类的标定(为该类中的实体指定1个或多个公共上位词)。当前主流的实体并列关系相似度计算方法有两种:模式匹配法和分布相似度。模式匹配法采用预先定义实体对模式的方法,通过模式匹配取得给定关键字组合在同一语料单位中共同出现的频率,据此计算出实体对之间的相似度。分布相似度方法的前提假设是:在相似的上下文管径中频繁出现的实体之间具有语义上的相似性。实体上下位关系抽取主要的研究方法是基于语法模式抽取IsA实体对。

质量评估是指对知识的可信度进行量化,通过舍弃置信度较低的知识,可以保障知识库的质量。其次,可用覆盖度/准确率/精确率/召回率/F-measure来作为衡量各阶段质量评估的指标之一。

4.3.3知识更新

知识更新是指模式层和数据层的更新。模式层的更新指本体中元素的更新,包括概念的增删改,概念属性的更新以及概念之间上下位关系的更新等。数据层的更新指的是实体元素的更新,包括实体的增删改,以及实体的基本信息和属性值。知识合并是指从第三方知识库获取知识输入,合并外部知识库或合并关系数据库。数据层的融合需要考虑数据的冗余冲突问题,模式层的融合需要将新的道的本体库融入已有的本体库中。

4.4知识推理

基于逻辑的推理和基于图的推理两类。基于逻辑的推理:一节逻辑谓词、描述逻辑、基于规则的推理。

5.应用

5.1应用领域

知识图谱主要应用于语义搜索/智能推荐/深度问答(聊天机器人、私人助理、客服机器人)/社交网络/数据挖掘/数字图书馆/大数据风控/证券投资/智能医疗/自适应教育。在垂直行业,如金融:反欺诈/风险评估/精准营销;医疗:脑结构数据库;电商:购买展示、建议;其他:教育科研、图书馆、证券、生物医疗;司法:法务检索。接下来举两个应用示例:

语义搜索:当用户发起查询时,搜索引擎会借助知识图谱的帮助对用户查询的关键词进行解析和推理,进而将其映射到知识图谱中的一个或一组概念上,然后根据知识图谱的概念层次结构,向用户返回图形化的知识结构。

问答系统:系统首先对用户问题使用自然语言处理进行语义分析和语法分析,进而将其转化成结构化形式的查询语句,然后在知识图谱中查询答案。比如用户提问【如何判断是否感染了艾滋病病毒】,则该查询可能被等价为【艾滋病病毒的症状有哪些?】,然后再进行推理变换,最终形成三元组查询语句结构,如(艾滋病,症状,?)和(艾滋病,征兆,?)等。如果由于知识库不完善而无法通过推理解答用户的问题,还可以利用搜索引擎向用户反馈搜索结果,同时根据搜索结果更新知识库,为后续提问者做出准备。

对应到试题领域,知识图谱可应用于试题搜索,个性化试题推荐和辅助创建精品题库等。

5.2应用价值

它能够改变现有的信息检索方式,一方面通过推理实现概念检索;另一方面以图形化方式向用户展示经过分类整理的结构化知识,从而使人们从人工过滤网也寻找答案的模式中解脱出来。

5.3相关项目

FreeBase/Knowledge Vault/DBpedia/维基数据/Wolfram Alpha/Bing Satori/YAGO/Facebook Social Graph/百度知识图谱/搜狗知立方/ImageNet。

你可能感兴趣的:(知识图谱综述)