知识图谱构建技术

一、什么是知识图谱

  • 知识图谱从现实世界抽象出概念、实体及其关系,以结构化的形式进行描述。
    • 实体:现实世界的事物
    • 概念:对于想同你属性事物的概括和抽象
  • 知识图谱可看作本体知识表示的大规模应用,本体是知识图谱知识表示的基础可形式化为
    • C是概念集合,如事物性概念和事件类概念
    • H是概念的上下位关系集合,也称Taxonomy知识
    • P是属性集合,描述概念具有的特征
    • A是规则集合,描述领域规则
    • I是实例集合,用来描述实例-属性-值
  • 知识图谱技术包括知识图谱的构建、知识图谱的查询与推理和知识图谱的应用,是语义网、自然语言处理和机器学习等的交叉学科。

二、知识图谱的构建

  • 知识图谱的构建大致可分为以下五部分:知识表示与建模、知识表示学习、实体识别与链接、实体关系学习和事件知识学习。
    • 知识图谱的知识表示:从现实世界中抽象出概念、实体及其关系,以结构化的形式进行描述,表达成计算机可存储和计算的结构。(主要是对互联网信息的抽象)
    • 知识表示学习:面向知识库的实体和关系进行表示学习,将实体和关系表示为稠密的低维向量,进行实体和关系语义信息的分布式表示。
    • 【核心】实体识别与链接:实体识别是识别出文本指定类别的实体;实体链接(也称实体提及)是识别出文本中提及实体的词或短语,并于知识库中对应实体进行链接。
    • 实体关系学习(也称关系抽取):自动从文本中检测和识别出实体之间具有的某种语义关系。
    • 事件知识学习:对非结构化文本中自然语言所表达的事件抽象为结构化的形式。

1、知识表示与建模

(1)知识表示

  • 知识表示是现实世界的可计算模型,将现实世界中各类知识表达成计算机可存储和计算的结构。
    • 如神经网络可以看作一种知识表示形式。人工智能的核心是研究怎样用计算机易于处理的方式表示、学习和处理各种各样的知识。
  • 知识表示的五大特点:
    • 客观事物的机器标示:即知识表示首先需要定义客观实体的机器指代或指称。
    • 一组本体约定和概念模型:即知识表示还需要定义用于描述客观事物的概念和类别体系。
    • 支持推理的表示基础:即知识表示还需要提供机器推理的模型与方法。
    • 用于高效计算的数据结构:即知识表示也是一种用于高效计算的数据结构。
    • 人可理解的机器语言:即知识表示还必须接近于人认知,是人可理解的机器语言。
  • 知识表示的研究由来已久,大致分为基于(离散)符号逻辑和基于(连续)向量的知识表示方法。

(2)知识图谱的表示

  • 知识图谱的知识表示就可以理解为从现实世界中抽象出概念、实体及其关系,以结构化的形式进行描述,表达成计算机可存储和计算的结构。(主要是对互联网信息的抽象)
  • 知识图谱的知识表示方法就可以分为基于符号和基于向量的知识表示方法。
    • 基于符号的知识表示:优点是基于显性知识表示,表示能力强,能处理较为复杂的知识结构,具有可解释性,并支持复杂的推理。
    • 基于向量的知识表示:优点是易于捕获隐性知识,并易于与深度学习模型集成;缺点是对复杂知识结构的支持不够,可解释性差,不能支持复杂推理。
  • 知识图谱对规模具有扩展性需求,从而使得知识表示方法具有如下四个方面的变化:
    • 从强逻辑表达转化为轻语义表达;
    • 从较为注重TBox概念型知识转化为更加注重ABox事实型知识;
    • 从以推理为主要应用目标转化为综合搜索、问答、推理、分析等多方面的应用目标;
    • 从以离散的符号逻辑表示向以连续的向量空间表示方向发展。

基于符号的知识图谱表示方法

  • 目前大多数知识图谱的实际存储方式都是以传统符号化的表示方法为主。大多数开放域的知识图谱都是基于语义网的表示模型进行了扩展或删改,语义网是符号知识表示框架和方法的一种。下面介绍几种基于符号的知识图谱表示方法。
  • RDF——最常用的符号语义表示模型
    • 基本模型为有向标记图。
    • 图上每条边对应于一个三元组(Subject-主语,Predecate-谓语,Object-宾语),一个三元组对于一个逻辑表达式或关于世界的陈述。
  • RDFS——对RDF进行模式层定义扩展
    • RDF定义了描述客观世界事实的基本框架,但缺少类、属性等模式层的定义手段。
    • RDFS主要用于定义术语集、类集合和属性集合,主要包括如下元语:Class, subClassOf, type, Property, subPropertyOf, Domain, Range等。基于这些简单的表达构件可以构建最基本的类层次体系和属性体系。
  • OWL——对RDFS进行类和属性约束表示能力扩展
    • OWL以描述逻辑为主要基础。
    • OWLW主要在RDFS基础之上扩展了表示类和属性约束的表示能力,从而可以构建更为复杂而完备的本体。
    • 扩展的本体表达能力包括:复杂类表达 Complex Classes、属性约束 Property Restrictions、基数约束 Cardinality Restrictions 、属性特征 Property Characteristics

基于向量的知识图谱表示学习模型

  • 依据知识图谱嵌入表示模型建模原理将基于向量的知识表示模型划分为翻译模型、组合模型和神经网络模型。
  • 翻译模型
    • 灵感来自word2vec中词汇关系的平移不变性
    • 典型方法包括基于向量的三角形法则和范数原理的TransE模型,通过超平面转化或线性变换处理多元关系的TransH、TransR和TransD模型,通过增加一个稀疏度参数向量解决异构多元关系的TransSparse模型。
  • 组合模型
    • 采用向量的线性组合和点积原理,典型特征是将实体建模为列向量、关系建模为矩阵,然后通过头实体向量与关系矩阵的线性组合,再与尾实体进行点积来计算打分函数。
    • 经典成员包括采用普通矩阵的 RESCAL、采用低秩矩阵的 LFM、采用对角矩阵的 DistMult 和采用循环矩阵的 HolE。
  • 神经网络模型
    • 采用神经网络拟合三元组。
    • 典型模型包括采用单层线性或双线性网络的 SME、采用单层非线性网络的 SLM、NTN 和 MLP,以及采用多层网络结构的 NAM 。

常见的知识库以及知识图谱的知识表示方法

常见知识库
  • Cyc
    • 最初目标是要建立人类最大的常识知识库。
    • 知识表示框架主要由术语Terms和断言Assertions组成。Terms包含概念、关系和实体的定义;Assertions用来建立Terms直接按的关系,既包括事实Fact描述,也包含规则Rules的描述。
    • 主要特点是基于形式化的知识表示方法来刻画知识,采用形式化的谓词逻辑,形式化的优点是可支持复杂的推理,缺点是影响知识库的扩展性和灵活性。
  • WordNet
    • 著名的词典知识库,主要用于词义消歧。
    • 知识表示框架主要定义了名词、动词、形容词和副词之间的语义关系(如名词的上下位关系、动词的蕴含关系等),侧重词与词之间的关系。
  • ConceptNet
    • 一种常识知识库。
    • 主要依靠互联网众包、专家创建和游戏三种方法来创建。
    • 知识库以三元组形式的关系型知识构成。
    • 与Cyc相比,ConceptNet采用了非形式化、更加接近自然语言的描述;与链接数据和谷歌知识图谱相比,Concept比较侧重于词与词之间的关系,但比WordNet包含的关系类型多。
  • ConceptNet5
    • 知识表示框架主要包含如下要素:概念-Concepts、词-Words、短语-Phrases、断言-Assertion、关系-Relations、边-Edges。
    • Concepts由Words或Phrases组成,构成了图谱中的节点,不同于其他知识图谱的节点,这些Concepts通常从自然语言文本中提取,更接近自然语言描述。
    • Assertions描述了Concepts之间的关系,类似于RDF的Statements。
    • Edges类似于RDF中的Property,一个Concepts包含多条边,而一条边可能有多个产生来源,来源越多,该断言越可靠,根据来源的多少和可靠程度可计算每个断言的置信度。
语义网与知识图谱
  • 以互联网资源为基础的新一代知识库,这类知识库的构建方法可以分为三类:互联网众包、专家协作和互联网挖掘。
  • Freebase
    • 一个开放共享的、协同构建的大规模数据库,主要采用社区成员协作方式构建。
    • 基于RDF三元组模型,底层采用图数据库进行存储。
    • 特点是不对顶层本体做非常严格的控制,用户可创建和编辑类和关系的定义。
    • 知识表示框架主要包含如下要素:对象-Object、事实-Facts、类型-Types和属性-Properties。
    • Object代表实体,每个Object有唯一ID(称MID),一个Object可以有一个或多个Types。Properties用来描述Facts。Freebase采用复合值类型处理多元关系,为了区别,把非复合值类型的Object也称为Topic。
  • DBPedia
    • 意指数据库版本的Wikipedia,是从Wikipedia抽取出来的链接数据集。
    • 采用一个较为严格的主体,包含各种具体类的定义,与Freebase、OpenCYC、Bio2RDF等多个数据集建立了数据连接,采用RDF语义数据模型。
  • Schema.org
    • 支持各个网站采用语义标签的方式将语义化的链接数据嵌入到网页中,搜索引擎自动搜索和归集,快速从网页中抽取语义化的数据。
    • 提供一个词汇本体用于描述这些语义标签。
  • WikiData
    • 目标是构建一个免费开放、多语言、任何人或机器都可以编辑修改的大规模链接数据库。
    • 支持以三元组为基础的知识条目的自由编辑,一个三元组代表一个关于该条目的陈述。
    • 知识表示框架主要包含如下要素:页面-Pages、实体-Entities、条目-Items、属性-Properties、陈述-Statement、修饰-Qualifiers、引用-Reference等。
    • 起源于Wikipedia,与Wikipedia一样,以页面Pages为基本组织单元,Entities类似于OWL:Things,代指最顶层的对象,每个Entities都有一个独立的Wiki页面。Entities主要有两类:Items和Properties。Item、Properties和Statement分别对应RDF的实例Instance、Property和Statement。通常一个Item的页面还包括多个别名-aliases和多个指向维基百科的外部链接-Sitelinks。每个Entitiees有多个Statement,一个Statement包含:一个Property、一个或多个Values、一个或多个Qualifiers、一个或多个References、一个标示重要性程度的Rank。修饰-Qualifiers用于处理复杂的多元表示。引用-References用于标识每个陈述的来源或出处(引用也是一种Qualifiers,通常加到Statements的附加信息中)
    • WikiData支持多种数值类型,包括:其自有的 Item 类型、RDF Literal、URL、媒体类型 Commons Media 和三种复杂类型:Time、Globe coordinates 和 Quantity。
    • WikiData 允许给每个 Statement 增加三种权重:normal(缺省),preferred 和 deprecated。
    • WikiData 定义了三种 Snacks 作为Statement 的 具 体 描 述 结 构 : PropertyValueSnack 、 PropertyNoValueSnack 、PropertySomeValueSnack。“PropertyNoValueSnack”类似于 OWL 中的“Negation”,用于表示类似于 ““Elizabeth I of England had no spouse.” 的知识。“PropertySomeValueSnack’类似于 OWL 中的存在量词“someValuesFrom”,用于表示类似于“Pope Linus had a date of birth, but it is unknown to us”这样的知识。
    • WikiData 的 URI 机制遵循了 Linked Open Data 的 URI 原则,采用统一的 URI 机制。

总结

  • 知识表示是现实世界的可计算模型。
  • 现代知识图谱由于要满足规模化的扩建需求,大多降低了对强逻辑表达的要求,并以三元组为基础的关系型知识为主。并更多地关注实例层面的知识构建。
  • 另一方面由于知识图谱是很多搜索、问答和大数据分析系统的重要知识基础,基于向量的知识图谱表示使得这些数据更加易于与深度学习模型集成,使得基于向量空间的知识图谱表示得到越来越多的重视。
  • 知识图谱表示一个重要研究趋势是:把符号逻辑与表示学习结合起来研究更加鲁棒、易于捕获隐含知识、易于与深度学习集成、并适应大规模知识图谱应用的新型表示框架是。为此需要较好地平衡符号逻辑的表示能力和表示学习模型的复杂性,一方面要能处理结构多样性、捕获表达控件的语义和支持较为复杂的推理,另一方面又要求学习模型的复杂性低。

2、知识表示学习

(1)知识表示与表示学习

  • 知识表示是知识获取与应用的基础。
  • 人们通常以网络的形式组织知识库中的知识,网络中每个节点代表实体,每条连边代表实体间的关系,基于网络形式的知识表示主要面临计算效率问题和数据稀疏问题。
    • 计算效率问题。专门的图算法存在可移植性差的问题,更重要的,基于图算法计算复杂度高,可扩展性差,知识库规模达到一定规模就很难较好满足实时计算的需求。
    • 数据稀疏问题。大规模知识库与其他类型的大规模数据类似,遵守长尾分布,在长尾部分的实体和关系上,面临着严重的数据稀疏问题。
  • 表示学习旨在将研究对象的语义信息表示为稠密低维实值向量。在该低维向量空间中,两个对象距离越近,说明其语义相似度越高。

(2)知识表示学习

  • 知识表示学习是面向知识库中的实体和关系进行表示学习,通过将实体或关系投影到低维向量空间,实现对实体和关系的语义信息的分布式表示。
  • 知识表示学习优点是可以显著提升计算效率、有效缓解数据稀疏和实现异质信息融合。
    • 显著提升计算效率。知识库的三元组表示实际就是基于独热表示的,而表示学习得到的分布式表示,则能够高效地实现语义相似度计算等操作,显著提升计算效率。
    • 有效缓解数据稀疏。表示学习将对象投影到统一的低维空间中,使每个对象均对应一个稠密向量,从而有效缓解数据稀疏问题,一方面每个对象向量稠密有值,可以度量任意对象之间的语义相似程度,另一方面可将高频对象的语义信息用于帮助低频对象的语义表示,提高低频对象语义表示的精确性。
    • 实现异质信息融合。不同来源的异质信息需要融合为整体才能得到应用,通过涉及合理的学习模型,将不同来源的对象投影到同一个语义空间中,就能够建立统一表示空间,实现多知识库的融合和异质对象之间的语义关联计算。
  • 如今知识表示学习主要面临复杂关系建模、多元信息融合和关系路径建模的挑战
    • 复杂关系建模:复杂关系定义如下,按照知识库中关系两端连接实体的数目,可以将关系划分为1-1、1-N、N-1和N-N四种类型。将后三种关系称为复杂关系。
    • 多源信息融合:现有的知识表示学习模型仅利用知识图谱的三元组结构信息进行表示学习,尚有大量与知识有关的其他信息没有得到有效利用。一是知识库中的其他信息,如实体和关系的描述信息、类别信息等;二是知识库外的海量信息,如互联网文本蕴含了大量与知识库实体和关系有关的信息。
    • 关系路径建模。关系路径蕴含着丰富的信息,突破知识表示学习孤立学习每个三元组的局限性,充分考虑关系路径信息。
  • 知识表示学习的未来方向会是面向不同知识类型的知识表示学习、多源信息融合的知识表示学习、考虑复杂推理模式的知识表示学习、面向大规模数据库的在线学习和快速学习、基于知识分布式表示的应用。
    • 面向不同知识类型的知识表示学习:对知识库的关系划分为 1-1、1-N、N-1 和 N-N 四类,无法直观地解释知识的本质类型特点。认知科学对人类知识类型进行总结为树状关系(表示实体间的层次分类关系)、二维网格关系(表示现实世界的空间信息)、单维顺序关系(表示实体间的偏序关系)、有向网络关系(表示实体间的关联或因果关系)。
    • 多源信息融合的知识表示学习:主要考虑实体描述的知识表示学习模型,以及文本与知识库融合的知识表示学习。在多源信息融合的知识表示学习方面,还可对下列方面进行探索:(1)融合知识库中实体和关系的其他信息(如描述文本、层次类型等)(2)融合互联网信息(如文本、图像、音频、视频信息等)(3)融合多知识库信息。
    • 考虑复杂推理模式的知识表示学习:充分利用两实体间的关系和关系路径之间的推理模式,来为表示学习模型提供更精确的约束信息。实际上,关系路径只是复杂推理模式中的一种特殊形式,要求头实体和尾实体必须保持不变,具有局限性。如何总结和表示复杂推理模式、探索一阶逻辑的分布式表示并融合到知识表示学习中,是关键难题。
    • 面向大规模数据库的在线学习和快速学习:大规模知识库稀疏性很强,需要设计高效的在线学习方案。除了充分融合多源信息降低稀疏性之外,还可以探索如何优化表示学习的方式,借鉴课程学习和迁移学习等算法思想,进一步改善知识表示的效果。
    • 基于知识分布式表示的应用:知识表示学习还处于起步阶段,在知识获取、融合和推理等方向均有广阔的应用空间,需要在若干重要任务上探索和验证知识表示学习的有效性。目前,知识分布式表示的作用已经在信息抽取、自动问答、信息检索、推荐系统中得到初步验证,未来还需再更多任务上进行更加深入的探索。

复杂关系建模

  • TransE系列

    • 知识表示学习的代表模型。模型简单,在大规模知识图谱上效果明显,但模型过于简单,处理复杂关系效果不好。

    • 将知识库中的关系看作实体间的某种平移向量。

    • 与以往模型相比,TransE模型参数较少,,计算复杂度低,能直接建立实体和关系之间的复杂语义练习。

    • TransH:为解决TransE模型在处理1-N、N-1、N-N复杂关系时的局限性,提出让一个实体在不同关系下用于不同表示。

    • TransR:进一步认为不同的关系拥有不同的语义空间,对每个三元组应首先将实体利用矩阵投影到对应关系空间,再建立从头实体到尾实体的翻译关系。针对在知识库中实体的异质性和不平衡性,还有TransR中矩阵参数过多的问题。

    • TransD和TranSpace:对TransR模型中的投影矩阵进一步优化。

    • TransG和KG2E:提出利用高斯分布来表示知识库中的实体和关系,可在表示过程中考虑实体和关系本身语义上的不确定性。

多源信息融合

  • 现有的知识模型仅利用知识图谱的三元组结构信息进行表示学习,尚有大量与知识有关的其他信息没有得到有效利用。充分融合多元异质信息,实现知识表示学习,可以改善数据稀疏问题,提高知识表示的区分能力。
  • 考虑实体描述的知识表示学习模型DKRL
    • 在知识学习中考虑Freebase等知识库中提供的实体描述文本信息。
    • 在文本方面DKRL考虑了CBOW和卷积神经网络两种模型,CBOW将文本中的词向量简单相加作为文本表示,优势在于除了能提升实体表示的区分能力外,还能实现对新实体的表示;卷积神经网络能够考虑文本中的词序信息。
  • 考虑文本数据的知识表示学习
    • 实现文本与知识库融合的表示学习。
    • 利用word2vec学习维基百科中的词表示,利用TransE学习知识库中的知识表示,然后利用维基百科正文中的链接信息(锚文本与实体的对应关系),让文本中实体对应的词表示与知识库中的实体尽可能接近。
    • 这种方法也可用于融合实体描述学习。

关系路径建模

  • 知识图谱中多步的关系路径能反映实体之间的语义关系。
  • 对关系路径进行建模,关系路径的表示学习也被用来进行基于知识库的自动问答。
  • PTransE
    • 以TransE为扩展基础,TransE等模型孤立学习每个三元组具有局限性。
  • 实验表明,考虑关系路径能极大提升知识表示学习鞥带区分性,提高在知识图谱补全等任务上的性能。

3、实体识别与链接

  • 实体是文本中承载信息的重要语言单位,一段文本的语义可以表述为其包含的实体及这些实体相互之间的关联和交互。
  • 实体是知识图谱的核心单元,一个知识图谱通常是一个以实体为节点的巨大知识网络,包括实体、实体属性以及实体之间的关系。
  • 实体分为限定类别的实体(如常用的人名、地名、组织机构等)以及开放类别实体(如药物名称、疾病等名称)。
  • 实体识别是识别文本中指定类别的实体,是文本意义理解的基础。
  • 命名实体识别是指识别文本中的命名性实体,并将其划分到指定类别的任务。
  • 实体链接是识别出文本中提及实体的词或者短语(称实体提及),并于知识库中对应实体进行链接(也通常称为实体消歧),即将文本中的实体名指向其代表的真实世界的任务,主要解决实体名的歧义性和多样性问题。
  • 实体识别与链接是海量文本分析的核心技术,为解决信息过载提供了有效手段,作为知识图谱的基本单元,实体识别与链接是知识图谱构建和补全的核心技术。
    • 实体识别技术检测文本中的新实体,并将其加入到现有知识库中。
    • 实体链接技术通过发现现有实体再文本中的不同出现,可以针对性地发现关于特定实体地新知识。
  • 实体识别与链接的研究将为计算机类人推理和自然语言理解提供知识基础。
  • 实体识别与链接处理各种非结构化/半结构化的输入(如文本、新闻网页、商品页面、微博、论坛页面等),使用多种技术(统计方法、深度学习方法、知识挖掘方法),提取各种类型的实体(如人名、地名、商品、药物等),并将这些信息与现有知识图谱进行集成(实体链接)。
    • 实体识别。命名实体识别的目的是识别文本中指定类别的实体。命名实体识别系统通常包含两个部分:实体边界识别和实体分类。其中实体边界识别判断一个字符串是否组成一个完整实体,而实体分类将识别出的实体划分成到预先给定的不同类别中。命名实体识别的难点在于表达不规律、且缺乏训练预料的开放域命名实体识别。
    • 实体链接。实体链接的目的是将实体提及与知识库中对应实体进行链接。一个实体链接系统包括如下研究内容:(1)识别文档中的目标提及;(2)针对每一个提及,识别该提及在知识图谱中可能指向的候选目标实体; (3)基于提及的上下文等信息对目标实体进行排序;(4)空提及检测与聚类。
  • 概括来说,实体分析任务主要面临以下几个关键科学问题:实体名的歧义性和多样性、资源缺乏问题和实体的开放性问题。
  • 目前已经有许多方法被提出用于实体识别和链接。根据模型的不同,实体分析方法可以分为基于统计模型的方法、基于深度学习的方法和基于文本挖掘的方法;根据对监督知识的依赖,可以划分为无监督方法、弱监督方法、知识监督方法和有监督方法。
  • 实体识别的发展方向包括:融合先验知识的深度学习模型、资源缺乏环境下的实体分析技术、面向开放域的可扩展实体分析技术等。
    • 融合先验知识的深度学习模型:一方面,之前的传统统计模型中已经证明许多先验知识对于实体识别和链接任务的有效性;另一方面,现有深度模型在进行实体分析时仍然是一个黑箱模型,导致其可解释性不强,且难以采用增量的方式构建模型。
    • 资源缺乏环境下的实体分析技术:目前,绝大部分实体分析研究集中在构建更精准的模型和方法,这些方法通常面向预先定义好的实体类别,使用标注语料训练模型参数。然而,在构建真实环境下的信息抽取系统时,这些有监督方法往往具有如下不足:1)现有监督模型在更换语料类型之后,往往会有一个大幅度的性能下降;2)现有监督模型无法分析目标类别之外的实体;3)现有监督模型依赖于大规模的训练语料来提升模型性能。相关研究方向包括:构建迁移学习技术,充分利用已有的训练语料;研究自学习技术,在极少人工干预下构建高性能的终生学习信息抽取系统; 研究增量学习技术,自动的重用之前的信息抽取模块,使得不同资源可以逐步增强,而不是每次都重头开始训练;研究无监督/半监督/知识监督技术,探索现有有监督学习技术之外的有效手段,解决标注语料瓶颈问题。
    • 面向开放域的可扩展实体分析技术:现有实体分析系统往往针对新闻文本,对其它情境下的研究不足。构建面向开放域的可扩展实体分析技术,具体包括:1)数据规模上的可扩展性:信息抽取系统需要能够高效的处理海量规模的待抽取数据;2)数据源类型上的可扩展性:信息抽取系统需要能够在面对不同类型数据源时取得鲁棒的性能;3)领域的可扩展性:信息抽取系统需要能够方便的从一个领域迁移到另一个领域;4)上下文的可扩展性:实体分析系统需要能够处理不同的上下文,并针对不同上下文的特定自适应的改进自身。

传统统计模型方法

  • 实体识别。基于统计模型的方法通常将实体识别任务形式化为文本输入到特定目标结构的预测,使用统计模型来建模输入与输入之间的关联,并使用机器学习方法来学习模型的参数。
  • 实体链接。实体链接的核心是计算实体提及和知识库中实体的相似度,并基于上述相似度选择特定实体提及的目标实体。上述过程的核心再与挖掘可用于识别提及目标实体相互关联的证据信息,将这些证据表示为供计算机处理的形式,并构建高性能的算法来综合不同的证据进行链接决策。目前主要使用的证据信息包括实体统计信息、名字统计信息、上下文词语分布、实体关联度、文章主体等信息。同时考虑到一段文本中实体之间的相互关联,相关的全局推理算法也被提出来寻找全局最优决策。
  • 传统统计模型的主要缺点在于需要大量的标注语料来学习,这导致构建开放域或Web环境下的信息抽取系统时往往会遇到标注语料瓶颈。为解决上述问题,近年来已经开始研究高效的弱监督或无监督策略,如半监督算法、远距离监督算法、基于海量数据冗余性的自学习方法等等。
  • 传统统计模型的另外一个缺点是其需要人工构建大量的特征,其训练并非一个端到端的过程。
  • 为解决上述问题,越来越多深度学习模型被用于实体识别和链接。

深度学习方法

  • 实体识别。目前存在两类用于命名实体识别的典型深度学习架构:NN-CRF架构和采用滑动窗口分类的思想。
    • NN-CRF架构中,CNN.LSTM被用来学习每一个词位置处的向量表示,基于该向量表示,NN-CRF解码该位置处的最佳标签。
    • 采用滑动窗口分类的思想,使用神经网络学习句子中的每个ngram的表示,然后预测该ngram是否是一个目标实体。
  • 实体链接。实体链接的核心是构建多类型多模态上下文及知识的统一表示,并建模不同信息、不同证据之间的相互交互。通过将不同类型的信息映射到相同的特征空间,并提供高效的端到端训练方法,深度学习方法给上述任务提供了强有力的工具。目前相关工作包括多源异构证据的向量表示学习、以及不同证据之间相似度的学习等工作。
  • 相比传统统计方法,深度学习方法的主要优点是其训练是一个端到端的过程,无需人工定义相关的特征。
  • 深度学习方法的另一个优点是深度学习可以学习任务特定的表示,建立不同模态、不同类型、不同语言之间信息的关联,从而取得更好的实体分析性能。
  • 目前,如何在深度学习方法中融入知识指导(如语言学结构约束、知识结构)、考虑多任务之间的约束、以及如何将深度学习用于解决资源缺乏问题(如构建语言无关的命名实体识别)是当前的工作的热点。

文本挖掘方法

  • 传统统计方法和深度学习方法都需要大量训练语料和预先明确定义的目标实体类别,无法处理大数据环境下的开放实体分析任)。除了非结构化文本之外,Web中往往还存在大量的半结构高质量数据源,半结构Web数据源上的语义知识获取,往往采用文本挖掘的方法。
  • 文本挖掘方法的核心是构建从特定结构构建实体挖掘的特定规则,规则本身带有的不确定性和歧义性会导致目标结构有一定噪音,文本挖掘方法往往基于特定算法对语义知识进行评分和过滤。
  • 仅仅依靠结构化数据挖掘无法覆盖人类的大部分语义知识:首先,绝大部分结构化数据源中的知识都是流行度高的知识,对长尾 知识的覆盖不足;此外,人们发现现有结构化数据源只能覆盖有限类别的语义知识,相比人类的知识仍远远不够。因此,如何结合文本挖掘方法(面向半结构化数据,抽取出的知识质量高但覆盖度低)和文本抽取方法(面向非结构化数据,抽取出的知识相比文本挖掘方法质量低但覆盖度高)的优点,融合来自不同数据源的知识,并将其与现有大规模知识库集成,是文本挖掘方法的研究方向之一。

4、实体关系学习

  • 关系定义为两个或多个实体之间的某种练习。
  • 实体关系学习就是自动从文本中检测和识别出实体之间具有的某种语义关系,也称为关系抽取。关系抽取的输出通常是一个三元组(实体1,关系,实体2).
  • 关系抽取是知识图谱构建和信息抽取中的一个关键环节,其应用主要表现在:
    • 大规模知识图谱的自动构建:利用关系抽取技术可以根据结构化的抽取结果自动生成(典型的例子有Freebase、Yago和BDpedia)。
    • 为其他信息获取技术提供支持:(1)对信息检索提供支持:可以对复杂的查询进行关联搜索和推理,提供智能检索结果。(2)对问答系统提供支持:在问答中,关键步骤是建设一个领域无关的问答类型体系并找出与问答类型体系中每个问答类型相对应的答案模式,这就需要关系抽取技术的支持。 (3)自然语言理解:关系抽取是篇章理解的关键技术,运用语言处理技术可以对文本的核心 内容进行理解,语义关系抽取的研究将成为从简单的自然语言处理技术到真正的自然语言理解应用之间的一个重要纽带,能改进自然语言处理领域的很多任务的性能,如实体链接和机器翻译等。
  • 关系抽取系统处理各种非结构化/半结构化的文本输入(如新闻网页、商品页面、微博、论坛页面等),使用多种技术(如规则方法、统计方法、知识挖掘方法),识别和发现各种预定义类别和开发类别的体系。根据关系类别是否预定义,目前关系抽取的核心研究内容可以划分为限定域关系抽取和开放域关系抽取。
    • 限定域关系抽取。系统所抽取的关系类别是预先定义好的,在限定域关系抽取中关系的类别一般是人工定义或者从现有知识图谱中自动获取,主要研究如何利用有监督或弱监督的方法抽取预定义的实体关系知识,在有监督方法中集中于如何挖掘更多能表征相应语义关系的特征,在弱监督方法中集中于如何降低自动生成的语料中的噪声。
    • 开放域关系抽取。又称开放式关系发现,不预先定义抽取的关系类别,由系统自动从文本中发现并抽取关系。利用关系指示词代表关系的类型,主要研究如何利用无监督的方法自动抽取关系三元组。
  • 关系抽取目前主要面临如下三个挑战:自然语言表达的多样性、关系表达的隐含性和实体关系的复杂性。
  • 现有的关系抽取方法可以从不同维度进行划分,根据关系类型,关系抽取可以分为限定域关系抽取和开放域关系抽取;根据关系抽取的方法可以分为基于规则的方法和基于机器学习的方法;根据对于监督知识的依赖,关系抽取可以分为有监督关系抽取、无监督关系抽取和弱监督知识抽取。
  • 关系抽取的发展方向如下:面向开放域的可语义化的关系抽取技术、篇章级的关系抽取、具有时空特性的多元关系抽取。
    • 面向开放域的可语义化的关系抽取技术:在构建真实环境下的关系抽取系统时,有监督方法往往存在如下不足:1)更换语料类型之后,现有模型往往会有一个大幅度的性能下降;2)无法抽取目标关系类别 之外的实体关系知识;3)性能依赖于大规模的训练语料;4)现有监督模型往往依赖于高复杂度的自然语言处理应用,如句法分析。
    • 篇章级的关系抽取:现有大多数的关系抽取集中在从包含两个指定实体的一个或者多个句子中抽取关系,很少有工作将抽取范围扩大到篇章级别,真实环境下,一篇文章会描述多个实体的多个属性或者关系,而且文本中存在大量的零指代的语言现象,因此必须利用篇章级的信息进行关系和属性值的抽取。
    • 具有时空特性的多元关系抽取:二元关系很难表达实体关系的时间特性和空间特性,而且很多关系是多元的,具有时空特性的多元关系能建模和表达更丰富的关系知识,是未来研究的一个方向。

限定关系抽取和开放域关系抽取

限定域关系抽取

  • 是指指系统所抽取的关系是预先定义好的,因为预定义关系的个数是有限的,可以将关系抽取任务视为多分类任务,其中每个关系为一个类别。
  • 可以抽取语义化的实体关系三元组,可以方便的用于辅助其他任务。

开放域关系抽取

  • 开放域关系抽取是指不预先定义关系,由系统自动从文本中发现、抽取关系。
  • 难以抽取语义化三元组。
  • 开放域关系抽取是为了处理大量异构数据,其抽取的关系类型不受限制,数量也不定。目的是处理单个句子,将其变成三元组样式的结构化表示。
  • 现有的方法都是开放域的不限制关系的类别,因此抽取出的关系缺乏语义信息,同一类关系会出现多种不同的抽取结果。

基于规则的关系抽取和基于机器学习的关系抽取

基于规则的关系抽取

  • 是指首先由通晓语言学知识的专家根据抽取任务的要求设计出一些包含词汇、句法和语义特征的手工规则(或称模式),然后在文本分析的过程中寻找与这些模式相匹配的实例,从而推导出实体之间的语义关系。
  • 基于手工规则的方法需要领域专家构筑大规模的知识库,这不但需要有专业技能的专家,也需要付出大量劳动,因此这种方法的代价很大。知识库构建完成后,对于特定的领域的抽取具有较好的准确率,但移植到其他领域十分困难,效果往往较差。因此这种方法在可移植性方面存在着明显的不足。

基于机器学习的关系抽取

  • 按照机器学习方法对语料库的不同需求导致可分成三大类:无监督关系抽取、有监督关系抽取、弱监督关系抽取。
    • 无监督关系抽取:希望把表示相同关系的模版聚合起来,不需要人工标注的数据。
    • 有监督关系抽取:使用人工标注的训练语料进行训练。有监督关系抽取目前可以取得最好的抽取效果,但是由于其需要费时费力的人工标注。
    • 弱监督关系抽取:有学者提出了利用知识库回标文本来自动获得大量的弱监督数据。目前弱监督关系抽取是关系抽取领域的一大热点。
  • 无监督关系抽取
    • 主要基于分布假设,分布假设的核心思想是:如果两个词的用法相似及出现在相同上下文中,那么这两个词就意思相近。相应的,在实体关系抽取中,如果两个实体对具有相似的语境,那么这两个实体对倾向于具有相同的语义关系,基于此理论,无监督关系抽取将两个实体的上下文作为表征语义关系的特征。
    • 无监督关系抽取的核心是选取表示实体之间关系的特征,然后再聚类。
    • 无监督关系抽取方法可以发现新的关系,但其发现的新的关系往往是相似模板的聚类,其缺点是得到的关系不具语义信息,难以规则化,很难被用来构建知 识库,如果需要得到语义关系,需要通过将其同现有知识库的关系进行对齐,或者通过人工的方式来给每个聚类关系簇赋予语义信息。
  • 有监督关系抽取
    • 在使用有监督的方法解决关系抽取问题时,一般将关系抽取看作是一个多分类问题,提取特征向量后再使用有监督的分类器进行关系抽取,有监督的方法性能较好。
    • 有监督关系抽取可以分为:基于特征向量的方法、基于核函数的方法和基于神经网络的方法。
    • 基于特征向量的方法特点是需要显式地将关系实例转换成分类器可以接受的特征向量,其研究重点在于怎样提取具有区分性的特征,通过获取各种有效的词汇、句法和语义等特征,然后有效地集成起来,从而产生描述关系实例的各种局部和全局特征。基于特征向量的方法尽管速度很快,也比较有效,但其缺点是在转换结构化特征时需要显式地给出一个特征集合,由于实体间语义关系表达的复杂性和可变性,要进一步提高关系抽取的性能已经很困难了,因为很难再找出适合语义关系抽取的新的有效的词汇、句法或语义特征。
    • 基于核函数的方法不需要构造固有的特征向量空间,能很好地弥补基于特征向量方法的不足。在关系抽取中,基于核函数的方法直接 以结构树为处理对象,在计算关系之间的距离的时候不再使用特征向量的内积而是用核函数,核函数可以在高维的特征空间中隐式地计算对象之间的距离,不用枚举所有的特征也可以计算向量的点积,表示实体关系很灵活,可以方便地利用多种不同的特征,使用支持核函数的分类器进行关系抽取。
    • 基于神经网络的方法:目前大部分学者关注于如何更好的用深度学习模型建模句子。此类方法一般默认句子中已经标记出了候选实体,但是实际任务中,需要系统自动发现实体。而且此类方法需要大量的人工标注的语料作为训练数据才能取得较好的性能。
  • 弱监督关系抽取
    • 有监督关系抽取需要大量的标注样本,而人工标注数据费时费力、一致性差,尤其是面向海量异构的网络数据时,问题就更加明显,为此,研究人员提出弱监督关系抽取。
    • 弱监督关系抽取主要有两种框架,一种是使用半监督学习和主动学习等技术以尽可能少的代价提升抽取效果;另外一种框架是使用回标的思想,利用现有知识库中的关系三元组,自动回标三元组中实体所在的文本作为训练数据,由于其训练数据产生过程不需要人工标注,所以这种方法代价很低,更加适合大规模多领域的网络文本,它在信息抽取领域近年来得到较广泛的应用。
    • 弱监督回标主要基于以下假设:如果两个实体在知识库中具有一定的关系,那么根据同时包含这两个实体的句子,就都能推断出实体对在知识库中具有的关系。由于语言表达的多样性,弱监督的这种假设往往太过强烈,两个实体出现在同一个句子中并不能表示它们就一定具有某种语义关系,从而带来回标噪声问题。
  • 目前,基于机器学习的关系抽取方法占据了主导地位。然而,无监督的关系抽取得到的知识缺乏语义信息、很难归一化;有监督关系抽取中需要大量人工标注的高质量数据作为训练语料,人工标注耗时费力成本高,所以很难大规模推广;弱监督关系抽取虽然可以自动生成大规模训练语料,但是自动生成训练语料的过程中需要大规模的已有知识图谱作为种子,而且生成的语料中会有噪音数据。

5、事件知识学习

(1)事件

  • 事件(Event)的概念起源于认知科学,事件是促使事物状态和关系改变的条件,是动态的、结构化的知识,在计算机科学的范畴内最常用的事件定义有如下两种,针对不同领域的不同应用:
    • 一种源自信息抽取领域,将事件定义为发生在某个特定的时间点或时间段、某个特定的地域范围内,由一个或者多个角色参与的一个或者多个动作组成的事情或者状态的改变。
    • 一种源自信息检索领域,将事件认为是细化了的主题,是由某些原因、条件引起,发生在特定时间、地点,涉及某些对象,并可能伴随某些必然结果的事情。
  • 事件是对现有知识资源的重要补充,目前已存在的知识资源所描述实体及实体间关联关系大多是静态的,事件能描述力度更大的、动态的、结构化的知识。

(2)事件知识学习

  • 事件知识学习,即将非结构化文本中自然语言所表达的事件以结构化的形式呈现。

    • 信息抽取领域的事件知识学习相关研究为事件的识别与抽取。
    • 信息检索领域的事件知识学习相关研究为事件的检测与追踪。
  • 事件的识别与抽取研究如何从描述事件信息的文本中识别并抽取出事件信息并以结构化的形式呈现出来,包括发生的时间、地点、参与角色以及与之相关的动作或者状态的改变,核心概念如下:

    • 事件描述。客观发生具体事件的自然语言描述,通常是一个句子或者句群。同一个事件可以有很多不同的事件描述,可能分布在同一文档的不同位置或不同的文档中。
    • 事件触发词。事件描述中最能代表事件发生的词,是决定事件类别的重要特征,在ACE评测中事件触发词一般为动词或名词。
    • 事件元素。事件的参与者,是组成事件的核心部分,与事件触发词构成了事件的整个框架。事件元素与主要由实体、时间和属性值等表达完整语义的细粒度单位组成。
    • 元素角色。事件元素与事件之间的语义关系,也就是事件元素在相应事件中扮演什么角色。
    • 事件类型。事件元素和触发词决定了事件的类别。很多评测和任务均指定了事件类别和相应模板,方便元素识别及角色判定。
  • 事件的检测与追踪旨在将文本新闻流按照其报道的事件进行组织,为传统媒体多种来源的新闻监控提供核心技术,以便让用户了解新闻及其发展。事故发现与跟踪包括三个主要任务:分割、发现和跟踪,将新闻文本分解为事件、发现新的(不可预见的)事件、跟踪以前报道事件的发展。事件的发现任务又可以细分为历史事件发现和在线事件发现两种形式,前者目标是从按照事件排序的新闻文档中发现以前没有识别的事件,后者则是从实时新闻流中实时发现新的事件。

  • 事件知识学习具有公开评测和数据集。

  • 事件知识学习是一项综合研究,需要比较深入的自然语言处理方向和技术作为支撑,相较于其他抽取和识别任务(如实体识别、关系抽取),事件识别和抽取的难点主要表现在如下几个方面(事件的检测和追踪虽然着眼点比事件识别和抽取稍显宏观,但这些层面的挑战是高度统一的):

    • 认知层面。事件具有复杂的内部结构,涉及更多的实体和值,并且事件中各个元素间具有复杂关系和结构。
    • 语言层面。事件的表述是灵活的、具有歧义的。
    • 方法层面。事件抽取会遇到错误累计的问题,低性能的工具引入的错误会降低事件抽取系统的性能。
    • 语料层面。标注语料规模小、数据稀疏。
  • 事件识别和抽取的发展趋势表现在如下方面:从分步抽取到联合抽取、从局部信息到全局信息、从人工标注到半自动生成语料。

    • 从分步抽取到联合抽取:事件抽取的目标往往是很多样的,通常均会将任务拆分为几个步骤完成,从更高层面上讲,其他信息抽取任务(如实体抽取、关系抽取)也可以和事件抽取进行联合学习,在之后的研究过程中,联合抽取以避免分步噪音积累的思路一定会更加普遍。
    • 从局部信息到全局信息:事件抽取研究初期更多的考虑是当前词自身的特征,但研究者逐渐开始利用不同词之间的联系,从而获取更多的全局信息来完成事件抽取任务,事件抽取考虑的信息会越来越多样化和全局化。
    • 从人工标注到半自动生成语料:目前的语料多是英文语料,中文和其他语言的语料非常稀少。且由于事件本身的复杂程度,人工标注大量的语料十分困难。越来越多的学者开始思考如何利用现有的语料迭代生成更多语料。目前主流的解决思路是利用英文语料辅助另一种语言语料的生成,做跨语言迁移学习。另一种可能的解决思路是借鉴外部知识来自动扩展语料。
  • 事件检测和追踪的发展趋势表现在如下方面:非参数化、多流交互。

    • 非参数化:放宽对话题数目的限制。
    • 多流交互:多数据流共同建模,有效利用不同数据间的互补信息。

事件识别与抽取

  • 根据抽取方法,事件抽取可以分为基于模式匹配的事件抽取和基于机器学习的事件抽取。
  • 基于模式匹配的方法
    • 是指对某种类型事件的识别和抽取是在一些模式的指导下进行的,模识匹配的过程就是事件识别和抽取的过程。
    • 采用模式匹配的方法进行事件抽取的过程一般可以分为两个步骤:模式获取和模式匹配。
    • 模式准确性是影响整个方法性能的重要因素,按照模式构建过程中所需训练数据的来源可细分为基于人工标注语料的方法和弱监督的方法。 基于人工标注语料的方法的模式完全基于人工标注的语料,学习效果高度依赖人工标注质量;弱监督的方法不需要对语料进行完全标注,只需人工对语料进行一定的预分类或指定种子模式,由机器根据预分类语料或者种子模式自动进行模式学习。
    • 总体而言,基于模式匹配的方法在特定领域中性能较好,知识表示简洁,便于理解和后续应用,但对于语言、领域和文档形式等均有不同程度的依赖,覆盖度和可移植性较差
  • 基于机器学习的方法
    • 基于机器学习的方法建立在统计模型基础上,一般将事件抽取建模成多分类问题,因此研究的重点在于特征和分类器的选择。根据利用信息的不同可以分为基于特征、基于结构和基于神经网络三类主要方法。
    • 基于特征的方法研究重点在于于如何提取和集成具有区分性的特征,从而产生描述事件实例的各种局部和全局特征,作为特征向量输入分类器。该类方法多用于阶段性的管道抽取,即顺序执行事件触发词识别和元素抽取,从特征类型(或来源)上又可细分为利用句子级信息的方法和利用篇章级信息的方法。
    • 基于结构的方法:与基于特征适用的阶段性的管道抽取不同,基于结构的方法将事件结构看作依存树,抽取任务则相应地转化为依存树结构预测问题,触发词识别和元素抽取可以同时完成。
    • 基于神经网络的方法:上述两种方法在特征提取的过程中都依赖依存分析、词性标注、句法分析等传统的自然语言处理工具,容易造成误差累积,而且有很多语言没有自然语言处理工具,基于神经网络可以取得很好的性能。
    • 弱监督的方法:上述方法无一例外地需要大量的标注样本,而人工标注数据耗时费力、一致性差,尤其是面向海量异构的网络数据时,问题就更加明显。而无监督方法得到 的事件信息没有规范的语义标签(事件类别,角色名称等),很难直接映射到现 有的知识库中。因此,弱监督方法也是事件抽取中的一个重要分支。目前基于弱监督的事件抽取方法还处于起步阶段,亟需能自动生成大规模的、高质量的标注数据的方法提升事件抽取的性能。
  • 中文事件的抽取
    • 目前国内外事件抽取相关的研究大部分都是面向英文文本的英文事件抽取,面向中文文本的中文事件抽取工作才刚刚起步,主要面临技术和数据两方面的挑战。
    • 技术层面,中文的词句是意合的,词语间没有显式分隔符,而且中文实词在时态和形态上也没有明显变化,因此面向中文的事件抽取研究在基础自然语言处理层面具有天然的劣势。数据层面,由于起步较晚,缺乏统一的、公认的语料资 源和相关评测,极大制约了中文事件抽取的研究。尽管如此,近些年中文事件抽取在公开评测、领域扩展和跨预料迁移方面也取得一定进展。

事件检测与追踪

  • 事件检测和追踪研究的主流方法包括基于相似度聚类和基于概率统计两类。
  • 相似度聚类法
    • 基于相似度的方法首先需要定义相似度度量,而后基于此进行聚类或者分类。
    • 总体而言,基于相似度的模型用途广泛,计算速度通常比较快,但缺乏对于统计规律的利用。
  • 概率统计法
    • 概率统计方法通常使用生成模型,由于需要大量数据的支持,所以这种方法更加适用于历史事件检测。对比基于相似度聚类的模型,这类模型虽然复杂,但当数据量充足时,通常可以取得更好的准确率。
    • 基于概率的方法是目前 TDT 中的研究热点,主要分成两个方向,一是针对新闻等比较正式的规范文档,另一个则用于不规则或没有规律的非规范文档。对新闻等规范文档,文中一般包含有完整的时间、地点、人物等信息,找出这些要素可以帮助建立新闻之间的关联;不规范文档方面,算法经常是基于 LDA 等主题模型的变体建立文档间的联系。

事件知识库构建

  • 已有的知识图谱均侧重于实体的客观属性及实体间的静态关联,缺乏结构化的事件数据。事件知识学习的最终目的就是从非结构化的文本数据中抽取结构化的事件表示,构建事件知识库 弥补现有知识图谱的动态事件信息缺失问题。目前事件知识库构建的研究处于起步阶段,基础就是上述两方面研究,基于句子级的事件抽取和文档级的事件发现。

详情请参考《KGDevReport2018知识图谱》

你可能感兴趣的:(知识图谱构建技术)