《知识图谱》赵军 阅读笔记(三)——第三章 知识体系构建和知识融合

第三章 知识体系构建和知识融合 阅读笔记

  • 3.1 知识体系构建
    • 3.1.1 人工构建方法
        • 3.1.1.1 确定任务及领域
        • 3.1.1.2 体系复用
        • 3.1.1.3 罗列要素
        • 3.1.1.4 确定分类体系
        • 3.1.1.5 定义属性及关系
        • 3.1.1.6 定义约束
    • 3.1.2 自动构建方法
        • 3.1.2.1 基于非结构化数据的知识体系学习
        • 3.1.2.2 基于结构化数据的知识体系学习
        • 3.1.2.3 基于半结构化数据的知识体系学习
    • 3.1.3 经典知识体系
  • 3.2 知识融合
    • 3.2.1 框架匹配
    • 3.2.2 实体对齐
    • 3.2.3 冲突检测与消解

事实上,知识图谱不仅包含具体的实例知识数据,还包括了对知识数据的描述和定义,这部分对数据进行描述和定义的“元”数据被称为知识体系(Schema)或者本体(Ontology)。能够以一种统一的形式(三元组形式)表示实例型数据和描述型数据,是知识图谱得以广泛应用的重要特点。
知识融合通过框架匹配和实例对齐,把分散的知识资源联合起来,可以极大的增加知识图谱的覆盖领域和共享程度。

3.1 知识体系构建

知识体系个方面核心内容:
1.对概念的分类
2.概念属性的描述
3.概念之间相互关系
知识体系的基本形态的五个层次:

词汇
概念
分类关系
非分类关系
公理

3.1.1 人工构建方法

知识体系具有很高的抽象性以及盖过去。目前高质量的知识体系只能通过人工构建。
固件试试。体系的过程可以分为如下六个主要阶段。
确定任务及领域;体系复用;罗列要素;确定分类体系;定义属性及关系;定义约束。以上六个阶段,在实践中并非严格的线性关系,有时需要回退到更早的阶段。

3.1.1.1 确定任务及领域

知识图谱作为人工智能应用的基础设施,其构建过程不能不了解具体的应用任务,也不能抛开领域建立一个高大全的、无法被广泛使用的产品。
事实上。知识体系与具体的领域密切相关。因此,在创建知识体系之前,首先应该确定知识图谱面向的领域,限定知识体系应该包含的知识范围,在领域内构建出各种各样的知识体系。
如果想要构建更为合适的体系,需要回答以下几个问题:
1、我们为什么要使用这个知识体系
2、这种知识体系呢个构帮助回答哪些类型的问题
3、谁会使用并维护这个知识体系
这些问题应该贯穿于知识体系构建的每一个阶段,并且随着体系构建的推荐,我们可能会对上述问题有更加深入的认知,原来的答案可能会被推翻。

3.1.1.2 体系复用

知识体系具有很强的抽象性和概括性,从零开始构建不仅成本高,而且质量难以保证。事实上,在具体实践时很多项目选择,先构建一个轻量级的知识体系,然后尽可能基于他们进行扩展。因此真正进行构建之前,应该广泛调研现有的第三方知识体系和与之相关的资源,尽可能多的参考前人已有的成果。
这些资源主要包括以下几种:
1、领域词典:一些领域的专家会编撰领域内的词典。这些词典在构建限定领域的知识体系时,具有重要的参考价值。
2、语言学资源:在自然语言处理领域,有很多语言资源可以用于帮助知识体系的构建。
3、开源知识图谱:现有大规模开源知识图谱已经在第一张进行了介绍。这些知识图谱的知识体系都是由专家人工制定的,具有较高的质量,并且涵盖的领域非常广泛,对于定制新的知识体系具有较高的参考价值。
4、网络百科:网络百科是成千上万用户共同编辑走到的,其中包含的知识非常广泛,它的更新和知识添加都十分及时。但是由于歧视开放编剧的。其可信度可能会有所下降。

3.1.1.3 罗列要素

根据我们所确定的领域,罗列期望在知识图谱中出现的要素列表,主要包括概念,属性以及关系。这一步实际上是为后续步骤准备原材料,因此不需要对上述概念进行清晰的分类,只需要尽可能多地罗列出期望的元素即可。

3.1.1.4 确定分类体系

确定了相关要素之后,需要将其中表示概念的要素,组织生成层级结构的分类体系。构建过程中主要有两种方式。他们分别是自顶向下方法和自底向上方法。

3.1.1.5 定义属性及关系

定义了知识图谱的分类体系后,需要为其中的每一个类别定义属性以及关系。属性用于描述概念的内在特征,关系用于刻画不同概念之间的关系,属性的定义需要受到分类体系的约束,下层类别必须继承上所有上层类别的属性。

3.1.1.6 定义约束

不同属性和关系具有不同的值域和定义域。这一些约束主要是用来保证数据的一致性,避免异常值的出现。

3.1.2 自动构建方法

人工构建知识体系是一个耗时、昂贵、高度技巧化的任务,并且构建的过程繁琐而枯燥,很容易出错,因此自动地从数据中学习知识体系具有重要的意义。在不同数据源上学习知识体系需要不同的技术,根据数据员结构化程度的不同,知识体系的学习技术可以分为三大类:基于非结构化数据的知识体系学习、基于结构化数据的知识体系学习和基于半结构化数据的知识体系学习。其中,后两类研究工作较少,他们大部分采用与人工构建结合的方式工作。

3.1.2.1 基于非结构化数据的知识体系学习

非结构化数据通常指文本数据。例如新闻报道等。基于文本数据构建知识体系,也称为基于文本的本体学习,这类方法的基本思想是:首先利用自然语言处理工具对文本进行分词、句法分析、命名实体识别等预处理操作,然后利用模板匹配,统计学习等手段,从文本中抽取重要信息,主要包括领域概念,实例以及概念之间的关系。概括来说。基于非结构化文本的知识体系,学习方法,主要包括以下的三个主要步骤:
一、领域概念抽取。二、分类体系构建;三、概念属性及关系抽取。

一、领域概念抽取
这一主要步骤的目标是从文本数据中抽取出构建知识体系所需的关键元素,包括实体类型名,属性名,关系名等,这些关键元素称为该领域的术语。术语的抽取主要分为如下三步,
第一,抽取候选术语;第二,术语过滤;第三,术语合并。
二、分类体系构建;
构建分类体系,实际上是要获取不同概念之间的继承关系,语言学上称之为上下位关系,下位词世上为此概念的具体化。和同义词识别任务类似,基于词典的方法和基于统计的方法同样是解决上下位关系识别的主要方法。
三、概念属性及关系抽取。
属性和关系也可以看作是一种概念,因此属性及关系的抽取过程和概念的抽取过程类似。

3.1.2.2 基于结构化数据的知识体系学习

结构化数据是指具有严格定义模式的数据,主要指存储于关系数据库中的数据。
关系数据库采用关系模型对现实世界中的信息进行建模,这种模型具有两个明显的优点:1、首先是关系模型结构简单,便于理解,所以我的对象在关系数据库中都通过二维表格进行存储及表示。2、关系模型具有很强的理论基础,关系代数强有力的支持了关系模型,使得关系数据库能够得到广泛的应用。
目前,基于结构化数据知识体系学习的主要任务是分析关系模型中蕴含的语义信息,并将其映射到知识体系的相应部分。

3.1.2.3 基于半结构化数据的知识体系学习

半结构化数据和非结构化数据相比具有一定的模式,但这种模式并不严格,典型的半结构化数据有Xml格式的数据,Html格式的网页数据,以及他们遵守的文档类型定义。由于这类数据是介于结构化数据和非结构化数据之间的一类数据,因此上述两类方法也能够应用于该类数据。另外,机器可读的知识词典也是一种特殊的半结构化数据。

3.1.3 经典知识体系

SUMO
Schema.org
freebase(已经被关闭)
protege
常被应用于基于框架的知识表示模型,一般是先定义类,在定义类中的属性,最后定义类和属性的约束。

3.2 知识融合

随着互联网上只是数量的不断增长,多个垂直领域都形成了专业的领域知识库,例如IMDb就是电影领域的知识库,MusicBrianz是音乐领域的知识库。这些专业领域的知识库中包含很多通用知识库中没有的专业知识。大多数时候只有将这些知识库联合起来应用,才能够满足互联网用户跨领域的信息需求。
另一方面,从融合的知识图谱类型来看,知识融合包括竖直方向的融合和水平方向的融合。竖直方向的融合是指融合高层通用本体与底层领域本体或实例数据。水平方向的融合是指融合相同层次的知识图谱,如BabelNet融合不同语言的已购知识图谱,实现跨语言的知识关联和共享。
不同机构,不同个人都可以自由地构建所需知识图谱,各个知识图谱的数据来源非常广泛,其质量也会层次不齐,关注领域也不尽相同,知识图谱之间存在多样性以及异构性。知识融合通过对多个相关知识图谱的对齐、关联和合并,使其成为一个整体。按融合对象的不同分为框架匹配和实体对齐。
框架匹配是指对概念、属性、关系等知识描述体系进行匹配和融合。实体对齐是指对齐合并相同的实体完成知识融合。通过框架匹配和实力,对其可以把不同的知识图谱关联在一起,但是,多个知识图谱中的实例知识有时有冲突,需要对其检测和消解。

3.2.1 框架匹配

这是体系能够在认知和语义层次上对领域知识进行建模和表达,确定领域内共同认可的词汇,通过概念之间的关系来描述概念的语义,提供对领域知识的共同理解。框架匹配主要解决知识体系之间的异构性,是知识融合的重要组成部分。框架匹配也称为本体对齐。
按照使用技术的不同,框架匹配可以分为元素级匹配和结构级匹配。元素级匹配独立判断两个知识图谱中的元素是否应该匹配,不考虑其他元素的匹配情况。结构级匹配不把各个元素作为孤立的资源,而利用知识图谱的结构,在元素匹配过程中考虑其他相关元素匹配情况的影响。
1、元素级匹配
字符串匹配:
前缀距离,后缀距离,编辑距离和n元语法距离,但这种方法忽略了语言符号的多义性,一词多义和一义多词。
词向量
将词表示为低维语义向量空间的一个点,语义相似度用点之间的距离来衡量。与字符串相比,有更强的捕获词背后的真正语义的能力。
可将其与其他编辑距离等结合,混合方法获得了很好的性能。
2、结构级匹配
不同元素的匹配之间也会有影响,例如属性的定义域和值域匹配度高,属性匹配度也高。基本思想是:相似的概念具有相似的概念结构。
基于图的技术
基于分类体系的技术
基于统计分析的技术

3.2.2 实体对齐

知识库对齐的目标是能够链接多个异构知识库,并从顶层创建一个大规模的统一知识库,从而帮助机器理解底层数据。
实体对齐可分为成对实体对齐和协同实体对齐两类不同的算法。成对实体对齐表示独立地判断两实体是否对应同一物理对象,通过匹配实体属性等特征判断他们的对齐程度。协同实体对齐,认为不同实体间的对齐是相互影响的,通过协调不同对象间的匹配情况,可以达到一个全局最优的对齐结果。
目前基于表示学习方法被用于支持对其通过知识库联合表示学习,将多个知识库表示在同一语义向量空间中,把知识库实体对齐的过程转化为两个知识库中的实体相似度计算问题。这是故乡量化之后,将两个知识和在同一向量空间中相近的实体视为相同实体成为一个对齐,这种对齐方法被称为基于支持向量联合学习的对齐方法。这种方法的优点是,不需要依赖人工设定的规则和特征,也不需要了解知识库的命名习惯,这种方法适应性强,很容易迁移到不同语言,不同领域的知识库对齐任务中。

3.2.3 冲突检测与消解

在框架匹配和实体对齐的基础上,知识融合还需要解决不同实例间的冲突。不同知识库对实体“姚明”的属性“身高”描述不同,对于这种冲突的检测和消解是知识融合的重要步骤,是多个知识图谱形成一个一致结果的最后步骤。如果检测冲突并进行消解是知识融合任务的主要研究问题冲突识别最简单的方法就是发现对于同样的属性和关系有不同的实例真的,但是对于某些属性,这种策略不一定有效。最简单的例子就是不同人在不同年龄段的身高以及体重等信息。
对于冲突的处理,目前常见的三那策略是冲突忽略、冲突避免、冲突消解。冲突忽略顾名思义就是在遇到冲突时,对其进行忽略处理。冲突避免不解决冲突,而是使用规则或者约束,对于数据来源进行过滤。 冲突消解关注于如何利用知识图谱本身的特征来消解冲突,这也是目前的主要研究方向。
冲突消解按照使用技术可以分为如下两类,基于投票的方法和基于质量估计的方法。

你可能感兴趣的:(知识图谱学习)