知识图谱构建技术综述

《知识图谱构建技术综述》(刘 峤 李 杨 段 宏 刘 瑶 秦志光,电子科技大学)是博主在入门知识图谱时所看的综述文章之一,感谢刘知远老师在知乎的推荐。本文是读论文时所做的笔记。

1.知识图谱的定义和架构

1.1知识图谱的定义

  • 结构化的语义知识库
  • 对物理世界的符号表达
  • 构建在当前web基础之上的一层覆盖网络
  • 优化信息检索
    • 通过推理实现概念检索
    • 图形化展示经过分类整理的结构化知识

1.2知识图谱的架构

  • 逻辑结构
    • 数据层
      • 知识以事实为单位存放在图数据库
      • 事实的基本表达方式:实体~关系~实体 或 实体~属性~属性值
    • 模式层
      • 存储经过提炼的知识
      • 用本体库管理,本体库支持公理、规则和约束条件
  • 技术架构

知识图谱构建技术综述_第1张图片

  • 自顶向下的构建方式
    • 从百科类网站等结构化数据源提取模式和本体信息加入知识库
  • 自底向上的构建方式
    • 从公开采集的数据中提取资源模式,选择其中置信度较高的新模式,经人工审核加入知识库
    • 每一轮加入一条知识,每一轮有三步(见2.1-2.3)

2.知识图谱的构建技术(自底向上)

2.1信息抽取

  • 从半结构化或无结构数据源提取结构化信息即实体、关系、属性等,形成本体化的知识表达

2.1.1实体抽取(命名实体识别)

  • 历史
    • 单一领域知识:启发式算法~有监督的统计机器学习~有监督学习+规则即先验知识(最大熵算法)
    • 开放领域:人工建立命名实体分类体系并对实体自动分类

2.1.2关系抽取

  • 历史:人工构造语法和语义规则+模式匹配~用有监督机器学习对关系进行建模+最大熵算法~半监督机器学习(以上这些方法都需要预先建立关系的分类系统)~自监督学习(with少量人工标记语料库)~与单一领域算法结合~发掘隐含语义关系

2.1.3属性抽取

  • 从不同信息源中采集特定实体的属性信息
  • 可将属性抽取视为关系抽取
  • 历史:利用关系抽取的方法~基于规则的启发式算法从百科类网站(半结构化数据)提取

2.2知识融合

消除实体指称项与实体对象之间的歧义,得到一系列基本的事实表达

2.2.1实体链接

  • 把新抽取的实体对象(实体指称项)链接到知识库中正确的实体对象
  • 基本思路:从知识库选择一组候选实体对象,链接到相似度最高的那一个
  • 集成实体链接:利用实体的共现关系(即出现在同一文档且实体指称相同),同时将多个实体链接到知识库
  • 一般流程:

知识图谱构建技术综述_第2张图片

    • 实体消岐:在知识库中找到多个与指称项同名的实体时
      • 采用聚类法:以实体对象为聚类中心,将所有指向同一目标实体对象的指称项聚集到以该对象为中心的类别下。关键是定义相似度。
      • 如何定义相似度
        • 搜索中处理存在歧义的实体:用户输入一个指称项进行搜索,在推荐完与该指称项链接的实体相关的网页后,该优先哪个与该指称项同名的歧义实体呢?要对实体的重要性进行评估
        • 空间向量模型(词袋模型):由指称项周边的文本构成该指称项的特征向量,对指称项进行聚类
        • 语义模型:和词袋模型类似,只是特征向量还包含一部分语义特征
        • 社会网络模型(物以类聚人以群分,所以指称项的意义由与其相关联的实体决定):构建网络,以各指称项为节点,相关的指称项连边,把节点之间的拓扑距离看作指称项之间的相似度,再对指称项进行聚类
        • 百科知识模型:百科类网站通常会为每个实体(指称项)分配一个单独页面,其中包括指向其他实体页面的超链接,百科知识模型正是利用这种链接关系来计算实体指称项之间的相似度

 

    • 共指消解:多个指称项对应于同一个实体时
      • 别名:对象对齐、实体匹配、实体同义
      • 基于nlp的共指消解
        1. Hobbs算法:句法分析+语义分析
        2. 向心理论:将表达模式(utterance)视为语篇(discourse)的基本组成单元,通过识别表达模式中的实体,可以获得当前和后续语篇中的关注中心(实体),根据语义的局部连贯性和显著性,就可以在语篇中跟踪受关注的实体
      • 基于统计机器学习的共指消解
        1. 将共指消解视为分类问题
        2. 将共指消解视为聚类问题

2.2.2 知识合并

  • 合并外部知识库
  • 数据层的融合

            包括实体的指称、属性、关系以及所属类别等,主要问题是如何避免实例以及关系的冲突问题,造成不必要的冗余

  • 模式层的融合

            将新得到的本体融入已有的本体库中

  • 知识库融合的标准化:针对LOD知识库的开放数据集成框架LDIF
    • 获取知识
    • 概念匹配:不同本体库中的概念表达使用的词汇可能不同,因此需要对概念表达方式进行统一化处理
    • 实体匹配:知识库中有些实体含义相同但是具有不同的标识符,因此需要对这些实体进行合并处理
    • 知识评估:对新增知识进行验证和评估,在评估过程中为新加入的知识赋予可信度值以确保知识图谱的内容一致性和准确性
  • 合并关系数据库:将关系数据库的数据换成三元组数据
    • 数据模型:数据描述框架(RDF)
    • 映射语言标准
      • Direct mapping:采用直接映射的方式,将关系数据库表结构和数据直接输出为RDF图,在RDF图中所用到的用于表示类和谓词的术语与关系数据库中的表名和字段名保持一致
      • R2RML:允许为给定的数据库结构定制词汇表,可以将关系数据库通过RWRML映射为RDF数据集,其中所用的术语如类的名称,谓词均来自定义词汇表
  • 合并半结构化数据:许多以半结构化方式存储(如XML,CSV,JSON 等格式)的历史数据也是高质量的知识来源,同样可以采用RDF数据模型将其合并到知识图谱当中

2.3 知识加工

事实本身并不等于知识,将事实转化为结构化、网络化的知识体系

2.3.1 本体构建

  • 本体
    • 定义:本体是对概念进行建模的规范,是描述客观世界的抽象模型,以形式化方式对概念及其之间的联系给出明确定义,是同一领域内的不同主体之间进行交流的语义基础
    • 特点:它是共享的,反映的知识是一种明确定义的共识
    • 结构:树状结构,相邻层次的节点(概念)之间具有严格的“IsA”关系
  • 本体的构建方法
    • 数据驱动的自动化本体构建过程
      • 实体并列关系相似度计算
        1. 相似度越高,表明这2个实体越有可能属于同一语义类别
        2. 并列关系:与纵向的概念隶属关系相对
        3. 计算方法
          1. 模式匹配法:预先定义实体对模式,通过模式匹配取得给定关键字组合在同一语料单位中共同出现的频率,据此计算实体对之间的相似度
          2. 分布相似度法
      • 实体上下位关系抽取
        1. 用于确定概念之间的隶属(IsA)关系,这种关系也称为上下位关系
        2. 研究方法
          1. 基于语法模式抽取IsA实体对
          2. 基于语义的迭代抽取:利用概率模型判定IsA关系和区分上下位词,通常会借助百科类网站提供的概念分类知识来帮助训练模型
      • 本体的生成:对各层次得到的概念进行聚类,并对其进行语义类的标定(为该类中的实体指定1个或多个公共上位词)
  • 跨语言知识链接的构建方法
  • 面临的挑战:经过信息抽取得到的实体描述非常简短,缺乏必要的上下文信息,导致多数统计模型不可用

2.3.2 知识推理

  • 定义

从知识库中已有的实体关系数据出发,经过计算机推理,建立实体间的新关联,从而拓展和丰富知识网络

  • 推理对象:实体间的关系、实体的属性值、本体的概念层次关系等
  • 推理方法
    • 基于逻辑的推理
      • 一阶谓词逻辑推理
  1. 命题被分解为个体和谓词2部分
  2. 个体是指可独立存在的客体,可以是具体的事物也可以是抽象的概念
  3. 谓词是用来刻画个体性质及事物关系的词
  • 描述逻辑推理
    1. 描述逻辑是基于对象的知识表示的形式化工具,是一阶谓词逻辑的子集
    2. TBox:用于描述概念之间和关系之间的关系的公理集合
    3. ABox:描述具体事实的公理集合
    4. 最终归结为ABox的一致性检验问题
  • 基于规则的推理

知识图谱构建技术综述_第3张图片

  • 基于图的推理
    • 基于神经网络模型
    • 基于path ranking算法

知识图谱构建技术综述_第4张图片

  • 处理推理得到的知识

        由于推理得到的知识准确性低、冗余度高,因此在将其加入到知识库之前,通常需要进行可证明性检查、矛盾性检查、冗余性检查以及独立性检查,以确保推理的知识加入知识库后不会产生矛盾和冗余。在实际应用中,知识库的构建者为保证知识库应用的时效性,通常仅保留部分与业务密切相关的知识,而放弃其他推理结果

  • 发展趋势:跨知识库知识推理
    • 基于组合描述逻辑的Tableau算法

2.3.3 质量评估

对知识的可信度进行量化,通过舍弃置信度较低的知识,可以保障知识库的质量,计算置信度的方法如下:

  • Sieve方法
    • 基于LDIF框架
    • 解决知识库之间的冲突问题
    • 支持用户根据自身业务需求灵活定义质量评估函数,也可以对多种评估方法的结果进行综合考评以确定知识的最终质量评分
  • 逻辑斯蒂回归法
  • 谷歌的方法
    • 对通过信息抽取获得的知识的评估:从全网范围内抽取结构化的数据信息,并根据某一数据信息在整个抽取过程中抽取到的频率对该数据信息的可信度进行评分,然后利用从可信知识库freebase中得到先验知识对先前的可信度信息进行修正
  •        对用户贡献的结构化知识的评估:依据用户的贡献历史和领域,以及问题的难易程度进行自动评估用户贡献知识质量

2.4 知识更新

  • 概念层的更新
    • 新增数据后获得了新的概念,需要自动将新的概念添加到知识库的概念层中
    • 需借助专业团队进行人工审核
  • 数据层的更新
    • 新增或更新实体、关系和属性值
    • 方法
      • 选择百科类网站等可靠数据源,并选择在各数据源中出现频率高的事实和属性加入知识库
      • 众包
  • 内容更新的方法
    • 数据驱动下的全面更新
      • 以更新后的全部数据为输入,从零开始构建知识图谱
      • 简单,但资源消耗大,而且需要耗费大量人力资源进行系统维护
    • 数据驱动下的增量更新
      • 以当前新增数据为输入,向现有知识图谱中添加新增知识
      • 资源消耗小,但目前仍需要大量人工干预

3. 跨语言知识图谱的构建

3.0 跨语言本体构建

可以参照2.3.1介绍的本体构建方法,分别建立各语种的本体库

3.1 跨语言知识抽取

  • 思路:借助于丰富的源语种知识自动化抽取缺失的目标语种知识
  • 方法
    • 基于翻译的跨语言知识抽取模型
      • 首先通过跨语言知识链接和属性对齐的方式将目标语种的相关内容映射到源语种知识库中所对应的内容,然后将相关知识翻译为目标语种
      • 局限:
        1. 受到不同语种间等价对象的数量以及源语种知识库中结构化信息(信息框)数量的限制
        2. 知识抽取的质量直接受机器翻译的质量限制
    • 基于迁移学习的跨语言知识抽取框架(WikiCiKE)
      • 利用源语种知识库中丰富的无结构文本信息以及结构化信息,提高了目标语种知识库中信息抽取的数量和质量

3.2 跨语言知识链接

  • 思路:将不同语言表示的相同知识链接起来
  • 模式层的链接
    • 核心:本体映射(对齐)
      • 内涵

如果2个本体间如果存在语义上的概念关联,则通过语义关联实现二者之间的映射

      • 目的:实现知识的共享和重用
      • 方法
        1. SOCOM方法
        2. 基于链接因子图模型的跨语言知识链接方法
        3. 基于语义标注的增量式跨语言知识链接方法
  • 数据层的链接

4. 知识图谱的应用

  • 智能语义搜索

知识图谱构建技术综述_第5张图片

  • 移动个人助理
  • 深度问答系统
    • 实现方法

知识图谱构建技术综述_第6张图片

  • 分类
    • 基于信息检索的问答系统

知识图谱构建技术综述_第7张图片

    • 基于语义分析的问答系统

5. 问题与挑战

  • 信息抽取环节
    • 算法准确性和召回率低、限制条件多、扩展性不好
    • 开放域信息抽取,主要的问题包括实体抽取、关系抽取以及属性抽取
    • 多语种、开放领域的纯文本信息抽取问题
  • 知识融合环节
    • 如何实现准确的实体链接是一个主要挑战
    • 开放域条件下的实体消歧、共指消解、外部知识库融合和关系数据库知识融合
    • 如何在上下文信息受限(短文本、跨语境、跨领域等)条件下,准确地将从文本中抽取得到的实体正确链接到知识库中对应的实体
  • 知识加工环节
    • 本体的自动构建、知识推理技术、知识质量评估手段以及推理技术的应用
    • 建立完善的质量评估技术标准和指标体系
    • 知识推理的方法和应用研究
  • 知识更新环节
    • 增量更新技术
    • 提高自动化程度并确保自动化更新的有效性
  • 如何解决知识的表达、存储与查询问题

你可能感兴趣的:(知识图谱构建技术综述)