《知识图谱构建技术综述》笔记

1. 论文信息

知识图谱构建技术综述
刘峤 李杨 段宏 刘瑶 秦志光
出版源:《计算机研究与发展》, 2016, 53 (3):582-600

2. 摘要

  1. 将知识图谱划分为信息抽取层知识融合层知识加工层
  2. 对每个层次涉及的关键技术的研究现状进行分类说明;
  3. 知识图谱构建技术当前面临的重大挑战和关键问题进行了总结。

3. 介绍

知识图谱的历史

知识图谱的概念是由谷歌公司提出的.2012年5月17日,谷歌发布知识图谱项目,并宣布以此为基础构建下一代智能化搜索引擎。
中国科学院计算机语言信息中心董振东领导的知网(HowNet)项目,其知识库特点是规模相对较小、知识质量高、但领域限定性较强。

知识图谱的定义

知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知识结构。

知识图谱的架构

知识图谱的架构,包括知识图谱自身的逻辑结构以及构建知识图谱所采用的技术(体系)架构,后者是本文讨论的重点。

知识图谱的构建过程是从原始数据出发,采用一系列自动或半自动的技术手段,从原始数据中提取出知识要素(即事实),并将其存入知识库的数据层和模式层的过程.这是一个迭代更新的过程,根据知识获取的逻辑,每一轮迭代包含3个阶段:信息抽取、知识融合以及知识加工。

《知识图谱构建技术综述》笔记_第1张图片

4. 知识图谱构建技术

4.1 信息抽取

信息抽取是一种自动化地从半结构化和无结构数据中抽取实体、关系以及实体属性等结构化信息的技术。涉及的关键技术包括:实体抽取、关系抽取和属性抽取。

  • 实体抽取(命名实体识别NER)
    监督学习和规则相结合的办法:Lin等人采用字典辅助下的最大熵算法,在基于Medline论文摘要的GENIA数据集上取得了实体抽取准确率和召回率均超过70%的实验结果。
  • 关系抽取
    (1) 2007年,华盛顿大学图灵中心的Banko等人1提出了面向开放域的信息抽取方法框架(open information extraction, OIE),并发布了基于自监督(self-supervised)学习方式的开放信息抽取原型系统(TextRunner)。该系统采用少量人工标记数据作为训练集,据此得到一个实体关系分类模型,再依据该模型对开放数据进行分类,依据分类结果训练朴素贝叶斯模型来识别“实体-关系-实体”三元组,经过大规模真实数据测试,取得了显著优于同时期其他方法的结果。

(2) Wu等人2在OIE的基础上,发布了面向开放域信息抽取的WOE系统,该系统能够利用维基百科网页信息框(inbox)提供的属性信息,自动构造实体关系训练集,性能优于早期的TextRunner系统。

  • 属性抽取
    属性抽取一般是从百科类网站上的半结构化数据中抽取,或者是采用数据挖掘的办法直接从文本中挖掘实体属性与属性值之间的关系模式。据此发现对属性名和属性值在文本中的定位。

4.2 知识融合(真正的难点)

对信息抽取得到的扁平化的、缺乏性和逻辑性的数据进行清理和整合。

实体链接

对于文本中抽取得到的实体对象,将其链接到知识库中对应的正确实体对象的操作。

一般流程是先从文本中通过实体抽取得到实体指称项,然后进行实体消歧和共指消解,判断知识库中的同名实体与之是否代表不同的含义以及知识库中是否存在其他命名实体与之表示相同的含义,在确认知识库中对应的正确实体对象之后,将该实体指称项链接到知识库中对应实体。

  • 实体消歧
    专门用于解决同名实体产生歧义问题的技术。比如“李娜”即是歌手也是运动员,通过实体消歧,可以根据当前语境,准确建立实体链接。
    主要采用聚类法,该方法以实体对象为聚类中心,将所有指向同一目标实体对象的指称项聚集到以该对象为中心的类别下。该方法的关键问题是如何定义实现对象与指称项之间的相似度。
  • 共指消解
    对于多个指称项(比如president Obama, the president, he)指向同一个实体对象(奥巴马),共指消解可以将这些指称项关联(合并)到正确的实体对象。
    目前的方法:(1) 以句法分析为基础的Hobbs算法3向心理论4;(2) 统计机器学习方法,一个是McCarthy等人5首次将C4.5决策树算法应用于解决共指消解问题,结果在MUC-5公开数据集的多数任务中均取得了优胜;一个是Bean等人6通过实验发现,语义背景知识对于构造共指消解算法非常有帮助,他们利用Utah大学发布的AutoSlog系统从原始语料中抽取实体上下文模式信息,应用Dempster-Shafer概率模型对实体模式进行建模,在2个公开数据集上(MUC-4的恐怖主义数据集和路透社自然灾害新闻数据集)分别取得了76%和87%的共指消解准确率
知识合并

从第三方知识库产品或已有结构化数据获取知识输入。

  • 合并外部知识库
    Mendes等人7提出了开放数据集成框架(linked data integration framework, LDIF),用于对LOD知识库产品进行融合
  • 合并关系数据库
    使用RDB2RDF的开源工具:Triplify、D2RServer、OpenLink Virtuoso、SparqlMap等
  • 其他半结构化方式存储(XML、CSV、JSON)
    从XML转化为RDF:XSPARQL
    从XML和CSV转化为RDF:Datalift
    转化的知识元素经过实体链接,就可以加入到知识库中,实现知识的合并。

4.3 知识加工

包括本体构建、知识推理和质量评估。

  • 本体构建
  • 知识推理
    从知识库中已有的实体关系数据出发,经过计算机推理,建立实体间的新关联,从而拓展和丰富知识网络。
    知识推理的方法分为:基于逻辑的推理和基于图的推理,前者主要包括一阶谓词逻辑、描述逻辑以及基于规则的推理,后者主要基于神经网络模型或Path Ranking算法,比如Socher等人8将知识库的实体表达为词向量的形式,进而采用神经张量网络模型(neural tensor networks)进行关系推理,在WordNet和FreeBase等开放本体库上对未知关系进行推理的准确率分别达到86.2%和90.0%。
  • 质量评估
    对知识的可信度进行量化,通过舍弃置信度较低的知识,可以保障知识库的质量。

4.4 知识更新

数据驱动下的全面更新和增量更新。

4. 知识图谱的应用

深度问答
系统首先在知识图谱的帮助下对用户自然语言提出的问题进行语义分析和语法分析,进而将其转化成结构化形式的查询语言,然后在知识图谱中查询答案。对知识图谱的查询通常采用基于图的查询语言(SPARQL)

基于知识图谱的问答系统

  • 基于信息检索的问答系统
    先将问题转变为一个基于知识库的结构化查询,从知识库中抽取与问题中实体相关的信息来生成多个候选答案,然后再从候选答案中识别出正确答案
  • 基于语义分析的问答系统
    先通过语义分析正确理解问题的含义,然后将问题转变为知识库的精确查询,直接找到正确答案。

4. 知识图谱的挑战和难点

  1. 信息抽取环节,多语种、开放领域的纯文本信息抽取问题是当前的重要挑战;
  2. 实体消歧和共指消解的研究成果至今距离实际应用相差很大距离,如何在上下文信息受限条件下,如何准确地将从文本中抽取到的实体正确链接到知识库中对应的实体亟待解决;
  3. 知识加工是知识图谱最具特色的功能,同时也是该领域最大的挑战。突破现有技术和思维方式的同时,创新知识推理技术;
  4. 如何解决知识的表达、存储和查询问题,一直伴随着知识图谱技术发展的始终,当前知识图谱主要采用图数据库进行存储,如何处理自然语言查询,对其进行分析推理,翻译成知识图谱可理解的查询表达式以及等价表达式也是知识图谱应用需要解决的问题。

5. 结束语

互联网正从包含网页和网页之间超链接的文档万维网转变成包含大量描述各种实体之间丰富关系的数据万维网。知识图谱作为下一代智能搜索的核心关键技术,具有重要的理论研究价值和现实的实用应用价值。


  1. Banko M, Cafarella M J, Soderland S, et al. Open information extraction for the Web [C] //Proc of the 20th Int Joint Conf on Artificial Intelligence. New York: ACM, 2007: 2670-2676 ↩︎

  2. Wu Fei, Weld D S. Open information extraction using Wikipedia [C] //Proc of the 48th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2010: 118-127 ↩︎

  3. Hobbs J R. Resolving pronoun references [J]. Lingua, 1978, 44(4): 311-338 ↩︎

  4. Grosz B J, Weinstein S, Joshi A K. Centering: A framework for modeling the local coherence fo dicourse [J]. Computational Linguistics, 1995, 21(2): 203-225 ↩︎

  5. McCarthy J F, Lehnert W G. Using decison trees for coference resolution [C] //Proc of the 14th Int Joint Conf on Artificial Intelligence. San Francisco: Morgan Kaufmanm, 1995: 1050-1055 ↩︎

  6. Bean D L, Riloff E. Unsupervised learning of contextual role knowledge for coreference resolution [C] //Proc of the Human Language Technologies North American Chapter of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2004: 297-304 ↩︎

  7. Mendes P N, Mühleisen H, Bizer C. Sieve: Linked data quality assessment and fusion [C] //Proc of the 2nd Int Workshop on Linked Web Data Management at Extending Database Technology. New York: ACM, 2012: 116-123 ↩︎

  8. Socher R. Reasoning with neural tensor networks for knowledge base completion [C] ↩︎

你可能感兴趣的:(知识图谱)