知识图谱研究综述

清华大学李涓子教授“知识图谱研究综述”一文的阅读笔记。

内容:

1. 概念

2. 现有的知识图谱资源

3. 知识表示

4. 知识图谱构建

5. 应用


知识图谱旨在描述客观世界的概念、实体、事件及其间的关系。

  • 概念是指人们认识世界过程中形成的对客观事物的概念化,如人、动物、组织机构等;
  • 实体是客观世界中的具体事物,如篮球运动员姚明、互联网公司腾讯等;
  • 事件是客观世界的活动,如地震、买卖行为等;
  • 关系描述概念、实体事件之间客观存在的关联,如毕业学院描述了个人及其所在院校的关系,运动员和篮球运动员之间的概念和子概念的关系等。

知识图谱研究综述_第1张图片


知识图谱是将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力

涉及的技术:认知计算、知识表示和推理、信息检索与抽取、自然语言处理和语义web、数据挖掘与机器学习等> 知识图谱技术具体地包括知识表示、知识图谱构建和知识图谱的应用三方面:
  1. 知识表示研究客观世界知识的建模,从知识的表示和存储,以及知识的使用和计算来使得知识便于机器的识别和理解;
  2. 知识图谱的构建解决如何建立计算机算法从客观世界或者或联网的各种数据资源中获取客观世界的知识,主要研究使用何种数据和方法抽取何种知识;
  3. 知识图谱应用主要研究如何利用知识图谱建立基于知识的智能服务系统,更好地解决实际应用问题。

现有知识图谱资源

  • 人工构建

WordNet、Cyc项目、中文HowNet

  • 群体智慧构建

维基百科
  • DBpedia 以构建本体的形式对知识条目进行组织
  • YAGO 融合WordNet良好的概念层次结构和维基百科中的大量实体数据
  • Freebase 包含6800万实体的结构化数据的知识图谱
  • 国内 清华大学和上海交通大学利用互动百科、百度百科建立了大规模知识图谱XLORE和Zhishi.me

基于机器学习和信息抽取构建的知识图谱:从互联网数据自动获取知识是建立可持续发展知识图谱的发展趋势。这类知识图谱构建的特点是面向互联网的大规模、开放、异构环境,利用机器学习和信息抽取技术自动获取Web上的信息构建知识库。

知识表示

1. 基于符号逻辑的表示

  • 与人类的自然语言比较接近,是最早使用的一种知识表示方法。
  • 但是机器生成推理规则的能力很弱,这种方式往往需要大量的人力、而且对数据的质量要求很高,故在大数据时代这种方式已经不能很好地解决知识表示的问题。
    2. 万维网内容的知识表示

互联网信息的描述主要包括

  • 基于标签的半结构化标记语言XML
  • 基于万维网资源语义元数据描述框架RDF
  • 基于描述逻辑的本体描述语言OWL
XML通过内容标记,便于数据交换;RDF通过三元组(主体,谓词,客体)描述互联网资源之间的语义关系;OWL构建在RDF之上,具有更强的表达及解释能力的语言。

3. 表示学习

目标:通过机器学习或深度学习,将研究对象的语义信息表示为稠密低维的实值向量。对不同粒度的知识单元进行隐式的向量化表示,来支持大数据环境下知识的快速计算。

主要方法:

  • 张量重构
  • 势能函数
结合其他的优化方法,以达到提升计算效率、缓解数据稀疏性的目的,更容易实现多源的异质信息的融合

构建技术

知识的来源:
  • 互联网上分布、异构的海量资源
    1.概念层次学习
    2. 事实学习等
  • 已有的结构化异构语义资源
    异构资源的语义集成
1. 概念层次学习
对客观世界中的事物在不同层次上的概念化描述
通过合理的技术,抽取知识表示中的概念,确定其上下位关系(如水果与苹果、梨)
  • 概念层次学习多采用启发式规则的方法,基本思路是根据上下位概念的陈述模式,从大量的资源中找出可能具有上下位关系的概念对(或概念组),从而对上下位关系进行归纳;
  • 另一种是基于统计的方法,假设相同概念出现的上下文也相似,利用词语或实体分布的相似性,计算特征学习的概率模型来得到概念结构
2. 事实学习
以三元组的形式表示事实(梨,是,水果),事实数量决定了知识图谱的丰富程度,构建知识图谱时采用的机器学习方法可以分为:有监督、半监督、无监督三类。
  • 有监督的学习
需要有自己标记文档作为训练集,分为基于规则的学习、基于分类标注和基于序列标注方法等
  • 基于规则的学习:语义标注方法是从带语义标注的预料中自动学习标注规则,再利用规则对数据资源进行语义标注,适合比较规范资源上的知识获取
  • 基于分类的知识获取方法将知识获取转化为分类问题,根据确定的标注特征从标注语料中学习标注模型
  • 基于序列模式标注的方法同时考虑多个语义标注之间的关系,可以提高标注的准确率。
  • 半监督的学习
自扩展

需要初始的种子实体对,种子实体对——>新的语义模板,再对语料进行迭代抽取来发现新的实体对,主要问题是语义漂移

弱监督

由知识库中的关系启发式标注文本,主要问题在于训练实体中本身带有大量噪音

  • 无监督的学习

知识获取的方法主要是信息抽取,使用自然语言处理方法,无需预先给定要抽取的关系,能自动地将自然语言句子转换为命题,缺点在于处理复杂句子时效果会受到影响
代表性系统:KnowItAll,该系统可以从互联网信息中抽取语义信息(自扩展方式),同时也能自动地对抽取地信息进行评估

3. 语义集成

在异构知识库之间,发现实体间的等价关系,从而实现知识共享。

因为现有的知识库多以本体的形式描述,所以语义集中的主要环节就是本体映射:
  • 基于文本的方法

利用实体中的标签或摘要等文本信息,计算两个实体字符串之间的相似度来确定实体间是否有匹配关系

  • 基于结构的方法

利用实体的图结构信息对本体进行匹配,利用本体的图结构,对实体间的相似度进行传播,从而提高对齐的效果

  • 基于背景知识的方法

基于已有的大规模领域无关知识库作为背景知识来提高匹配结果

  • 基于机器学习的方法

将本体匹配问题视为机器学习中的分类或优化问题,从而采取机器学习方法获得匹配结果

应用

  • 语义搜索
  • 知识问答
  • 基于知识的大数据分析与决策等

你可能感兴趣的:(知识图谱,论文阅读笔记)