知识图谱赵军学习笔记(三)--知识体系构建和知识融合

知识体系和知识融合

知识融合通过框架匹配和实例对齐,把分散的知识资源联合起来,可以极大的增加知识图谱的覆盖领域和共享程度。

知识体系构建

知识体系三个方面核心内容:

  • 对概念的分类
  • 概念属性的描述
  • 概念之间相互关系
    知识体系的基本形态:
  • 词汇
  • 概念
  • 分类关系
  • 非分类关系
  • 公理
  1. 人工构建方法
    人工构建知识体系的过程可以分为6个阶段:
  • 确定领域及任务
    知识图谱作为人工智能应用的基础设施,其构建过程不能不了解具体的应用任务,也不能抛开领域建立一个高大全的、无法被广泛使用的产品。
    与具体的领域密切相关
    限定了知识体系应该包含的知识范围,领域内还是可以构建出各种各样的知识体系。
    想要构建更为合适的体系,需要回答:
    • 我们为什么要使用这个知识体系
    • 这种知识体系呢个构帮助回答哪些类型的问题
    • 谁会使用并维护这个知识体系
  • 体系复用
    知识体系具有很强的抽象性和概括性。从零开始构建不仅成本高昂,而且质量难以保证。
    • 领域词典
      专家编撰的领域内的词典,对构建限定领域的知识体系具有重要的参考意义。
    • 语言学资源
      语言学资源可以帮助知识体系的构建
    • 开源知识图谱
    • 网络百科
  • 罗列要素
    根据领域,罗列期望在知识图谱中出现的要素列表,主要包括概念、属性以及关系。
  • 确定分类体系
    确定了相关要素后,需要将其中表示概念的要素组织成层级结构的分类体系。
    • 自顶向下
      从最抽象的概念开始,逐层添加更为具体的概念
    • 自底向上
      从具体的概念开始,逐层开始抽象
  • 定义属性及关系
    为每个类别定义属性及关系。
    属性是描述概念的内在特征,
    关系是刻画不同概念之间的关系。
  • 定义约束
    不同的属性和关系具有不同的定义域和值域。
    数据报障数据的一致性,避免异常值的出现。
  1. 自动构建方法
    • 基于非结构化数据的知识体系学习
      也叫基于文本的本体学习。首先利用自然语言处理工具对文本进行分词、句法分析、命名实体识别等预处理操作,然后利用模板匹配、统计学习的方法从文本抽取重要信息,主要包括领域概念、实例以及概念之间的关系。
      • 领域概念抽取
        从文本数据中抽取出构建知识体系所需的关键元素,包括实体类型名,属性名,关系名,步骤如下:
        • 抽取候选术语
          利用nlp抽取文本中的字符串,尽可能多的把真正的术语包括进来,对质量没有严格的要求,但是尽量保证抽取术语的高覆盖度。
        • 术语过滤
          领域术语与破铜词汇在语料上往往具有不同的统计特征,例如普通词汇在领域内外具有相似的分布,但是领域词汇有显著的区别。通过互信息(MI),词频逆文档概率(TF-IDF),术语相关频率(RTF)等过滤。
        • 术语合并
          把相同概念的术语合并,聚合到一起,转换的过程就是识别同义词的过程。
          1.基于词典
          词汇就是wordnet等
          2.基于统计的方法
          基于统计就是假设相同的词汇具有相似的上下文,在大规模语料上学习,并进行聚类,识别同义词。
      • 分类体系构建
        获取不同概念之间的继承关系,即上下文关系
        • 基于词典
          wordnet
        • 基于统计
          通过词的上下文进行表示,并基于术语得到层次聚类。不同层次类别内的构成了上下位关系
      • 概念属性及关系抽取
        与概念属性抽取一致
    • 基于结构化数据的知识体系学习
      基于数据表的主键、外键和字段内容等信息实现上述目标
    • 基于半结构化数据的知识体系学习
      有一定模式,但是不太严格,如XML、HTML等格式
  2. 典型知识体系
  • SUMO
  • Schema.org
  • freebase
    protege常被应用于基于框架的知识表示模型,一般是先定义类,在定义类中的属性,最后定义类和属性的约束。

知识融合

  • 竖直方向的融合
    融合高层通用本体与底层领域本体或实例数据
  • 水平方向的融合
    融合相同层次的知识图谱
    如BabelNet融合不同语言的已购知识图谱,实现跨语言的知识关联和共享。
    知识融合通过对多个相关知识图谱的对齐、关联和合并,使其成为一个整体。按融合对象的不同分为框架匹配和实体对齐。
  • 框架匹配
    对概念、属性、关系等知识描述体系进行匹配和融合
  • 实体对齐
    对齐合并相同的实体完成知识融合
    但是实例知识有时有冲突,需要对其检测和消解
  1. 框架匹配
    解决异构性,本体对齐
  • 元素级匹配
    独立考虑元素是不是匹配,不考虑其他元素的匹配
    • 字符串匹配:
      前缀距离,后缀距离,编辑距离和n元语法距离
      这种方法忽略了语言符号的多义性,一词多义和一义多词
    • 词向量
      将词表示为低维语义向量空间的一个点,语义相似度用点之间的距离来衡量。与字符串相比,有更强的捕获词背后的真正语义的能力。
      可将其与其他编辑距离等结合,混合方法获得了很好的性能。
  • 结构级匹配
    不把各个元素作为孤立的资源,利用知识图谱的结构,在元素匹配中考虑其他元素的影响。
    不同元素的匹配之间也会有影响
    例如属性的定义域和值域匹配度高,属性匹配度也高。基本思想是:相似的概念具有相似的概念结构。
    • 基于图的技术
      当做已经标记的图结构
      对于两个本体的节点,如果它们的邻接节点是相似的,它们也是相似的。发现最大公共子图的问题,计算量很大
    • 基于分类体系的技术
      分类体系进行对齐
    • 基于统计分析的技术
      对已有样本挖掘其中蕴含的规律
      分组,计算距离
  1. 实体对齐
  • 成对实体对齐
  • 协同实体对齐
  • 表示学习方法
    计算实体相似度
    不需要依赖人工设定的规则和特征,也不需要了解知识库的命名习惯 适应性强
    KB1,KB2,产生初始种子对齐,核心思想是种子对齐中的两个向量要尽可能类似。
  1. 冲突检测和消解
  • 冲突忽略
  • 冲突避免
    过滤
  • 冲突消解
    基于投票
    频率
    基于质量
    来源

你可能感兴趣的:(NLP)