知识图谱 方法、实践和应用(二)

二、知识图谱表示与建模

  • 知识表示的五大用途:
    • 客观事物的机器表示
    • 一组本体约定和概念模型
    • 支持推理的表示基础
    • 用于高效计算的数据结构
    • 人可理解的机器语言
  • 历史关系:
    • 语义网络表示方法(Wordnet)(M.Ross Quilian &Allan M.Collins),属于词典类型的知识库,主要定义名词、动词、形容词副词之间的语义关系。
    • 随着专家系统的提出和发展,知识库构建和知识表示更受到重视。传统专家系统包含(知识库和推理引擎)两个模块
    • 规范语义理论模型和形式化语义定义——描述性逻辑语言。成为大多数本体语言(OWL)的理论基础。(知识表示能力和推理计算复杂性的综合考虑)
    • OWL系列标准化本体语言:DBpedia Yago Freebase Schema ORG Wikidata,拥有以符号逻辑为基础的知识表示方法:易于刻画显式、离散的知识而具有内生的可解释性,但由于人类知识包含大量不易于符号化的隐形知识,所以催生了采用连续向量的方式来表示知识
  • 两种表示方式
    • 基于离散符号的知识表示:RDF\OWL\Rule language:显式知识、强逻辑约束、易于解释、推理不易扩展
    • 基于连续向量的知识表示:Tensor、embedding :隐式知识、弱逻辑约束、不易解释、对接神经网络
  • 早期的知识表示方法:
    • 一阶谓词逻辑
    • 霍恩子句和霍恩逻辑
    • 语义网络
      • 优点
        • 联想性、可解释性
        • 易用性、自然语言与之转换容易
        • 结构性、各种事物之间的联系直观表达
      • 缺点
        • 无形式化语法
        • 无形式化语义(含义具有多种可解释性,从而通过推理网络而获得的推理不能保证其正确性)
    • 框架(frame)
      • 描述对象属性的数据结构,类似于class
      • 优点
        • 结构性强
        • 对知识的描述很全面
      • 缺点
        • 构建成本很高,对知识库的质量要求很高
        • 推理复杂度高
        • 无法表示不确定的知识
    • 描述逻辑
      • 是一阶逻辑的可判定子集,可以看做是一阶逻辑对语义网络/框架进行形式化以后的产物。互联网本体语言(OWL)的理论基础
      • 一元谓词:称为类
      • 二元谓词:称为关系
  • 2.3 互联网时代的语义网知识表示框架
    • RDF和RDFS
      • 对W3C的语义网标准栈做了分组

        知识图谱 方法、实践和应用(二)_第1张图片

      • RDF都为三元组的数据,以主语-谓语-宾语 构成,将谓语看做边,主语宾语看做节点。其中主语是某个类的实例(对象)

        知识图谱 方法、实践和应用(二)_第2张图片

      • 开放世界假设:知识图谱的知识可以被分布存储,并自由合并。(比如jeff是KG讲座的speaker,但是KG讲座不一定只有jeff一个speaker,jeff也可能同时是别的讲座的speaker)
      • RDF中使用的类和属性来描述个体关系的部分,由RDFS(RDF Schema)提供简单描述。
      • 数据层面的知识:

        知识图谱 方法、实践和应用(二)_第3张图片

      • 模式层面的知识:

      • RDFs例子:

        知识图谱 方法、实践和应用(二)_第4张图片

    • OWL和OWL Fragments
      • RDFs的语义表达能力太弱,缺少常用特征,更细致的特征由OWL来补足

        知识图谱 方法、实践和应用(二)_第5张图片

      • OWL语言特征

        知识图谱 方法、实践和应用(二)_第6张图片

      • PS:目前没有推理系统可以完全支持OWL Full
      • OWL重要词汇
        • 1.等价性声明:声明两个类、属性和实例是等价的
          exp:运动员 owl:equivalentClass exp:体育选手 ​exp​:​
          • exp:运动员 owl:equivalentClassexp:体育选手 ​
          • exp​:​ 获得 owl:equivalentPropertyexp:取得
          • exp:运动员 Aowl:sameIndividualAsexp:小明
        • 2.属性传递声明
          • exp:ancestor rdf:type owl:TransitiveProperty意思是 exp:ancestor是一个传递关系,那么由exp:ancestor链接的两个对象将有传递性
            • exp:a exp:ancestor exp:b & exp:b exp:ancestor exp:c ---->exp:a exp:ancestor exp:c
        • 3.属性互逆声明
          • exp: xowl:inverseOfexp:y 代表 x 和 y 是互逆的,所以可以推导出:
            • exp A exp: x exp B ----> exp B exp:y exp:A
        • 4.属性的函数声明
          • exp:hasmother rdf:type owl:FunctionalProperty意思是 exp:hasmother是一个函数 即一个生物只能有一个母亲(自然约束)
        • 5.属性的对称性说明
          • exp:friend rdf:type owl:SymmetricProperty指的是exp:friend 是一个具有对称性的属性,如果exp:小明 exp:friend exp:小林 ,那么反过来也是可以的
        • 6.全称限定声明。声明一个属性是全称限定
          • exp:Person owl:allValuesFrom exp:Women
          • exp: Person owl:onProperty exp:hasMother
          • 表示hasMother 在主语属于 person类的条件下,宾语的取值只能来源于women类
        • 7.属性存在限定声明,声明一个属性是存在限定:

          知识图谱 方法、实践和应用(二)_第7张图片

        • 8.属性基数限定声明

          知识图谱 方法、实践和应用(二)_第8张图片

        • 9.相交类声明,一个类是等价于两个类相交:

          知识图谱 方法、实践和应用(二)_第9张图片

        • 其他属性

          知识图谱 方法、实践和应用(二)_第10张图片

      • OWL2中的子语言
        • OWL2 QL
          • 基于本体的查询设计的,适合大规模处理,基于DL-Lite
          • 词汇总结

            知识图谱 方法、实践和应用(二)_第11张图片

        • OWL2 EL
          • 能提供多项式推理
          • 词汇总结

            知识图谱 方法、实践和应用(二)_第12张图片

      • SPAROL查询语言的表示
      • 知识图谱 方法、实践和应用(二)_第13张图片

        知识图谱 方法、实践和应用(二)_第14张图片

    • 语义markup表示语言
      • 语义网进一步定义了在网页中嵌入语义markup的方法和表示语言。被google知识图谱以及schema.org采用的语义markup语言主要包括json-LD、RDFa 和HTML5MicroData
      • Json-LD
        • 通过json格式表示有向图,在文档中混合表示链接数据和非链接数据
        • 例子

          知识图谱 方法、实践和应用(二)_第15张图片

        • RDFa

          知识图谱 方法、实践和应用(二)_第16张图片

        • HTML5 microdata

    • 常见开放知识图谱表示方法
      • freebase
      • wiki
      • conceptnet5:更接近自然语言,关系(边)很大一部分从文本中抽取,所以接近自然语言文本

        知识图谱 方法、实践和应用(二)_第17张图片

    • 知识图谱向量表示方法
      • 词的向量表示方法
        • one-hot编码
        • 词袋模型(bag-of-word,BoW)
          • 每一行代表列中的各种词在文档i中出现的次数

            知识图谱 方法、实践和应用(二)_第18张图片

        • 词向量模型
          • word2vec中的两个经典模型
            • 连续词袋模型CBoW
              • 用上下文词预测中心词
            • skip-gram模型
              • 用中心词预测上下文
          • 词向量模型具有一定的空间平移性质可以通过向量的求和求差来定义某种关系

            知识图谱 方法、实践和应用(二)_第19张图片

    • 知识图谱的嵌入概念(knowledge graph embedding)
      • 需要进行监督学习,使训练的过程中学习一定的语义信息。
      • 模型TransE的思想:如果一个三元组(h,r,t)成立,必须满足h+r~=t的关系

      • 举例

        知识图谱 方法、实践和应用(二)_第20张图片

      • 知识图谱嵌入方法介绍
        • 转移距离模型 Translational Distance Model
          • 将衡量向量化后的知识图谱中三元组的合理性--->转化为---->衡量头实体和尾实体的距离问题
          • 重点在于:如何设计得分函数将头实体转移为尾实体
          • head + relation ~=tail
        • 语义匹配模型 Semantic Matching Models
          • 更注重挖掘向量化后的实体和关系的潜在语义,主要是RESCAL以及他的延伸模型
          • 将知识图谱编码为一个三维张量,张量分解为一个核心张量和一个因子矩阵:
            • 核心张量中每两个二维矩阵切片代表一种关系
            • 因子矩阵中每一行代表一个实体
            • 由核心张量和因子矩阵还原的结果看做三元组成立的概率,如果概率大于某个阈值,则正确,否则不正确。得分函数如下:相关paper[14]

              知识图谱 方法、实践和应用(二)_第21张图片

        • 考虑附加信息的模型
          • PTransE考虑相加、相乘、RNN三种关系表达关系路径的方法
          • 文本描述:规则学习和知识图谱嵌入学习相互迭代,最后使得知识图谱嵌入可以融入一定的规则信息(Guo[19])
      • 知识图谱嵌入的应用
        • 链接预测
          • 遍历实体带入知识图谱嵌入的得分函数,得分高的作为预测值
        • 三元组分类
          • 三元组带入得分函数,得分高即为真实性和合理性高
        • 实体对齐(Entity Resolution)又称为实体解析
          • 验证两个实体是否指代的是 同一个事物或对象
        • 问答系统
          • 得分函数的具体paper([9])

            知识图谱 方法、实践和应用(二)_第22张图片

          • 推荐系统
            • zhang[20]

你可能感兴趣的:(从零开始知识图谱)