学习笔记——《知识图谱导论》陈华钧第二章·知识图谱的表示

2.1什么是知识表示

  1. 知识表示——用易于计算机处理的方式来描述人脑知识的方法
  2. 符号表示与向量表示
    符号表示:主要缺点是不易于刻画隐式的知识,同时因为推理依赖于知识描述的精确性,比如一个字符串表示稍有错误就无法完成推理,因而传统的符号人工智能研究的很多推理机都没有得到大规模的实用;

    向量表示:好处是易于捕获隐式的知识,还可以将推理过程转化为向量、矩阵或张量之间的计算。缺点是丢失了符号表示的可解释性

2.2人工智能历史发展长河中的知识表示

  1. 描述逻辑——一阶谓词逻辑的可判定子集,主要用于描述本体概念和属性,对于本体知识库的构建提供了便捷的表达形式。核心要素包括:概念(Concepts)、关系(Relations)、个体(Individuals)。一个由描述逻辑实现的知识库通常包括两个部分。即:TBox和ABox,TBox包含内涵知识,用于描述概念的一般性质。ABox包含外延知识,描述领域中的特定个体
  2. 霍恩规则逻辑——也是一阶谓词逻辑的子集,主要特点是表达形式简单、复杂度低,易于描述规则性知识(如Prolog),核心表达要素:原子(Atom)、规则(Rules)、事实(Facts)

这类以谓词逻辑为基础的知识表达方式的主要优点接近自然语言,易于表示精确知识,易于精确实现,主要缺点无法表达不确定性知识

  1. 产生式系统——专家系统多数是基于产生式系统,核心表达式是  IF P THEN Q CF = [0,1],其中P是产生式的前提,Q是一组结论或操作,CF(Certainty Factor)为确定性因子,也称置信度。优点如下:

            自然性:
    采用了人类 常用的表达因果关系的知识表示形式
            模块性:产生式系统中的规则形式相同,易于模块化管理
            有效性:能表示确定性知识、不确定知识、启发性知识、过程性知识等
            清晰性:产生式有固定的格式

    缺点:效率不高、不能表达结构性知识。
  2. 框架系统——认为人们对现实世界中事物的认识都是以一个类似于框架的的机构存储在记忆中,当面临一个新事物时,就从记忆中找出一个合适的框架,并根据实际情况对其细节加以修改、补充,从而形成对当前事物的认识。(和面向对象的思想比较像)。

    优点:对知识的描述比较全面和完整、知识库的质量也比较高、允许数值计算;
    缺点:
    维护成本高、质量要求高、表达形式不灵活。
  3. 语义网络——一种结构化的知识表示方法
    优点:与自然语言的转换比较容易实现
    缺点:没有公认的形式表达体系

总结:这些方法有一个共同的缺点——知识的获取过程主要依靠专家和人工,越复杂的知识表示框架,知识获取越困难。

2.3知识图谱的符号表示方法

  1. 属性图
    优点:
    表达方式非常灵活
    缺点:缺乏工业标准规范的支持

    属性图是由顶点(Vertex)、边(Edge)、标签(Label)、关系类型和属性(Property)组成的有向图,顶点也成为节点(Node),边也称为关系(Relationship),在属性图中,节点和关系边是最重要的表达要素,节点上包含属性,属性可以以任何键值形式存在。
  2. RDF图模型
    基本组成单元是一个三元组,即(s,p,o),多个三元组头尾相互连接,就形成了一个RDF图
  3. OWL本体语言
    OWL在RDF的基础上增加了更多的语义表达构件

综上,属性图是工业界最常用的图谱构件方法,对比如下:
        属性图——利用图结构特点做了性能优化,实用度高,但是不支持推理
        RDF——更严格的语义逻辑基础,支持推理,并兼容OWL
        OWL——提供了更多的语义表达构件
        

2.4知识图谱的向量表示方法

  1. 词向量
    传统的如one-hot Encoding的空间消耗比较大,且无法有效地表示词的语义。分布式语义,大概意思就是词的语义可以由它的上下文来确定,通过捕获词的上下文进行分析语义。
  2. 实体向量
    应该是把三元组的中的实体类比成词
  3. 学习模型
    TransE:
    给定一个三元组,事实存在,则h+r=t.(加法、向量)

    DistMult:给定一个三元组,事实存在,则h*r=t.(乘法、r是矩阵)
     

感觉这本书过于介绍概念了,也不知道看完能收获多少东西,任重道远啊!

你可能感兴趣的:(知识图谱)