知识图谱简述:

一、 知识图谱的定义:

  • 知识图谱:知识图谱本质上是语义网络(Semantic Network)的知识库。可以简单地把知识图谱理解成多关系图(Multi-relational Graph)。
  • 多关系图一般包含多种类型的节点和多种类型的边。
  • 在知识图谱里,
    • 节点:我们通常表示一个实体(Entity);实体指的是现实世界中的事物比如人、地名、概念、药物、公司等
    • :表示实体间的一种关系(Relation);比如人-“居住在”-北京、张三和李四是“朋友”。

二、 知识图谱的表示:

  • 属性图(Property Graph)表示:在现实世界中,实体和关系也会拥有各自的属性。我们可以用属性图来表示:
    知识图谱简述:_第1张图片
    红色框内是关系属性,绿色框内是实体属性。
  • RDF表示:RDF是由很多的**三元组(Triples)**来组成。主要特点:易于发布和分享数据,但不支持实体或关系拥有属性,如果非要加上属性,则在设计上需要做一些修改。
  • RDF主要是用于学术的场景,在工业界我们更多的还是采用图数据库(比如用来存储属性图)的方式。

三、 知识抽取:

  • 为了构建知识图谱我们需要把数据从不同的数据源中抽取出来,一般情况数据源主要来自两种渠道:
    • 结构化的数据:关系数据数据库中的数据;这种数据一般只需要简单预处理即可以作为后续AI系统的输入。
    • 非结构化数据:网络上公开、抓取的数据,这些数据通常是以网页的形式存在。这种数据一般需要借助于自然语言处理等技术来提取出结构化信息
      知识图谱简述:_第2张图片
  • 知识提取主要涉及以下几个方面的自然语言处理技术
    • 实体命名识别(Name Entity Recognition):实体命名识别,就是从文本里提取出实体并对每个实体做分类/打标签:比如下图中的实体-“NYC”,并标记实体类型为 “Location”;
      知识图谱简述:_第3张图片
    • 关系抽取(Relation Extraction):从文本中提取实体间的关系,比如上图图中实体“hotel”和“Hilton property”之间的关系为“in”。
    • 实体统一(Entity Resolution):一般在现实生活中不同的实体有多种写法实体统一的目标就是将写法不同的实体进行统一。比如下图中的“NYC”和“New York”表面上是不同的字符串,但其实指的都是纽约这个城市,需要合并。实体统一不仅可以减少实体的种类,也可以降低图谱的稀疏性(Sparsity);
    • 指代消解(Coreference Resolution):为代词用其指代的实体。比如下图中本文里两个被标记出来的“it”都指向“hotel”这个实体。
      知识图谱简述:_第4张图片

四、 知识图谱的存储:

  • 知识图谱主要有两种存储方式:
    • 基于RDF的存储: RDF的存储系统,Jena是个不错的选择。
    • 基于图数据库的存储
  • 两种方式的对比
    • RDF一个重要的设计原则是数据的易发布以及共享,
    • 图数据库则把重点放在了高效的图查询和搜索上。
    • RDF以三元组的方式来存储数据而且不包含属性信息,但图数据库一般以属性图为基本的表示形式,所以实体和关系可以包含属性,这就意味着更容易表达现实的业务场景。
  • 图数据库:
    知识图谱简述:_第5张图片
    • Neo4j系统目前仍是使用率最高的图数据库,它拥有活跃的社区,而且系统本身的查询效率高,但唯一的不足就是不支持准分布式。
    • OrientDB和JanusGraph(原Titan)支持分布式,但这些系统相对较新,社区不如Neo4j活跃,这也就意味着使用过程当中不可避免地会遇到一些刺手的问题。

五、 知识图谱的构建:

  • 有可能不少人认为搭建一个知识图谱系统的重点在于算法和开发。但事实并不是想象中的那样,其实最重要的核心在于对业务的理解以及对知识图谱本身的设计。
    知识图谱简述:_第6张图片
  • 知识图谱的构建一般包含以下几个步骤:
    • 定义具体的业务问题
    • 数据的收集 & 预处理
    • 知识图谱的设计
    • 把数据存入知识图谱
    • 上层应用的开发,以及系统的评估

参考链接:https://www.jiqizhixin.com/articles/2018-06-19

你可能感兴趣的:(NLP)