1. 知识图谱之深入浅出知识表示 | 简介

动机

近些年,知识图谱已经渗透到人工智能领域的各方各面,例如自然语言处理(知识图谱+Bert)、计算机视觉(Zero-shot learning)、智慧医疗(2020最新文章使用知识图谱处理睡眠阶段分类问题)。为了将知识图谱能够转化为计算机能够处理的数据格式,需要学习知识图谱中每个结点的向量表示,该任务也是大部分下流任务的前提。本专栏将对大量知识图谱的表示算法进行整理和总结,主要涵盖内容如下:

算法:TransE,TransH,TransR,TransD,RotatE等。

具体内容:算法的基本概念、评价函数、代码实现。

接下来,本节将对知识图谱的一些基本概念和用途进行讲解,以便后续内容的顺利进行。

什么是知识图谱?

官方定义:知识图谱是一种基于图的数据结构,由节点(point)和边(Edge)组成,每个节点表示一个“实体”,每条边为实体与实体之间的“关系”,知识图谱本质上是语义网络。

实体:指的是现实世界中的事物,比如人物、单位、地点、手机号码等;

关系:指的是不同实体之间的关系,比如朋友、同事、就职于等。

1. 知识图谱之深入浅出知识表示 | 简介_第1张图片

由上图,可以看到实体有人,关系分别是好友和仇人。

如何构建一个知识图谱?

知识图谱构建的过程中,最主要的一个步骤就是把数据从不同的数据源中抽取出来,然后按一定的规则加入到知识图谱中,这个过程我们称为知识抽取。

如何存储知识图谱?

知识图谱的存储方式主要有两种:1. RDF;2. 图数据库。

  1. RDF

            RDF一个重要的设计原则是数据的易发布以及共享,另外,RDF以三元组的方式(head,relation,tail)来存储数据而且不包含属性信息。

  1. 图数据库

            图数据库主要把重点放在了高效的图查询和搜索上,一般以属性图为基本的表示形式,所以实体和关系可以包含属性。典型的图数据库有:Neo4j、GraphDB等。

RDF和图数据库的区别如下。

RDF:

  • 存储三元组

  • 标准的推理引擎

  • W3C标准

  • 易于发布数据

  • 多数为学术界场景

图数据库:

  • 关系和节点可以带属性

  • 没有标准的推荐引擎

  • 图的遍历效率高

  • 事务管理

  • 基本为工业界场景

知识图谱的用途?

  1. 银行诈骗

假设银行想要借钱给一个人,如何来判断这个人是真实用户还是诈骗用户呢?

 1. 知识图谱之深入浅出知识表示 | 简介_第2张图片

首先以人为核心采集信息,构建包括用户基本信息、借款信息、消费记录等信息的知识图谱,从而根据整体进行预测和评分这个用户存在诈骗的概率。这个预测和评分过程需要使用机器学习相关的内容,得到一个合理的模型,而这个模型中可能会包含借款信息的权重、消费记录的权重等。

  1. 知识推理

 1. 知识图谱之深入浅出知识表示 | 简介_第3张图片

如上左图是一个有向图,张三的父亲是王二,王二的父亲是李四,从这种关系我们很容易可以推理出:张三的爷爷是李四,这样就使知识图谱更加完善了。

  1. 不一致性验证

 1. 知识图谱之深入浅出知识表示 | 简介_第4张图片

比如有张三和李四2个不同的借款人,却在填写信息时写了同一个手机号码,那么可以得出这两个人中至少有一个是存在问题的,这时可以使我们重点关注他们的行为。

 1. 知识图谱之深入浅出知识表示 | 简介_第5张图片

又或者,在社交网络中,张三和李四都是王二的儿子。按理说他们的关系应该是兄弟关系,而他们在社交网络中的关系是朋友关系,那么说明存在一个人的账号出现了问题,就要纠正或重点关注。

你可能感兴趣的:(知识图谱,知识表示,人工智能)