【知识图谱】知识图谱入门详细介绍

【知识图谱】入门与介绍

文章目录

  • 【知识图谱】入门与介绍
    • 1. 引言
    • 2. 概念
    • 3. 分类
    • 4. 发展历程
    • 5. 作用
      • 5.1 搜索
      • 5.2 问答
      • 5.3 辅助大数据分析
    • 6. 知识图谱的构建
      • 6.1 数据获取
      • 6.2 信息(知识)抽取
      • 6.3 知识融合
      • 6.4 知识加工和存储
        • 6.4.1 知识存储
      • 6.5 知识推理
    • 7. 总结
    • 8. 参考

1. 引言

知识图谱是知识工程的分支,在人工智能领域有重要的作用。我们日常使用的搜索引擎背后的工作逻辑****、电商平台的智能推荐等都运用了知识图谱,本文主介绍知识图谱的基本概念、相关技术,以及知识图谱构建流程。通过本文可以了解什么是知识图谱,知识图谱经历的怎样的发展,知识图谱的作用,知识图谱如何建立以及相关技术。

2. 概念

知识图谱是人工智能的重要分支技术,在2012年由谷歌推出,是结构化的语义知识库,用于以符号形式描述知识库及其相互关系。

  • 其基本组成单位是实体—关系—实体”三元组,以及实体及其相关属性—值对;
  • 实体间通过关系相互联结,构成网状的知识结构。

【知识图谱】知识图谱入门详细介绍_第1张图片

上面的图展示了知识图谱的基本结构和单元,

  • 绿色圆圈也就是节点,代表实体;黑色直线也就是边,代表关系,蓝色圆圈也就是属性,表示实体的属性。

总之,知识图谱就是由这些节点和边组成的网络状知识库,知识图谱建立起来后的各种应用将在后面继续讨论。

3. 分类

知识图谱按照功能和应用场景可以分为通用知识图谱和领域知识图谱。其中,

  • 通用知识图谱面向的是通用领域,强调知识的广度,形态通常为结构化的百科知识,针对的使用者主要为普通用户;
  • 领域知识图谱则面向某一特定领域,强调知识的深度,通常需要基于该行业的数据库进行构建,针对的使用者为行业内的从业人员以及潜在的业内人士等。

4. 发展历程

知识图谱的起源可以追溯至1960年,在人工智能的早起发展中,有两个主要的分支,也就是两派系,

  • 一个是符号派,注重模拟人的心智,研究如何用计算机符号表示人脑中的知识,以此模拟人的思考、推理过程;
  • 一个则是连接派,注重模拟人脑的生理结构,由此发展了人工神经网络。这个时候提出了Semantic Networks,也就是语义网络,作为一种知识表示的方法,主要用于自然语言理解领域。

1970年,随着专家系统的提出和商业化发展,知识库(Knowledge Base)构建和知识表示得到重视。专家系统的主要思想认为专家是基于脑中的知识来进行决策的,所以为了实现人工智能应该用计算机符号来表示这些知识,通过推理机来模仿人脑对知识进行处理。

  • 早期的专家系统常用的知识表示方法有基于框架的语言(Frame-based Languages)和产生式规则(Production Rules)。
    • 框架语言用来描述客观世界的类别、个体、属性等,多用于辅助自然语言理解;、
    • 产生式规则主要用于描述逻辑结构,用于刻画过程性知识。

1980年,哲学概念—“本体”(Ontology)被引入人工智能领域来刻画知识,本体大概可以说是知识的本体,一条知识的主体可以是人,可以是物,可以是抽象的概念,本体就是这些知识的本体的统称。

1989年,Tim Berners-Lee在欧洲高能物理研究中心发明了万维网,人们可以通过链接把自己的文档链入其中;
在万维网概念的基础上,1998年又提出了语义网(Semantic Web)的概念,与万维网不同的是,链入网络的不止是网页,还包括客观实际的实体(如人、机构、地点等)。2012年谷歌发布了基于知识图谱的搜索引擎。

5. 作用

5.1 搜索

互联网的终极形态是万物互联,而搜索的终极目标是对万物直接进行搜索。

  • 传统的搜索是靠网页之间的超链接实现网页的搜索,而语义搜索是直接对事物进行搜索,比如人、物、机构、地点等,这些事物可以来自文本、图片、视频、音频、物联网设备等。
  • 知识图谱和语义技术提供了关于这些事物的分类、属性和关系的描述,这样搜索引擎就可以直接对事物进行搜索。比如我们想知道“《觉醒年代》的导演是谁?”,那么在进行搜素时,搜索引擎会把这句话进行分解,获得“《觉醒年代》”,“导演”,再与现有的知识库中的词条进行匹配,最后展现在用面前。

传统的搜索模式下,我们进行这样的搜索后得到的通常是包含其中关键词的网页链接,我们还需要在多个网页中进行筛选,可以看出基于知识图谱的搜索更加便捷与准确。

5.2 问答

人与机器通过自然语言进行问答与对话也是人工智能实现的标志之一,知识图谱也广泛应用于人机问答交互中。借助自然语言处理和知识图谱技术,比如基于语义解析、基于图匹配、基于模式学习、基于表示学习和深度学习的知识图谱模型。

5.3 辅助大数据分析

知识图谱也可以用于辅助进行数据分析与决策。不同来源的知识通过知识融合进行集成,通过知识图谱和语义技术增强数据之间的关联,用户可以更直观地对数据进行分析。此外知识图谱也被广泛用于作为先验知识从文本中抽取实体和关系,也被用来辅助实现文本中的实体消歧,指代消解,实体统一等

  • Entity Disambiguation(实体消歧):就是把一个实体的具体意思搞明白,比如Apple,通过具体方法计算出,它是水果,还是苹果公司。
  • Entity Resolution(实体统一 ):给定两个实体,判断是否是指向同一个实体。
  • Co-reference Resolution(指代消解):就是文本里的she,he,it 到底指代的什么。

6. 知识图谱的构建

知识体系的构建(知识图谱的构建),也叫知识建模,是指采用什么样的方式表达知识,其核心就是构建一个本体对目标知识进行描述。

  • 所谓的本体,就是一个知识描述框架,它定义了知识的类别体系,每个类别下所属的概念和实体、某类概念和实体所具有的属性以及概念之间、实体之间的语义关系。
  • 感兴趣可以去看一看中文通用知识体系的一个例子:cnschema。

知识体系的构建有两种方法:

  • 一种是自顶向下:即先构建一个完善的知识体系,再将知识填充到这个知识体系中;
  • 另外一种是自底向上:即在知识抽取的过程中,自动的扩充和构建知识体系。目前比较流行的自底向上的方法。

目前,知识图谱中的数据采用RDF数据模型进行描述,也就是大家熟悉的三元组的模式,即“实体1”-“关系”-“实体2”。例如三元组,“董事长(马明哲,中国平安)”,“董事长”表示关系,“马明哲”是头实体,“中国平安”是尾实体。

  • 目前大多数知识图谱都是采用自底向上的方式进行构建,知识图谱大致的构建流程是个不断迭代更新的过程。
    【知识图谱】知识图谱入门详细介绍_第2张图片

【知识图谱】知识图谱入门详细介绍_第3张图片

6.1 数据获取

建立一个知识图谱首先要获得数据,这些数据就是知识的来源,它们可以是一些表格、文本、数据库等。根据数据的类型可以分为结构化数据、非结构化数据和半结构化数据。

  • 结构化的数据为表格、数据库等按照一定格式表示的数据,通常可以直接用来构建知识图谱。
  • 非结构化的数据为文本、音频、视频、图片等,需要对它们进行信息抽取才能进一步建立知识图谱。
  • 半结构化数据是介于结构化和非结构化之间的一种数据,也需要进行信息抽取才能建立知识图谱。

拿到了不同来源的数据时,需要对数据进行知识融合,也就是把代表相同概念的实体合并,将多个来源的数据集合并成一个数据集。这样就得到了最终的数据,在此基础上就可以建立相应的知识图谱了。
知识图谱通过知识推理等技术获得新的知识,所以通过知识推理可以不断完善现有的知识图谱。

6.2 信息(知识)抽取

面对的都是非结构化的数据。面对非结构化的数据,就需要用各种信息抽取的手段去获得文本中隐藏的三元组。

  • 信息抽取:从各种类型的数据源中提取出实体(概念)、属性以及实体间的相互关系,在此基础上形成本体化的知识表达。

信息抽取又可以分为实体识别、关系抽取、属性抽取等。目前结构化的数据时最主要的知识来源。

  • 针对结构化的数据,知识图谱通常可以直接利用和转化,形成基础数据集,再利用知识图谱补全技术进一步扩展知识图谱。
  • 针对文本型数据这种非结构化数据,知识获取的方式主要包括实体识别、关系抽取、属性抽取等。
    • 实体识别指在一段文本中识别哪些词代表实体,并打上标签(进行分类)。例如“演员于和伟出演了电视剧《觉醒年代》”这句话中,“于和伟”和“《觉醒年代》”就是两个实体,将他们识别出来之后会分别给“于和伟”打上“演员”的标签,给“《觉醒年代》”打上“电视剧的标签”。
    • 关系抽取:识别文本(或其他数据)中实体之间的关系。例如“演员于和伟出演了电视剧《觉醒年代》”这句话中,“出演”为“演员于和伟”与“电视剧《觉醒年代》”之间的关系。
    • 具体的方法又包括基于特征模版的方法、基于核函数的监督学习方法、基于深度学习的方法等。

6.3 知识融合

在获得新知识之后,需要对其进行整合,以消除矛盾和歧义,比如某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等。

  • 很多情况下,数据来源都不单一。当知识来源于多系统时,就需要进行知识融合。例如,原本构建了一个知识图谱,现需要用一批补充的知识来更新它,就需要进行更新和去重。

知识融合的过程,大致会包括知识体系的融合和实例的融合。

  • 知识体系的融合就是两个或多个异构知识体系进行融合,相同的类别、属性、关系进行映射;
  • 实例的融合,就是两个图谱中的实例进行融合,包括实体实例和关系实例。

6.4 知识加工和存储

知识加工:对于经过融合的新知识,需要经过质量评估之后(部分需人工参与),将合格的部分加入到知识库中,以确保知识库的质量,新增数据之后,可以进行知识推理、拓展现有知识、得到新知识。

6.4.1 知识存储

知识存储就是研究采用何种方式将已有的知识图谱进行存储。目前的知识图谱存储基本都基于图数据库,比较流行的有neo4j。主要有两种存储方式:

  • 一种是基于RDF的存储;
  • 另一种是基于图数据库的存储。
    【知识图谱】知识图谱入门详细介绍_第4张图片

它们的区别是:

  • RDF一个重要的设计原则是数据的易发布以及共享,图数据库则把重点放在了高效的图查询和搜索上。
  • 其次,RDF以三元组的方式来存储数据而且不包含属性信息,但图数据库一般以属性图为基本的表示形式,所以实体和关系可以包含属性,这就意味着更容易表达现实的业务场景。
  • 其中Neo4j系统目前仍是使用率最高的图数据库,它拥有活跃的社区,而且系统本身的查询效率高,但唯一的不足就是不支持准分布式。相反,OrientDB和JanusGraph(原Titan)支持分布式,但这些系统相对较新,社区不如Neo4j活跃,这也就意味着使用过程当中不可避免地会遇到一些刺手的问题。
  • 如果选择使用RDF的存储系统,Jena或许一个比较不错的选择。

6.5 知识推理

通过知识建模、知识获取以及知识融合,基本可以构建一个知识图谱。但是,很多时候,由于知识的不完备性,搭建出来的图谱通常会有很多缺失。由于数据的稀疏性,很难通过抽取和融合的方法去丰富图谱。

  • 这时,就需要通过知识推理的方法去补齐图谱中大量的关系缺失和实体缺失。
    【知识图谱】知识图谱入门详细介绍_第5张图片

7. 总结

知识图谱是人工智能技术最重要的基础设施,是计算机能够实现推理、预测等类似人类思考能力的关键。由于知识图谱的信息抽取,知识融合以及知识推理等过程都依赖于NLP技术,因此知识图谱与NLP通常是分不开的。

在知识图谱中,如何有效表示现实世界中的知识,就是知识表示的内容。知识表示的研究由来已久,在如今的知识图谱领域,基于语义网的框架(三元组)来表示知识。知识图谱是一个既充满挑战又非常有趣的领域,它改变了现有的信息检索方式:

  • 一方面,通过推理实现概念检索;
  • 另一方面,以图形化方式向用户展示经过分类整理的结构化知识,从而使人们从人工过滤网页寻找答案的模式中解脱出来。

基于知识图谱的服务和应用是当前的一大研究热点。按照应用方式可以分为语义搜索、知识问答,以及基于知识的大数据分析与决策等。知识图谱一个很重要的作用是知识的推理,知识推理是人工智能的一个重要技术途径。

  • 基于知识图谱的信息技术在军事领域也有着广泛的应用需求,蒋锴等人在《基于知识图谱的军事信息搜索技术架构》中提出了基于知识图谱的军事信息搜索技术架构,并结合军事数据库搜索给出了具体步骤,基于知识图谱的军事信息搜索具有广泛的应用场景,能支撑情报保障、作战筹划和辅助决策等多种应用。在航天系统中,对于研究过程中存在着的大量知识和信息,通过以知识图谱为代表的知识工程技术应用,可以充分利用这些信息,实现对知识资源全面和充分的开发以及有效的利用和知识创新。

8. 参考

【1】https://blog.csdn.net/weixin_44023658/article/details/112503294
【2】https://blog.csdn.net/kuxingseng123/article/details/128941048
【3】https://blog.csdn.net/qq_27586341/article/details/93588720

你可能感兴趣的:(方法介绍,知识图谱,人工智能)